CRAFT计划迈出重要一步,496个核心的RISC-V芯片诞生

2020-01-13来源: 半导体行业观察关键字:RISC-V  Celerity

一分十一选五_[官网首页]对于那些不熟悉Celerity的人,我可以告诉你,这是在多家大学共同努力下,而创造的一个开源多核RISC-V分层(tiered)加速器芯片。该项目是DARPA快速电路实现(Circuit Realization At Faster Timescales:CRAFT)计划的一部分,该计划希望将定制集成电路的设计周期从几年缩短到几个月甚至几周。Celerity团队首先在Hot Chips 29上展示了该芯片。

 

去年,在VLSI 2019上,Celerity又回来谈论其第二代芯片的PLL和NoC。一分十一选五_[官网首页]演示文稿由密歇根大学的Austin Rovinski进行。

 

下面我们先对整个Celerity SoC进行快速概述:它是一个多核多层(many-core multi-tier)AI加速器。总体而言,该芯片包括三个主要层:通用层,大规模并行层和专用层。为什么要使用分层SoC?这是为了在典型的CPU设计上实现高灵活性和更高的电源效率(尽管效率不及ASIC NPU)。

 

通用层几乎可以执行任何操作,例如通用计算,内存管理以及控制芯片的其余部分。为此,他们集成了Free Chip Project的五个高性能乱序RISC-V Rocket内核。

 

下一层是大规模并行层,它将496个低功耗定制设计的RISC-V内核集成到一个网格中。这些称为Vanilla-5的自定义内核是有序标量内核,其占用的空间比Rocket内核少40倍。一分十一选五_[官网首页]最后一层是集成二值神经网络(BNN)加速器的专业化层。一分十一选五_[官网首页]这三层都是紧密链接的,并通过400 MHz运行的DDR存储器接口连接。

 

 

Celerity上的Manycore Mesh时钟由自定义数字PLL提供。这是一个相当简单的一阶ΔΣ频率数字转换器(FDC)PLL。该实现使用了一组16个DCO ,每个实现为环形振荡器,其反相元件装有NAND门FCE,如以下幻灯片中的电路图所示。这样做是为了仅使用标准单元来实现整个设计。为此,整个数字PPL是完全合成的并自动放置和布线的设计。该PLL在其16纳米芯片上的频率范围为10 MHz至3.3 GHz。

 

 

一分十一选五_[官网首页]与许多学术项目一样,硅面积也非常重要的。我们看到,整个芯片为25平方毫米(5×5)。而对于Celerity而言,许多关键的架构设计决策都以限制硅面积的需求为主导,这意味着降低了复杂性。Manycore本身是16乘31的Vanilla-5 RISC-V小型内核阵列。一分十一选五_[官网首页]该阵列的第32行应该是用于外部主机,用于与芯片上的其余组件进行连接(例如,将消息/数据发送到大型Rocket内核以进行最终处理)。整个网格为3.38毫米乘4.51毫米(15.24毫米²),约占整个芯片的61%。Vanilla-5核心是5级有序流水线RV32IM核心,因此它们支持整数和乘法扩展。一分十一选五_[官网首页]在硅芯片中,这些内核能够达到1.4 GHz,比他们在Hot Chips 29上展示的第一个硅芯片高350 MHz。

 

 

为了降低多核阵列的复杂性,Celerity利用分区的全局地址空间进行单芯片数据包(single-flit packets)和远程存储编程模型。

 

该阵列利用了全局分区地址空间(global partitioning address space:GPAS)。换句话说,这个芯片不是使用高速缓存,而是使用32位地址方案将整个内存地址空间映射到网络中的所有节点上。这种方法也意味着无需虚拟化或翻译,从而大大简化了设计。他们声称,与等效的一致性缓存系统相比,该设计可将区域开销降低20倍。

 

值得指出的是,由于该多核阵列的目标工作负载是AI加速(相对于更通用的计算),因此它们可以采用显式分区(explicitly partitione)的暂存器存储方案,因为这些工作负载表现出高度并行的定义明确的独立流模式。而且,对于这种类型的代码,控制存储器局部性的能力可能证明是非常有利的。阵列中的每个核都可以自由执行加载并存储到任何本地地址,但是,它只能执行存储到远程地址。没有远程负载意味着它们将路由面积( router area)减少了10%,并且由于可以对远程存储进行流水线处理,因此可以防止流水线停顿。这种远程存储编程模型方案允许他们使用两个网络来实现此目的:数据网络和用于管理优秀存储的可心计数器网络(credit counter network )。

 

 

如前所述,第32行用于外部主机。实际上,这意味着内存映射扩展到阵列底部的十六个路由停靠点,这使消息可以从多核阵列传入和传出多核阵列,到达芯片上的大核和其他外设。

 

Celerity并没有使用这种类型应用程序非常常见的wormhole routing(也由Kilocore,Piton,Tile64等使用),而是将地址和数据合并到单个flit数据包中。该设计摆脱了发送数据都需要的标题/尾部信息。另外,由于没有保留的路由,它摆脱了HOL阻塞。每个flit均为80b宽,其中控制位16位,数据位32位,节点地址位10位,存储器地址位22位。flit节点地址保留了将数据发送到任何目的地的能力。该设计的主要好处是,由于仅将单个flit注入网络,因此可以使用有序管道在每个周期执行一个存储。

 

 

在多核阵列中的496个节点中,每个几点都有一个路由。路由本身在每个基本方向(N,S,E,W)的输入处都包含两个元素的FIFO,以及在网络拥塞情况下用作临时存储的控制处理器。他们使用循环仲裁(round-robin arbitration)来确定数据包的优先级,从而可以在每个周期对每个方向进行仲裁(arbitrate )。他们使用尺寸顺序的布线(在一个方向上减小偏移,然后再移动到另一方向)。通过简单的设计,他们可以将整个路由实现为单级设计,而节点之间没有管道寄存器。换句话说,每跳只需要一个周期。例如,任何相邻的核心存储区的延迟只有3个周期-转到本地路由,跳到相邻路由,最后去邻居的记忆空间,路由器与内核位于相同的时钟域,这意味着它们还可以在高达1.4 GHz的频率下运行。

 

有两个网络-数据网络和信用计数器网络。路由器使用源控制的credit counter,每次将远程存储包注入网络时,该计数器都会递减。credit 通过credit counter网络返回,该计数器使用与上述数据相同的体系结构,但只有9位,因为它只包含节点地址。

 

 

那么,将这些加起来又是什么呢?Celerity团队报告了在500 mH到1.4 GHz的频率范围内在600 mV至980 mV的正确操作(在CoreMark上)。我们相信Celerity现在是时钟频率第二高的大学芯片,仅次于Kilocore(值得指出的是,由于封装方面的限制,Kiloecore只能支持其1000个内核中的160个)。在1.4 GHz时,整个网格的最大计算能力为694.4 INT32 GOPS。他们以每秒Giga-RISC-V指令(GRVIS)而不是GOPS报告其数字,以便强调一个事实,即这些指令是完整的RISC-V指令,而不仅仅是整数运算。请注意,由于Vanilla-5内核是RV32IM,它们支持RISC-V整数和乘法扩展,但不支持浮点运算,因此所有AI工作负载都必须进行量化。由于将节点互连的路由与核心位于相同的时钟域,每个路由每个周期支持5个flit,因此每个节点的总聚合带宽为748 Gbps,总聚合网络带宽为371 Tb / s。

 

 

令人遗憾的是,Celerity团队没有报告任何与AI相关的常见基准测试结果。相反,他们选择使用CoreMark,它们达到580.25 CoreMarks / MHz,总得分为812,350。在过去的几年中,CoreMark一直是RISC-V社区的首选比较基准。但CoreMark的问题在于,它通常会为简单的有序设计产生令人难以置信的乐观分数,这些分数似乎可以与经过良好调整的现代无序设计很好地竞争,而实际工作负载却表现出截然不同的结果。鉴于此芯片的前提是生产高度灵活的AI加速器,我们希望鼓励Celerity团队提供更有意义的结果,例如正式提交MLPerf。

 

我们现在可在Celerity网站上访问Celerity的开源RTL 。 

关键字:RISC-V  Celerity 编辑:muyan 引用地址:http://news.kanmaya.com/qrs/ic485512.html 本网站转载的所有的文章、图片、音频视频文件等资料的版权归版权所有人所有,本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如果本网所选内容的文章作者及编辑认为其作品不宜公开自由传播,或不应无偿使用,请及时通过电子邮件或电话通知我们,以迅速采取适当措施,避免给双方造成不必要的经济损失。

上一篇:终于等来了10nm,Intel十代酷睿i7-1068G7本季度投产
下一篇:联发科G70处理器亮相,但不支持5G

关注eeworld公众号 快捷获取更多信息
关注eeworld公众号
快捷获取更多信息
关注eeworld服务号 享受更多官方福利
关注eeworld服务号
享受更多官方福利

推荐阅读

倪光南看好开源芯片:RISC-V将与英特尔ARM三分天下
据澎拜新闻报道,日前2019国际芯片大会(Chips 2019)在北京举行,中国工程院院士倪光南展望了开源芯片的前景。他表示:“未来RISC-V很可能发展成为世界主流CPU之一,从而在CPU领域形成Intel(英特尔)、ARM、RISC-V三分天下的格局。”据悉,“开源”(开放源代码)是一种开发模式和商业模式,以Linux为代表的开源软件已经成为了当前软件产业的主流。而RISC-V开源指令集可以理解为与开源软件相对应的一种开源硬件。“未来RISC-V很可能发展成为世界主流CPU之一。”这与其本身开放、简约的特点有关。在设计方面,免除授权费用和知识产权风险的完全开源免费,是RISC-V存在的主要意义。RISC-V指令集在最初
发表于 2019-12-21
RISC-V基金会创始成员晶心科技晋升为白金会员
 RISC-V基金会创始成员——晶心科技,是32/64位嵌入式CPU核心的领先供货商,其客户每年量产逾10亿颗多样化的SoC,宣布已被RISC-V基金会晋升成为白金会员(Platinum member)。 晶心科技于2016年以创始成员的身份加入RISC-V基金会,将其在嵌入式CPU开发和支持多样化应用的丰富经验应用于提升RISC-V指令集架构。晶心的商业授权合约逾300份,且采用晶心架构的SoC全球累计出货量已突破四十亿颗,是第一家将RISC-V开源指令集作为新一代指令集架构且兼具市场和技术专业的上市CPU IP供货商。晶心也持续深耕开源软件,目前为RISC-V开源软件的主要贡献者与维护者(包括GNU
发表于 2019-12-18
UltraSoC开源RISC-V追踪实现技术,推动真正的开源开发
UltraSoC宣布:它将通过与OpenHW集团(OpenHW Group)合作以提供其业界领先的RISC-V追踪编码器的开源项目。提供量产级的、符合标准的处理器追踪解决方案可为开发人员提供关键推动力,并支持OpenHW集团去实现其创建一个基于开源处理器的、开放的、商业级的技术开发生态系统的目标。 UltraSoC首席执行官Rupert Baines表示:“我们完全相信行业标准和开源的重要性;通过开源提供该编码器,我们可以帮助行业去采用RISC-V、增强生态系统并支持兼容性和一致性。在软件领域,开源是一种常见的模式;但是在硬件领域,我们才刚刚开始探索这种强大方法的可能性。RISC-V ISA已经提供了最初的动力
发表于 2019-12-11
IAR Systems开发适用于RISC-V的新版工具
用于嵌入式开发的软件工具和服务供应商IAR Systems日前发布了用于RISC-V的IAR嵌入式工具的新版本。1.20版增加了对基本指令集RV32E的支持,以及对Atomic操作的标准扩展。通过优化技术,IAR Embedded Workbench可帮助开发人员确保应用程序满足所需的需求并优化板载内存的利用率。 1.20版增加了对基本指令集RV32E的支持,该指令集针对较小的嵌入式设备,其寄存器集减少到RV32I中可用寄存器的一半。Atomic操作的标准扩展添加了支持Atomic读取、修改和写入操作的指令,以支持访问同一内存的不同硬件进程之间的同步。RISC-V是一种免费的开放式指令集体系结构(ISA),基于已建立的精简指令集
发表于 2019-12-10
Aerendir与SiFive合作打造基于RISC-V的边缘AI
AI身份验证、识别、加密和机器人开发平台供应商Aerendir Mobile日前宣布,将把其数学深度学习核心和AI基础设施的技术,与处理器核心IP和芯片解决方案提供商SiFive的RISC-V核心IP结合,可实现用于深度学习的广泛组合。 这种组合将降低真正的AI的成本,使其能够为IoT边缘应用提供更低成本。Aerendir将提供三种版本的无云设备的AI产品:一种具有较高DSP性能的高端产品,一种具有中端和低成本的产品。
发表于 2019-12-10
小广播
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号 电信业务审批[2006]字第258号函 京公海网安备110108001534 Copyright © 2005-2020 kanmaya.com, Inc. All rights reserved

页面底部区域 foot.htm