快捷搜索:  as  2018  FtCWSyGV  С˵  test  xxx  Ψһ  w3viyKQx

和记APP_蓝莲花网进入



在浩繁的行业中,数据加速是构建高效、智能系统的关键之处。传统的通用场置惩罚器在支持用户去冲破机能和延迟限定方面机能不够。而已经呈现的许多加速器技巧填补了基于定制芯片、图形处置惩罚器或动态可重构硬件的空缺,但其成功的关键在于它们能够集成到一个以高吞吐量、低延迟和易于开拓为重要前提的情况之中。由Achronix和BittWare联合开拓的板级平台已针对这些利用进行了和记APP优化,从而为开拓职员供给了一条可支配高吞吐量数据加速的快捷道路。

日益增长的散播式加速需求

在云谋略和边缘谋略中,业界渴求能够支持各类利用的高机能。为了满意这一需求,数据中间、收集集群和边缘谋略站点的运营商正在转向定制化的加速器技巧。

对付必要高机能谋略平台的用户,专用加速器在实践中被常用来应对各类寻衅;这些用户不再寄托诸如Intel Xeon系列CPU这样的传统通用CPU来支持数据吞吐量赓续增长这一需求。通用CPU的核心问题在于,只管摩尔定律不停在以大年夜约每两年就会使每平方毫米硅片中集成的晶体管数量增添一倍的速率演进,但它不再支持时钟速度的增长。此外,CPU内的并行性很快达到了天花板。是以,其他技巧更得当支持新型事情负载,包括如机械进修、基因组钻研、数学和统计阐发、语音和图像识别以及数据掘客和搜索。

与传统由数据库驱动的利用比拟,这些新的事情负载平日无法很好地映射到传统CPU流水线上;例如一些神经收集的练习已被验证可以在GPU上运行优越,这些算法可以使用数百个并行浮点着色器内核经由过程所需的数万亿个步骤来迭代更新一个大年夜型收集。另一方面,基因组钻研和数据搜索必要使用大年夜量的比较步骤,并需处置惩罚低分辨率的整数数据。只管这些事情负载可以使用CPU或GPU来完成处置惩罚,然则在这些平台上运行时,这些义务的谋略效率和能效相对较低。自定义的基于ASICFPGA的加速器能够以更低的功耗供给更大年夜的和记APP吞吐量,这是由于它们支持设计职员去构建针对这些操作和数据类型进行优化的专用电路

互联网搜索和社交媒体等领域内的超大年夜规模数据中间运营商已采纳加速器观点来保障其办事器载荷的高效运转。语音相应系统现在已经被用于日常生活中,并获得了运行在传统刀片办事器与自定义加速器组合上的人工智能算法的支持。跟着对这些基于机械进修和数据掘客等技巧的利用的需求赓续增长,大年夜量的企业用户正在转向基于加速器的规划,以使他们自己能跟上需求的方式。据钻研机构Research and Markets的阐发猜测,仅数据中间加速器这一市场的规模,就将从2018年的28亿美元增长到2023年的212亿美元,复合年增长率靠近50%。

在这种增长之外,加速器的利用还注定将扩展到数据中间之外。诸如虚拟现实、自动驾驶、机械人技巧和工业4.0等领域无法忍受信息在颠末远程数据中间中继后带来的电信延迟。越来越多的谋略能力将必要被支配在边缘谋略机架中,而被安装于路边机柜中、移动基站旁或校园柜子内。

在各类数据中间和边缘谋略用例中,有诸多常见的需求驱动身分,比如能效,快速转型,以及可扩展性。能效是低落冷却资源和繁杂性以及将电费花销降到最低的核心要求。低功耗操作在边缘谋略装配中至关紧张,由于此中的情况温度的节制功能较弱,并且还需将掩护的需求维持在最低限度。

在许多领域中,快速转型是弗成避免的,并会创造新的需求,以便在变更呈现时能够根据要求对利用进行调剂和再加工。它不仅仅是对现有利用的更新;平日,新的用例在呈现时,都邑寻衅用户及时做出反映的能力。而这些用例可能必要开拓将不合的技巧和观点结合在一路的利用,例如将人工智能(AI)功能添加到数学建模和数据掘客系统中。为了应对这些转型,用户必要调用可以很好地进行协同事情的加速器技巧,并且各个组件可以经由过程收集连接来进行高速通信。

可扩展性同样紧张。跟着面向特定办事的客户群赓续增长,运营商必要知道他们能够轻松地增添容量。同样至关紧张的是,具有高效通信能力的高度可编程办理规划经由过程增添并行性来支持其扩展能力。对诸如100 Gbps以太网和更快的链路等协议的支持,可确保能够应用散播式处置惩罚去适应增长。例如,边缘利用可能会调用云支持,直到本地机柜进级到具有额外的处置惩罚能力。

用于加速的硬件平台

加速器的硬件可以有多种形式。抱负的设置设置设备摆设摆设是供给PCI Express(PCIe)和高速以太网连接的组合,并可以选择添加自定义连接以支持诸如环形、网状和菊花链布局等各类拓扑布局,以满意利用的各类数据吞吐量需求。对PCIe的支持经由过程内存映射接口将加速引擎与主处置惩罚器和其他加速器慎密集成。能够在诸如PCIe之类的接口上存储共享布局来互换数据,就可以极大年夜地简化散播式利用的开拓。

以100 Gbps或更高速度运行的以太网连接进一步供给了扩展范围。经由过程应用它们自有的以太网端口,而不是经由过程主机的主收集接口来路由数据包,加速器可以彼此间高效地互相和谐。例如,在一个散播式存储设置设置设备摆设摆设中,加速卡可以被直接连接到嵌入式非易掉性存储器(NVMe)模块上,每个模块中的自力搜索引擎应用经由过程其以太网连接发送的消息,来识别分散在多个节点上的数据,从而可以很轻易地进行和谐。

无论是作为主要的加速技巧照样与GPU和其他技巧共同应用,FPGA都异常得当数据中间和边缘谋略利用的需求。FPGA的一个关键上风是可以在系统中来对其进行编程,以创建各类各样的数字电路。软件可以为目标利用选择设置设置设备摆设摆设比特流,并将其发送以设置设置设备摆设摆设FPGA。经由过程将新模式加载到器件上的逻辑阵列中,FPGA可以根据必要进行动态更新以承担新的义务。可编程性创建了由软件定义的硬件,从而完全支持用户不仅能够动态变动利用,还可以动态变动支持它们运行的硬件。将硬件可编程性与连接多个加速器的能力相结合,为用户供给了极大年夜的机动性。

许多谋略类用户已经意识到FPGA在加速利用中的强大年夜功能。例如,微软的Catapult项目应用FPGA为其搜索办事构建加速器,并且在其BrainWave项目中应用FPGA进行高速人工智能推理。亚马逊经由过程其F1办事供给了可在云端应用的FPGA,这使获得远程用户可以轻易地支配这项技巧。

在其他领域选择应用FPGA加速也已有一些光阴。例如, FPGA逻辑阵列多年来不停被用于军事和航空航天领域的雷达处置惩罚,以及医学领域的实时成像。跟着工业领域吸收了及机会械设备康健监测等观点,以作为迈向工业4.0的一部分,用户可以转向应用FPGA来前进其算法的质量和相应能力。

相对付应用GPU来进行数据加速,采纳FPGA的实现要领平日受益于较低的延迟和更高的能效。GPU的一个关键问题是:它们的谋略效率平日只是其理论吞吐量的一小部分。由于GPU针对3D图形衬着流水线进行了优化,基于数据高度重用的履行流水线设计,导致着色器内核每每会在相对较小的本地存储以外运行。数据流式事情负载供给的数据重用时机更少,这就意味着必要更频繁地用新数据来添补存储器,而这会影响处置惩罚光阴。CPU中面向缓存的子系统也同样受制于类似的问题。FPGA可以实现数据自由流动的完备流水线,是以可以供给了远远高于GPU或者CPU的谋略效率。例如,基因组钻研利用的基准测试注解,与基于CPU的实现要领比拟,基于FPGA的硬件可将速率前进80倍。

在高机能谋略和云谋略情况中,架构师正在转向FPGA加速以避开系统中其他部分呈现的瓶颈。经由过程将更多事情移交给存储子系统本身,数据中间用户可以在效率上获得大年夜幅提升。数据库加速、数据阐发和其他适用于谋略型存储的处置惩罚形式可以与加密、去重复数据和安然擦除编码等低层级办事功能一路被支配在加速器上。

跟着诸如软件定义收集(SDN)和收集功能虚拟化(NFV)等观点的盛行,刀片办事器在数据中间内部和数据中间之间的通信治理义务中正发挥着更为紧张的感化。然则,跟着线速增添到100 Gbps以致更高,Xeon级办事器处置惩罚器的处置惩罚包袱是异常伟大年夜的,数据中间运营商热衷于将许多SDN功能的处置惩罚事情卸载到相近的加速卡上。在新兴的架构中,通用办事器CPU被用于处置惩罚非常事故,而同时加速器则认真处置惩罚大年夜量的收集流量。当新的需求、利用和安然要挟呈现时,FPGA能够更新算法和收集协议处置惩罚,从而使它们成为收集加速的抱负根基平台。

实施有效加速

被亚马逊(Amazon)、Facebook和微软(Microsoft)等超大年夜规模用户采纳的第一批加速器都是大年夜幅度定制的设计。这些公司能够在打造自己的板卡设计中确保所需的规模经济,无论是基于自己设计的专用集成电路(ASIC),照样采纳现成的FPGA和GPU。从资源和光阴的角度来看,对付企业数据中间和边缘谋略用户来说,他们难以在这种定制芯片级设计中找到合理的规模。然而,设计定制的ASIC和板卡并不是必需的。对诸如以太网和PCIe等标准接口的需求,不仅使应用标准板卡级产品成为可能,而且也是可取的。

作为一家经久供给硬件加速产品的供应商,BittWare不停在为从高机能谋略到云加速到仪器仪表等浩繁领域内的客户设计采纳PCIe尺寸的、基于FPGA的板卡,并在这方面积累了富厚的履历。现在,作为Molex集团的子公司,BittWare能够充分借助其举世供应收集以及与戴尔(Dell)和惠普企业(HP Enterprise)等办事器供应商的深挚关系。BittWare是独逐一家可与多家主流FPGA供应商相助的紧张批量化供应商,能够满意企业客户的质量认证、验证、产品生命周期治理和支持需求,这些客户盼望为关键义务型利用去年夜规模支配FPGA加速器。

在这些利用中,BittWare实现的一个紧张差异化在于该公司为其基于FPGA的加速器供给了广泛的软件支持。每个加速卡均配有适用于Linux和Windows系统的驱动软件,可经由过程PCIe和以太网连接将其快速集成到各类系统中。除了支持主CPU和加速卡之间的通信外,该驱动还支持接入加速卡上的嵌入式固件。这个固件可以处置惩罚浩繁治理和自检功能。

它们使FPGA电路能够根据必要的新功能从新进行设置设置设备摆设摆设,此外还供给了一些对功耗、电压和温度的监测法度榜样。假如主机系统中的冷却功能掉效,那么担负治理者的固件可以关闭加速卡,以避免热过载。此外,软件组合包还包括各类参考设计,以便开拓职员能够快速构建设置设置设备摆设摆设,使他们可以测试加速卡的功能并开始在其自己的利用上事情。

对付最新一代的加速卡,BittWare与Achronix相助无懈。Achronix是独逐一家能够同时供给自力FPGA芯片和嵌入式FPGA(eFPGA)半导体常识产权(IP)的FPGA供应商。VectorPath™S7t-VG6加速卡应用了Achronix采纳7nm工艺打造的、结合了很多功能的Speedster7t FPGA芯片,不仅可以在内部供给高吞吐量数据加速,而且还支持现今从机械进修到先辈仪器等系统所需的高度散播式、收集化的架构。

图1:VectorPath S7t-VG6加速卡

软件友好型的硬件供给了最大年夜的机动性

经由过程对散播式架构供给直接支持,VectorPath S7t-VG6加速卡中应用的Speedster7t FPGA芯片标志着与传统FPGA架构不合的重大年夜转变,它使面向软件的开拓职员更轻易地构建定制化的处置惩罚单元。这种立异的全新架构与诸如英特尔(Intel)和赛灵思(Xilinx)等供应商临盆的传统FPGA完全不合,传统FPGA的设计关注点并不在数据加速。

在设计Speedster7t的架构时,Achronix创建了一种可最大年夜限度地前进系统吞吐量的FPGA芯片,同时还为谋略机架构师和开拓职员前进了易用性。与传统的FPGA架构比拟,Speedster7t FPGA芯片的一个关键差异化点在于它包括一个立异的二维片上收集(2D NoC),可以在逻辑阵列内的处置惩罚单元与各类片上高速接口和存储器端口之间传布数据。

传统的FPGA要求用户去设计电路来将其加速器连接到高速以太网或PCIe数据端口和/或存储器端口。平日,一个自力系统是由连接到多个高速端口的多个加速器组成。例如,下图就阐清楚明了一种场景,此中有两个加速器连接到两个存储端口上,以共享一个存储空间。这种场景应用了FIFO来治理存储器和FPGA时钟之间的时钟域交叉(CDC)。此外,FPGA逻辑架构中还必要一个互换功能来治理寻址、仲裁和反压。在传统的FPGA中,这项功能会耗损大年夜量的FPGA资本,并且其繁杂程度足以低落系统机能并使时序收敛变得繁杂。

Achronix采纳了由软件设计来实现硬件的措施,而这种硬件中的以太网和其他高速I / O端口可用二维片上收集(2D NoC)轻松地连接到定制的加速器功能上。Speedster7t NoC不再必要设计CDC和互换功能来将加速器连接到高速数据或内存端口。经由过程简单地将这些功能连接到NoC,就打消了连接方面的难题,从而简化了设计,削减了FPGA资本的耗损,前进了机能并简化了时序收敛。

图2:传统FPGA设计面临的寻衅

图3:Speedster7t二维片上收集支持软件友好型硬件

为了实现高机能的算术运算,每个Speedster7t器件都具有一个大年夜型可编程谋略单元阵列,它们被有序地放置在机械进修处置惩罚器(MLP)单元模块中。MLP是一个高度可设置设置设备摆设摆设的谋略密集型单元模块,在每个周期内可支持多达32个乘法/累加(MAC)运算。在以加速器为中间的设计中,MLP的存在使得在完全可编程逻辑和硬连线算术单元之间能够有效地共享资本。

只管有些FPGA倾向于应用HBM2存储器,此中FPGA和存储器被组装成一个昂贵的2.5D封装,而Speedster7t系列却采纳GDDR6内存标准接口。这种接口供给了当今片外存储器可实现的最高机能,并且资源显明低落,从而使团队更轻易去实现带有高带宽存储阵列的加速器。一个GDDR6存储节制器可以支持512 Gbps的带宽。VectorPath S7t-VG6加速卡可供给八组存储器,总存储带宽可以达到4 Tbps。此外,板上还有一个DDR4接口,可用于造访频率较低或不必要GDDR6吞吐量的数据。

VectorPath S7t-VG6加速卡供给了许多高机能接口,用来支持散播式架构和高速主机通信。现在,该加速卡供给了PCIe Gen 3.0的16通道合规性和认证,并供给获取Gen 4和Gen 5天资认证的道路。在以太网连接方面,该加速卡采纳已得到广泛支持的光学接口模块,依据QSFP-DD和QSFP56标准,能够处置惩罚高达400 Gbps的超高线速。

在加速卡的另一端还有一个OCuLink扩展端口,以支持很多其他的低延迟利用处景。例如,OCuLink端口可用于将加速卡连接到各类外围设备上,比如用于谋略存储或数据库加速利用的NVMe存储阵列。与采纳连接到主处置惩罚器的PCIe接口比拟,OCuLink连接能够成为一个更好的选择,由于它供给了一种打消了系统级延迟和哆嗦的高确定性的连接。OCuLink端口还可以引入其他收集连接,从而可扩展实现QSPF-DD或QSFP56之外的各类和记APP端口规格。

图4:VectorPath的收集和存储接口

在VectorPath S7t-VG6加速卡的前面板上还包括多个时钟输入,它们是在将多个加速卡同步到一路时平日必要的。两个SMB时钟输入连接器支持从1PPS和10 MHz的时钟输入,它们在进入FPGA之前,就已被连接到哆嗦清除器。一旦进入FPGA,这些时钟就可以被倍频或分频成为特定利用所需的频率。

还可以经由过程通用数字I / O端头进行进一步扩展。该I / O端口支持单端3.3V连接和低电压差分(LVDS)旌旗灯号,支持外部时钟、触发器和专用I / O等自定义旌旗灯号直接连接到Speedster7t FPGA。该扩展端口还可用于将VectorPath加速卡改造为传统硬件。

图5:VectorPath时和记APP钟输入和GPIO

适用于小批量和大年夜批量需求

VectorPath S7t-VG6加速卡已斟酌到了每个细节,例如可支持被动和主动空气散热和液体散热。此外,BittWare和Achronix还为医疗等必要更长产品生命周期的领域确保供给经久的供应与支持。在这些市场中,基于GPU的PCIe加速卡较短的产品生命周期与跨越10年的系统办事支持需求是不符的。

对付更大年夜批量需求,分外是在边缘谋略等场景中,客户可以应用BittWare的资源低落计划来简化硬件,其设计仅仅支持客户所需的I / O选项。此外,BittWare也可供给电路板设计文件以及VectorPath S7t-VG6加速卡随附的软件和驱动器的应用。使用Achronix的Speedcore eFPGA IP,也可以走向定制系统级芯片(SoC)器件。客户可以构建自己此中包括Speedster7t可编程性的SoC,但又具有ASIC的资源布局。

为了实现更好的开拓和更便捷的支配,VectorPath S7t-VG6加速卡可以由BittWare以其TeraBox平台的形式来供给预先集成的多查究事器。形状从2U到5U,TeraBox的机架式机箱最多可容纳16个BittWare PCIe加速卡,并由双路英特尔(Intel) Xeon处置惩罚器治理。作为一个完备的办理规划,TeraBox为客户供给了启动和运行FPGA开拓的最快机制。在Bittworks II和FPGA Devkit软件的支持下,用户可以直接应用TeraBox并急速开始开拓事情。或者,客户也可以从Dell和HP Enterprise购买包孕BittWare加速卡的预设置设置设备摆设摆设办事器。

图6:TeraBox平台的支配

结论

斟酌到用户必要在多种多样的利用中寻求数据加速功能,BittWare和Achronix已经创建了一种高度机动的引擎,无论它们是被零丁应用,照样作为大年夜型异构处置惩罚阵列中的一部分,都可以被轻松支配。作为该加速卡的核心芯片,Speedster7t FPGA为开拓职员供给了构建高吞吐量利用的能力,这些利和记APP用可以充分使用可编程逻辑、PCIe以及高达400 Gbps的以太网连接。BittWare的软件和支持包管了这些开拓职员在插入卡后就可以急速开始事情。FPGA和Speedster7t NoC的机动特点意味着:跟着利用的变更和成长,这些加速卡可以最大年夜限度地延长其应用寿命。

您可能还会对下面的文章感兴趣: