加速云基于FPGA的加速解决方案搞定高算力AI应用场景
人工智能(AI)和大数据的不断发展带来对超高计算力的需求,使得相应硬件组成和算法架构也在不断在创新中寻求突破,以达到新应用所需的计算能力。
本文引用地址:http://www.amcfsurvey.com/article/201804/378661.htm就近几年的发展来看,高计算能力的处理器从硬件架构上基本可以分为三个阵营——GPU、FPGA和ASIC。相较于GPU、ASIC而言,FPGA的低延时、确定延时、高性能功耗比、灵活可配置计算精度、高速通信互联I/O接口等特性,为其在产品设计及性能对比中屡屡拿下可观战绩。
近日,致力于异构加速和业务卸载的方案供应商杭州加速云信息技术有限公司基于FPGA推出两大系列硬件加速产品——SC-OPS和SC-VPX,两个IP库——FDNN(深度学习库)和FBLAS(数字加速库),以及三大解决方案——深度学习解决方案、高性能计算机数字信号处理解决方案和边缘计算解决方案。
两大系列硬件加速产品
SC-OPS是加速云推出的全球首张Intel Stratix 10 FPGA加速卡,采用Intel最新14nm工艺的Stratix10GX2800 FPGA器件,集成了2753K LE和9.2T FLOPS单精度浮点处理能力,板载8组DDR4 2133MHz72bit颗粒,支持ECC,支持32GB内存容量和1092Gbps的访问带宽。单板支持12个200维双精度线性方程求解,运算时间为466μs,其性能是x86系统的60~120倍;采用AlexNet卷积神经网络,单卡可以实现4500帧/s以上图像分类,广泛应用于数据中心、云计算、机器视觉、深度学习、高性能计算、仿真、金融等领域。
SC-VPX是一款超高计算密度的VPX刀片加速平台,采用Intel Stratix 10 GX2800器件,兼容GX1650,6U整机可以支持92T/50TFLOPS单精度浮点运算能力,整机可以通过交互版互联构筑更大的系统,同时系统可以扩展各种接口卡和存储卡(单卡4TB容量,2GB读写性能),可以通过各种卡组合扩展各种应用。基于SC-VPX加速平台可以构造业界先进、灵活、高效的信号处理和深度学习架构,主要定位高校研究所等单位的雷达,通信,深度学习相关领域的产品原型快速搭建和算法开发与应用。
两大IP库
深度学习加速库FDNN是国内首个支持通用卷积神经网络的FPGA加速库,基于RTL级代码,包含卷积、池化、全连接、非线性函数等参数可配置的深度学习基础库,兼容CAFFE/TensorFlow模型数据的参数可配置的CNN/DNN/RNN库,后向更新算法、随机初始化算法及SGD算法的参数可配置的深度学习训练库,以及VGG 16、GoogleNet、LeNet、YOLO、SSD、ResNet、Faster-RCNN各种常见模型。可以提供很高的性能和灵活配置特性。
而高性能计算加速库FBLAS是业界高性能的RTL级数学加速库,含有矩阵运算、线性方程求解、微分方程求解、傅里叶变换(FFT)、三角函数、超越函数等多种运算可供直接调用,同时兼容OpenBlas库接口。
三大解决方案
深度学习加速解决方案。由于FPGA具有很高的性能功耗比,而且基于门级电路设计使得FPGA是一个超低延时和确定延时的方案,FPGA可编程及动态可重构可以适应深度学习未来算法变化,IO可编程性可以满足更多业务需求。为此,加速云推出一整套基于FPGA的深度学习加速方案,包括SC-OPM/SC-OPF/SC-OPS加速卡及FDNN加速库,满足客户对深度学习高性能、灵活性加速要求。为了方便客户使用高层语言开发,加速云提供基于FPGA完整的OpenCL异构开发环境,快速实现用户自定义的深度学习加速方案。同时加速云也提供快速深度神经网络定制加速服务。如下图所示为某电商平台采用加速云深度学习解决方案的OCR(Optical CharacterRecognition,光学字符识别)方案。
数字信号处理解决方案。加速云的SC-OPS和SC-OPX产品针对5G通信和雷达等数字信号处理系统的要求,结合Intel最新14nm工艺的 Stratix10 FPGA系列,提供了一套完整的硬件和软件相结合的数字信号处理解决方案,借助于自家的FBLAS数据加速库,能够实现高性能矩阵运算(矩阵乘、转置、求逆、QR分解)和超高速FFT,以及具有高性能算法参数可配置的特点实现了多重信号分类(MUSIC)和自适应数字波束形成(ADBF)的核心算法,提高了5G通信和雷达抗干扰能力。另外,为了方便客户使用高层语言开发,加速云提供基于FPGA完整的OpenCL异构开发环境,快速实现用户自定义的信号处理加速方案。如下图为采用加速云数字信号解决方案的ADBF(自适应数字波束形成)解决方案的相关性能。
边缘计算解决方案。现在工业控制领域面临着三大趋势:日益复杂的控制算法、低延时和高带宽的工业控制总线,以及人工智能的工业应用,这对工业控制处理系统提出了包括高计算性能、强实时性、多IO接口能力等更高的要求。针对此,加速云采用高性能Intel Arria10 GX660器件的智能工控解决方案具有模块化设计、强实时特性、高性能的算法IP加速和完整的OpenCL异构开发环境,可以实现新一代高性能边缘计算网关,应用于各种工业环境。
基于FPGA的异构计算将是计算架构的未来趋势
加速云创始人兼CEO邬刚表示:“人工智能已经进入我们的生活,但是未来发展还存在瓶颈,需要硬件技术和算法方面的突破。异构计算是计算架构的未来趋势,而FPGA 是实现异构计算的完美选择。加速云创新的异构计算加速平台解决方案,具有高性能、高效率、低延时特性以及可编程性和远程可重构能力,非常适合云上的弹性业务的需求。我们希望能够通过我们的技术,帮助更多的企业实现深度学习,在大数据时代赢得先机。”
评论