Arm在2018为业界又带来了哪些惊喜?
在踏入互联网时代,尤其是移动互联网时代,能够得到时代宠幸的公司并不多,其中,Arm算是一个。
本文引用地址:http://www.amcfsurvey.com/article/201807/382740.htm而近期,Arm又针对当下应用潮流对于高性能处理器的需求,推出了更高性能的产品序列,包括移动领域应用的Cortex-A76,视觉影像应用的GPU——Mali-G76,以及针对超高清视频处理器解决方案的Mali-V76。
更高效率的Cortex-A76
新一代Cortex-A76相对于前代(Cortex-A75)而言,同样采用了于2017年对外发布的DynamIQ技术前提下,还采用了先进的7nm制程工艺,实现了35%的性能提升、40%的能效提升和4倍的机器学习运算能力。
Arm第二次应用到Cortex架构CPU中的DynamIQ技术,其实是Arm于2017年发布的在big.LITTLE基础上演进的芯片架构,主要针对现在应用火热的人工智能及机器学习方面的能力进行了优化,因而也被称为DynamIQ big.LITTLE。
相对于先前架构,DynamIQ主要有三方面的突出能力:
1)DynamIQ允许在单一计算集群上进行大小核配置,能够实现1+3、1+7、3+5等组态(目前最多可以支持配置8核),因而可配置性提升得以进一步提升;
2)DynamIQ可以对每一个处理器进行独立的频率控制以及开、关、休眠状态的控制,能够实现高效、无缝地在不同任务间切换合适的处理器;
3)DynamIQ还对内存子系统进行了重新设计,可以对内存进行更细颗粒度的管理,实现更快的数据读取和全新的节能特性。
也因此,应用DynamIQ的CPU更适用于能耗更高、需要快速响应的AI应用。
同时,此次Cortex-A76在延用前代v8.2架构及DynamIQ技术外,其特点是采用全新的微处理器架构,在微处理器架构方面的改进包括提升每周期处理指令数量和更深度的内存层级平行处理。
Arm针对图像处理应用的GPU开发路线
随着AR/VR、高清手游等对图像质量及图像渲染能力有高需求的应用领域的兴起,专用于图像处理的GPU也开始受到关注。而Mali系列则是Arm针对这一应用领域开发的GPU。
Arm针对GPU的开发路线可以分为三类,包括针对成本敏感型的市场的超高效GPU系列UTGARD(出于对成本的考虑,我们可能会在性能以及提供的功能方面做一些折中去优化成本)、拥有最佳的性价比的主流GPU产品系列MIDGARD,以及拥有最高性能的高性能GPU系列BIFROST。
此次推出的Mali-G76则是针对高性能应用的GPU,而作为这一代产品的第三个迭代产品,采用Bifrost绘图架构及7nm制造工艺,同样在性能上拥有可观的性能提升。
与上一代Mali-G72相比,Mali-G76有30%性能密度、30%的能源效率及2.7倍的机器学习能力的提升。高能效在带来峰值时的性能高和功耗低同时,也意味着更长的电池续航时间。例如一款手机其他配置相同,采用G76GPU玩游戏的时长要高于采用G72GPU的手机。
Mali-V76:8K60帧的解码性能
Arm是如何设计视频处理器的呢?
Arm区域市场经理王田指出,“首先,我们先指定一个具有给定性能级别的核心,并针对多个编解码视频标准进行优化,分析需要支持的视频标准,并确定哪些功能可以用硬件来实现,哪些功能最好放在软件中实现。通过这种方式可以达到更好的软、硬件协同的效果。然后,我们有一套硬件模块来加速指定的通用功能,并通过路径和硬件IP无缝协作控制这些功能,执行指定编解码功能。运行固件时,我们有一套专用的微处理器,提供特定的软件控制程序,通过固件提供安卓或者Linux的驱动,这些都是基于像OpenMAX的集成层,并根据未来安卓系统的需求可以更新到安卓多媒体的框架。”
Mali-V76系统解决方案
Mali-V76系统解决方案的硬件支持固定的功能模块,例如运动估计、运动补偿、比特流处理、区块滤波器、DMA、MMU引擎等。除了运动估计,Mali-V76所有固定硬件加速模块的吞吐量提升了一倍,同时还增加了第二组的AXI总线,能达到更高的带宽需求。
在软件方面,Mali-V76除了支持264、265、VP9等主流视频标准,还支持10 bit 264编解码,支持中国广播电视标准(例如AVS、AVS Plus)。而在软件框架上,Mali-V76支持内存的分配、多核之间任务调度以及更好的功耗方面的优化。
Mali-V76性能表现
在性能方面,相比于上一代Mali-V61产品相比,Mali-V76支持8K60帧的视频解码,速度也是Mali-V61的两倍;在4K 120帧解码性能节点,在提供同样解码能力的同时,有40%的面积节省;在编码质量上,同样的内容和条件下,有25%的编码质量提升。
Mali-V76在600 GHz运行四核的时,能够提供每秒4K 12帧的吞吐量。例如在电视墙的应用中,Mali-V76最高可以提供16路(4×4)1080P 60帧解码性能,或者提供4路4K 60帧的解码性能。这就为更高画质VR/AR应用体验带来了可能。
Project Trillium机器学习平台
人工智能的兴起及智能设备爆发式增长带来数据量的急剧增长,而这就带来了本地和云端的两种数据存储方式,本地存储空间有限,而云端存储又带来了成本、安全和速度的问题,因而带来了边缘的概念。而边缘进行机器学习发展到现在已经远不是一款CPU,甚至不只是CPU自身的问题,而是一个生态问题。Project Trillium则是Arm为了实现在边缘的人工智能和机器学习工作负载于2018年3月推出的开发的平台。
Project Trillium能够为开发者提供什么呢?
Project Trillium机器学习平台最上层是现在主流的机器学习的大的体系。Arm机器学习事业部技术总监 Ian Bratt称,Arm绝对不是要和机器学习大的体系去竞争的,相反我们能够帮助从这些系统的机器学习工作负载能够在边缘成功部署。
中间层是由Arm提供的丰富的开源软件工具和资料库,所有的这些软件工具和资料库的核心和基础是Arm的演绎推理引擎——Arm NN。
最底层则是Arm硬件处理器方面产品,包括Arm自身的Cortex系列的CPU、Mali系列GPU产品以及Arm专门针对机器学习所推出的专用的芯片。
Arm机器学习专用芯片三大聚焦点
Ian Bratt还介绍了设计机器学习专用芯片的的三大设计特点。
第一,卷积处理效率的提升。由于现在的机器学习需要人工处理大量卷积类的工作,因而要提高整体ML的处理效率,卷积处理效率的提升是非常关键的一环。
第二,总体芯片功耗的降低。在芯片上进行数据传输所消耗的电量远大于处理每个比特的数据本身所消耗的电量,因此要降低总体芯片功耗需要实现更加有效的数据移动。
第三,芯片架构的可编程性。人工智能领域本身是一个全新的领域,神经网络技术仍在不断地变化中,因而芯片架构本身的可编程性也尤为重要。
小结
Arm此次发布的三款产品更新主要仍然是针对移动领域的应用产品,而更高的性能、更低的功耗以及更强大的机器学习能力是此次产品更新的主要能力提升,同时也是应对市场上各类产品对性能、智能等需要作出的又一次突破。
除了产品更新之外,我们也看到Arm除了原有的生态之外,还在着力扩展自己在人工智能方面的生态。虽然巨头厂商不断追逐,带有“智能”头衔的产品也在迭代更新,而其实真正的智能之路其实才刚刚开始。
评论