决胜AI云端:“芯火”燎原看燧原
人工智能(AI)毫无疑问是当今一个炙手可热的词汇,当智能化在各行各业被津津乐道之时,AI就成为其核心创新技术的体现,其中AI芯片更是“集万千宠爱于一身”。本栏目曾经对用户端的AI芯片及其落地应用做过介绍[1],主要为语音识别和智能图像处理,在这里要一直看到AI云端,这里同样风光独好。
对于日益丰富的AI应用场景不断提高的算力需求是驱动AI云端芯片发展的动力,其所蕴藏的商机巨大。据权威机构统计,AI算力需求每3个半月翻1倍,市场几年内将会从数十亿变为数百亿美元。然而云端AI训练芯片由国际巨头所独占的壁垒已经成为束缚整个产业健康发展的问题。这块坚冰已在松动,如火如荼的争锋来临在即,由AI“中国芯”点起火焰已经开始燃烧。升腾的烈火中浮现着不少本土公司的身影,其中上海燧原科技有限公司(Enflame)以红色的火焰为企业形象标志,其云端AI训练芯片格外令人瞩目。笔者对燧原科技作为国产AI云端芯片新锐充满好奇,特别是仅用与“摩尔定律”周期契合的18个月就取得丰硕成果而成为业内佼佼者,于是前往上海张江,在张润大厦与创始人兼CEO赵立东进行访谈。
赵立东首先谈到AI芯片的3个分层:技术门槛最高的是最上层的云端训练,中间是云端推断,最下层是终端推理。针对不同AI应用场景的模型训练只能在云端进行。目前,云端训练的市场规模大于云端推断。随着AI技术的大面积落地,云端推断的市场规模会逐渐超过云端训练。这也意味着训练效果越来越好,AI模型越来越成熟,应用落地越来越广泛。
在云端AI训练芯片被垄断的局面下,下游的云端推断和终端应用的发展必然受到阻碍。价格高企、本土技术支持不够,以及生态不开放等因素禁锢着训练端,使其下游推断的落地受阻,限制了更多AI创新的涌现。
燧原科技所致力的目标就是努力打破国外垄断,实现国产替代,使这个市场和产业良性发展。因此,燧原科技于2019年12月11日发布了首款“邃思”云端训练芯片和“云邃”AI训练加速卡及“驭算”计算及编程平台,如图1所示。
图1 国产AI云端训练芯片和加速卡及开发平台
2 邃思“芯”火升腾的奥秘
后来者居上是需要有硬实力的,对此赵立东指出,GPU或CPU芯片的架构原本就不是为AI而设计的,只有专为AI设计的架构才有机会打破垄断赢得市场,满足AI爆发式增长的数据和算法模型带来的算力需求。“邃思”针对以深度学习为代表的神经网络算法和模型,其主芯片DTU单元计算核心采用32个通用可扩展神经元处理器(SIP)进行高速并行处理,其中每8个SIP组合成1个可扩展智能计算群(SIC)。SIC之间通过HBM实现高速互联,再利用片上调度算法,数据在搬迁中完成计算,实现SIP利用率最大化。SIP基于可重构芯片设计理念,不仅具有高度并行化的特点,也可通过可编程的指令集适配现有及未来可能的AI算法。
邃思采用12 nm FinFET工艺和2.5D高级封装技术,集成了141亿个晶体管。邃思芯片组成如图2所示,其中,中间层用于布下密集的连线,采用的是自研的Interposer技术。
邃思DTU云端训练芯片具有开放、通用、高性能特性,表现为如下4个方面。
1)世界领先的高精度算力:原生支持 FP32 精度的标量、向量、矩阵和卷积计算;FP32 最大算力20TFLOPS;这是业内唯一支持 BF16的 芯片,算力达到80TFLOPS。
2)支持E级数据中心互联:200 GB/s 高速片间互联总线;单节点最大 16 颗芯片互联;支持多节点扩展和分布式训练平台;支持 PCIe 4.0。
3)可定制化算子库:支持深度学习常用算子、多种超越函数;底层开放、按需定制。
4)支持模型深度优化:支持混合精度、BF16 数据格式;模型迁移成本低。
图2 邃思芯片组成图
3 云燧加速卡打造“火的战车”
图3为云燧T10加速卡组成图,底层为装有邃思AI芯片的主板及背板,上面为ESL片间互联层。基于邃思芯片的云燧T10训练加速卡具有高算力、低功耗、强互联等特色。完全自主研发的ESL互联技术,支持集群化的训练,且无需专门的连接器和转换器,从而有效降低成本,其创新的拓扑结构设计可提供更加灵活的连接方式。
云燧T10加速卡是一个PCIe插卡,但包着厚实的金属外壳,就像能超高速运行的AI“火的战车”,适用包括FP32/FP16/BF16/Int8/Int16/Int32等丰富的数据类型,支持CNN、RNN、LSTM、BERT等常用训练模型,也适合于图像、数据流、语音等各种训练场景的应用,使其出众的性能跃然于全球云端AI芯片强手之林。
图3 云燧T10加速卡组成图
4 传播AI之火的“驭算”生态平台
从AI云端训练邃思芯片之“火”,到云燧加速卡“火的战车”,其叠加组合的分布式集群就可视为“火的列车”。由ESL互联的创新背板互联方案,可形成支持超级计算中心的AI体系。首先是PCIe单卡,4个1组通过ESL背板互联;然后是单服务器8卡ESL背板互联的单机柜通过ESL线缆互联;再来则是通过标准RDMA跨RACK组建E级计算数据中心。基于云燧加速卡的超级计算中心组成如图4所示。
为驾驭AI超级立体化“火的列车”,需要打造软件平台——“驭算”计算及编程平台,与硬件产品配套,实现软硬件的一体化解决方案。在AI芯片领域里,软件与硬件地位同等重要,“驭算”既兼容TensorFlow和PyTorch等主流AI框架,也支持ResNet、Yolo、BERT等多种主流AI模型,可通过SDK提供深度定制。正在开发的编程语言模型,在对开发者有相对友好的语义的同时,也能给开发者提供途径来实现灵活操控,更好地发挥硬件性能。同时针对国产AI框架的适配和支持工作正在进行中。
5 中国AI本土化之火正在燎原
赵立东谈到燧原科技的创业初心就是 “做大芯片,拼硬科技”,目前已经取得了阶段性成果,第一代通用AI训练芯片“邃思”成功发布并量产。对于未来的发展,他强调要“志存高远,脚踏实地”。一方面,加速产品迭代和技术创新,持续软件优化并完善生态系统;另一方面,坚持业务落地、规模化并实现盈利。唯有双轮驱动,形成正向循环,企业才有可持续发展的动力。
2020年3月国家提出加快新型基础设施建设的战略,5G和AI成为重点发展领域;7月国家又颁布了《新时期促进集成电路产业和软件产业高质量发展的若干政策》。对于像燧原科技这样的本土企业而言是极大的鼓舞,希望与政府和上下游商业伙伴一起携手,密切合作,打破垄断实现国产替代。就在拜访之后的9月22日,燧原科技正式宣布第一代AI训练加速卡“云燧T10”及其组成的多卡分布式训练集群已在云数据中心落地,这是该产品和系统进入商用化阶段的里程碑,标志着燧原跃升为业内领先的以高性能AI训练产品成功切入数据中心市场的“中国芯”公司,展现出AI本土化之火已呈现燎原之势。
参考文献:[1] 郑小龙.人工智能探境科技之得“芯”应手[J].电子产品世界,2020(8):12-13.
注:本文来源于科技期刊《电子产品世界》2020年第10期,欢迎您写论文时引用,并注明出处。
评论