未来无所不在的AI架构导向边缘和云端逐步走向统一与可扩展

—— 推论的时代

作者：时间：2022-12-19来源：CTIMES收藏

AI/ML训练开发出供推论使用的模型，用于识别任何需要辨识的对象。这些对象可以是智能城市街道上顺畅或拥挤的交通、用于实现安全访问控制的身份证件和人脸比对的许可级别、向客服中心拨打电话的对话内容，抑或是邮政分发中心中信封上的手写地址。

训练通常在企业数据中心或云端进行，这些环境中有众多高效能服务器、充裕的内存、硬件加速器和高速网络可以投入工作负载。在这种环境下，需快速完成工作的训练使用大量供给运算、网络链接和冷却的电力。尽管推论工作负载也能在数据中心或云端执行，但由于多种原因，越来越多推论任务正迁移至边缘。

首先是延迟问题。将原始数据发送到云端或数据中心耗用时间，因此需要更长的时间来执行推论，而且将想要的答案或决策发送至边缘的时间也会增加。以工厂自动化、雷达、电子作战等实时任务来说，费时过长的决策会导致高昂成本。

将推论工作负载迁移到边缘还有另外两个原因：运算力和电力。随着AI/ML推论工作负载迁移到大量的边缘装置，这些边缘装置中的数百万个推论引擎总运算力将超越数据中心服务器的运算力。另外，边缘推论引擎并不会消耗大量电力。

为解决边缘推论的独特需求，采用全新运算架构的芯片将于近期问世。制造商强调，他们的组件能以更低的功耗达到颇高的TFLOPS和TOPS运算次数。尽管推论工作负载需要充裕的TFLOPS和TOPS是不争的事实，但这些专用边缘推论芯片基于单向架构理念，一旦考虑互相结合训练与推论工作负载，即有可能证明这种架构不堪使用。

当前，AI/ML模型训练工作负载主要在数据中心内的高功耗CPU和GPU上执行，它们在此消耗大量电力，同时利用先进的冷却技术来执行训练AI/ML模型所需的数万亿次运算。这种训练几乎普遍采用具备高动态范围的浮点信息格式，透过允许对模型权重进行微小的增量调整来实现最高模型精度。浮点运算耗电更多，因而需要额外的冷却。此外，CPU和GPU在内存和其内部运算单元之间迁移大型训练数据集时也会消耗大量电力。

如果要使用全精度浮点信息格式完成全部运算，大多数边缘推论芯片难以负担如此的硅或功耗。很多公司为了获得高峰值TFLOPS和TOPS指标而做出妥协，通常的做法是以精度略低的数据类型代表AI/ML权重、启动和资料。边缘AI/ML芯片的厂商会提供相关软件工具，以降低受训模型权重的精度，从而将模型转换为较小数值格式，例如FP8、缩放整数，或者甚至是二进制数据格式。这些较小的数据格式可为推论工作负载带来优势，但也会损失一定程度的模型精度。用降低的精度重新训练AI/ML模型通常可以恢复些许精度。

现在试想一下，有一种可扩展的装置架构，既可以部署在小型嵌入式边缘装置中，也可以部署在能够聚集数据中心内执行的工作负载的大型装置中。这些优化措施除帮助改善边缘功耗和成本效率，也能令数据中心的运算更密集、更具成本效益，以便降低用于推论和训练的设备资本与营运支出。

而支持全精度浮点格式和降精度浮点格式的AI/ML加速器可扩展架构，打破训练与推论之间的人工界线，为统一架构部署相同标准和熟悉的软件工具。这类高效率的边缘AI加速器采用数据流和芯片广播网络等架构创新，允许从外部内存获取的数据传输到芯片后多次重复使用。

在一些实际的应用案例中，导向机器学习的统一可扩展数据流架构，打破训练与推论不同阶段之间的壁垒。以联邦学习（Federated Learning）为例，它解锁全新类型的AI/ML工作负载。对于众多连结应用而言，联邦学习可以取代透过一次性脱机训练推导出的降精度AI/ML推论模型单向方法，并获得由于欠缺代表的集中式脱机训练集而难以实现的效能。

联邦学习利用边缘推论的重要特色，即装置带来远超于原始模型训练集，在众多范围暴露的不同输入（inputs）。如设计得当，边缘装置能从额外输入中学习，并在装置部署过程中进一步提升其模型精度。可能会有数百、数千乃至数百万个边缘装置共同改善相同的AI/ML模型，以提供更优质的本地回复或决策。

以同一家厂商制造并遍布在世界各地医院中的CT或MRI扫描仪为例。这些影像装置的任务通常是发现癌症肿瘤或其他疾病，并且能愈加采用AI/ML模型帮助放射科医生辨别可疑组织。随着每台现场装置不断改进其模型，如果利用联邦学习更新及改进原始模型，可让用于打造新影像装置的原始训练模型受益于相同的改良。

进行更新时，应确保只共享来自新增边缘训练的洞察，而非个人隐私数据，以利所有现场装置都能在不侵犯隐私的情况下从这种额外训练中获益。联邦学习在隐私保护装置个人化方面具有广泛适用性，因其可以针对特定用户客制化视觉算法和语音算法效能。此外，也有网络安全应用，透过网络入口节点的协作学习即可发现主动安全规则，而无需共享敏感的专用网络流量。

统一的云端和边缘运算架构优势在于利用相同的软件二进制，就能将模型依逻辑划分为执行于云端和边缘。统一架构可确保使用兼容的数据格式，以及确保优化数据格式如稀疏性表示（sparsity representations）不会在云端和边缘之间中断。可扩展的统一架构与贯穿于所部署应用生命周期的持续学习，与现时的常规训练与推论做法不同，因为后者依赖数据中心的CPU和GPU与边缘专用装置。然而，随着AI/ML逐步普及，如果业界希望大幅提升效能、精度和能源效率，这种统一方式应为最合乎逻辑的途径。

（本文作者为AMD资深副总裁Ivo Bolsens）