MENTOR、AMD 和 MICROSOFT 合作开展云上 EDA
如果将部分或全部电子设计自动化 (EDA) 计算转移到云上,设计公司将能获得灵活的资源和 规模经济性,从而缩短产品上市时间并加快创新速度。Mentor, a Siemens Business (Mentor) 与 Advanced Micro Devices, Inc. (AMD) 和 Microsoft Azure (Azure) 合作,展示了 Calibre™ 平台 结合云计算如何能够提供更多计算资源,大幅缩短设计收敛时间,让设计更快上市。采用 7nm 量产设计,物理验证周期缩短了 2.5 倍。
本文引用地址:http://www.amcfsurvey.com/article/202104/424171.htmCALIBRE 云计算
当进入设计流片的紧要关头时,云处理可以为集成电路 (IC) 设计公司提供比通常多得多的 计算资源,使其有机会缩短产品上市时间并加快创新速度。高扩展性工具(例如 Calibre 平 台中的那些工具)可以扩展到数千个内核以减少运行时间……但是,谁会有数千个内核闲 置不用呢?当您承受极大的时间压力时,例如进行模块或全芯片验证时,云可提供丰富得 多的硬件资源供您使用。
Calibre 内核技术多年前就已经为云计算做好了准备 [1,2]。云安全性的最新改进减轻了业界 对知识产权 (IP) 保护的担忧,阻碍在云处理模型中实施和使用 Calibre 技术的最大障碍已被 消除。
Mentor 与晶圆代工厂、IC 公司和云服务提供商密切合作,确保从现场网格系统平稳过渡到 场外云处理。发现和明确最佳实践可以让过渡到 “云上 Calibre” 处理模型的公司实现最大获 益。IC 公司越来越多地希望在先进工艺节点设计中利用云能力来缩短周转时间,在此背景 下,他们可以确信,运行云上 Calibre 将会提供他们知道和信任的相同 sign-off 验证结果, 同时他们还能调整资源使用,以便最好地服务其业务和市场需求。
CALIBRE 与云服务器效率
为确保 Calibre 用户能以最具成本效益的方式使用云资源,我们制定了云使用指导原则,并 提出了在云上运行 Calibre 操作的最佳实践。为了制定和测试这些指导原则与实践,我们与 AMD 和 Azure 联合开展了一个项目,采用运行在 Azure 云服务上的 AMD EPYC™ 服务器。结 果表明,EPYC 服务器和 Calibre 平台在 Azure 云上展现出强大的能力。
晶圆代工厂规则集
设计公司应始终使用符合晶圆代工厂要求的最新规则集,以确保实施最新的最佳编码实践。
CALIBRE 软件版本
Mentor 长期致力于优化 Calibre 引擎,Calibre 每个版本都有改进,使用最新版本的 Calibre
软件可确保运行时间和内存消耗更加优化,如图 1 所示 [3]。
图 1:(左)归一化内 存与 Calibre 发行版,( 右) 归一化运行时 间与 Calibre 发行版。
云服务器
市场针对云操作提供了许多不同类型的服务器,“最佳” 选择取决于客户的需求和应用。对 于我们的协作项目,我们选择了可用于 Microsoft Azure 公共云的 AMD EPYC 服务器。不同 类型的 EPYC 服务器有不同的内核、内存、接口和性能特性,云用户可以选择最适合其应 用的 EPYC 服务器。
AMD EPYC 架构(图 2)的每个插槽有 32 个内核/64 个线程,为大规模并行计算提供了极 好的媒介,支持重度计算的运行任务。8 个 DDR4 通道为服务器增加了新的维度,可进一步 优化其处理机器密集型计算运行的能力。最后,每 4 个内核 8MB L3 内存缓存的层次化设计 进一步提升了计算速度。
图 2:AMD EPYC 服务 器架构(信息来源: AMD。 已获得使用许可。)
这些云服务器用于在云服务中创建虚拟机(实例)。针对 Calibre 应用,我们确定了两种最 适合的 Azure 实例:HB60rs 和 L80s v2。HB60rs 和 L80s v2 均可在 EPYC 7551 处理器上运 行,但配置和功能不同。
例如,HB60rs 实例与 Lv2 实例具有相同的 EPYC 7551 处理器,但前者只能访问双插槽机器 的 64 个内核中的 60 个,并且超线程功能被关闭。Lv2 实例旨在支持要求苛刻、存储密集 型且需要高水平 I/O 的工作负荷,而 HB 系列实例则针对内存带宽驱动的应用(例如流体动 力学和显式有限元分析)进行了优化。表 1 比较了这两类服务器的主要特性。
表 1 - AMD EPYC 服务器特性
CALIBRE 云计算
针对该联合项目,我们使用了量产型 7nm Radeon Instinct™ Vega20 的最终金属流片数据 库。该设计是 AMD 最大的 7nm 芯片设计,包含超过 130 亿个晶体管。
初始设置
Calibre 2019.2 版本与 7nm 工艺 节点的晶圆代工厂规则集的一 个生产版本配合使用,以对设 计执行设计规则检查 (DRC)。对 于 Calibre nmDRC™ 运行,我们 使用了 Calibre 超远程分布式计 算功能 [3],其支持多达 4,000 个 内核(图 3)。
像所有 Calibre 分布式计算运行 一样,分配了一个主机来管理运 行中使用的所有其他资源。为 了我们的合作目的,指定的主 机和远程服务器均为具有 32 个 CPU 内核和 256 GB RAM 内存的 AMD EPYC 7551 服务器。
图 3:Calibre nmDRC 运行时间与内核数的关系。(信息来源:AMD。许可使用)
云设置
Mentor 使用 AMD EPYC 服务器(主机和远程服务器均为这种服务器)运行了所有实验,硬 件配置如下:
■ Microsoft Azure HB60rs 实例。对于单个 HB60rs,主机与 17、25、34、68 个远程 HB60rs 实例一起运行,每个实例均完全专用于运行 Calibre 作业,使用 Azure CycleCloud 界面 来调用和管理作业。
■ 地理位置靠近的服务器。使用的所有云服务器均在最靠近用于启动和控制云使用的硬 件物理位置的 Azure Cloud 区域中运行。
■ 为使启动作业和实际执行之间的等待时间最小化,当模块准备就绪时,设计便在云上 汇编。
结果
我们的结果展示出以下性能指标:
■ Calibre nmDRC 的运行速度持续提高,直至达到 4K 内核。
–该扩展曲线中总是存在一个 “拐点”,在此点可实现 “最佳性价比”。对于该设计和节 点,拐点在 1.5K 和 2K 内核之间。
■ 主机和远程服务器使用的峰值累积内存小于 500GB。
■ 实际上,随着内核数量的增加,远程服务器峰值内存有所降低。
在本地 Calibre nmDRC 运行中,Mentor 一般将 256 个内核用于全芯片 DRC,因为这是大多 数设计团队在流片期间通常可以访问的现场资源数量。对于大型复杂的 7nm 设计,例如 AMD Radeon VII/MI60 GPU,使用 256 个内核的周转时间可能长达 24 小时。这意味着一个团 队通常每天只能完成一次设计迭代,这比大多数上市时间计划要求的速度要慢很多。
将该数量增加到 2K 个内核,运行时间可以减少到 12 小时,每天可以迭代两次,而增加到 4K 个内核的话,运行时间将不到 8 小时,每天可以迭代三次。该实验清楚地表明,Calibre 扩展的功能和效率与可用内核数量的显著增加相结合,能让使用云上 Calibre 软件的公司减 少运行时间,从而大幅提高设计收敛率。
如前所述,Mentor 不断努力提高 Calibre 的性能,并与晶圆代工厂合作以发现并部署聚焦于 性能的规则集优化(同时确保精度相同或更好)。如图 3 所示,我们运行了一个额外的实 验,以了解使用最新版本 Calibre 和最新的优化规则集是否有任何益处。黄色圆点所示的结 果表明,在扩展曲线的拐点处(大约 2K 个内核)可以再节省三个小时。
云成本最小化
大型片上系统 (SOC) 设计在验证期间会 消耗大量 RAM,而 RAM 是非常昂贵的。 即使在云上,较大的 RAM 实例也很昂 贵。解决办法是通过增加远程内核的总 数来减少每个远程内核的 RAM 需求, 如图 4 所示。Calibre 平台提供一种经过 验证的超远程分布式处理模型 [3],用 户可以利用此功能降低云资源的成本, 同时还能以较少 RAM 的 CPU 实现更快 的处理速度。
图 4:峰值内存 (RAM) 消耗与远程内核使用情况的关系。
结语
Mentor、AMD 和 Azure 之间的合作表明,通过实施 EDA 云计算的最佳实践和使用指南,可 以减少运行时间并降低云使用的成本。公司可以将这些结果作为实施自己的 “云上 Calibre” 的指南。通过实施这些策略和实践,公司可以实现更快的总体运行时间,缩短产品上市时 间,加快设计创新,同时维持或降低运营成本。
参考文献
[1] Omar El-Sewefy, “Calibre in the cloud: Unlocking massive scaling and cost efficiencies,”
Mentor, a Siemens Business, July 2019. https://go.mentor.com/57RKT
[2] John Ferguson, “New approaches to physical verification closure and cloud computing,”
Mentor, a Siemens Business.March 2020. https://go.mentor.com/5acv3
[3] John Ferguson, “Ensuring Optimal Performance for Physical Verification,” Mentor, A Siemens Business. April 2015. https://go.mentor.com/4gx2a
更多相关信息,请点击>> http://share.eepw.com.cn/share/download/id/388591
评论