AMD即将带来更多惊喜
去年 11 月,AMD 展示了其最新的主流数据中心芯片后,Epyc 处理器设计师有望将其用在即将推出的云、人工智能和高性能计算的专用组件上。
本文引用地址:http://www.amcfsurvey.com/article/202306/447315.htm6 月 13 日,AMD 公司 CEO Lisa Su 将向业界展示更多技术和产品,我们先在这里做一些「剧透」。
AMD 将向数据中心推送 APU
考虑到最近围绕生成 AI 的所有炒作,让我们从 AMD 的加速处理单元 (APU) Instinct MI300A 开始。
APU 一直是 AMD PC 和嵌入式电子产品阵容的支柱:它们具有带内置图形处理器的 CPU 集群,可以处理计算和并行处理工作负载的组合。
与个人计算不同,MI300A 将有一个截然不同的关键点:AI/ML 和高性能计算。事实上,我们现在知道该芯片将成为美国劳伦斯利弗莫尔国家实验室即将推出的 El Capitan 超级计算机的大脑。
MI300A 也不同于迄今为止从 AMD 看到的任何 APU,除了一个,早在 2017 年,英特尔和 AMD 就联手将英特尔 CPU 芯片与 AMD Radeon GPU 和 HBM2 内存配对。MI300A 将遵循类似的模式,但它将使用 AMD 的 Zen 系列内核,而不是英特尔 CPU 内核,并提供更多的 GPU 性能。
到目前为止,AMD 一直守口如瓶,但有内部人士透露,MI300A 将配备 24 个 Zen 4 内核、128GB HBM3 内存,从渲染图来看似乎是 6 个 CDNA GPU 芯片。
奇怪的是,看起来 AMD 可能没有使用去年 Epyc 4 Genoa 系列中发现的 Chiplet(小芯片)架构。MI300A 渲染图似乎显示了两个核心复合芯片 (CCD)——AMD 称之为 CPU 小芯片。从这张图片来看,AMD 实际上可能使用两个 16 核 CCD,就像我们期望在 Bergamo 上找到的那样,而不是两个 12 核 CCD。双 16 核 CCD 的内核太多,但 AMD 禁用其 CCD 上的内核的情况并不少见。
如果事实确实如此,AMD 这样做可能是为了在给定的功率预算下保持更高的核心时钟频率。
AMD 透露,与支持 1.1 exaFLOPS Frontier 超级计算机的 MI250X 相比,该芯片的人工智能性能将提高 8 倍,每瓦性能提高 5 倍。这种提升的很大一部分可能来自这次增加的 FP8 支持。较低的精度通常会以降低准确性为代价,在 AI 工作负载中呈现更高的整体性能。
考虑到单个 Epyc 4 消耗 400W 以上的功率,而 MI250X 的功率预算约为 600W,可以肯定地假设 MI300A 在功率方面不会节俭。我们在 The Next Platform 的同事在这次深入研究中估计,该芯片将在 850W 的功率预算下提供大约 3 petaFLOPS 的 FP8 性能。这将使该芯片比 Nvidia 的 Grace-Hopper 超级芯片更省电,但性能有所降低。
MI300A 预计只是使用该名称的几个 SKU 之一,我们希望有一个只有 GPU 的配置。查看封装渲染图,一旦 CCD 和 I/O 芯片被剥离,看起来 AMD 确实可以在那里安装额外的两个 GPU 芯片。
至于插座选项,MI300A 看起来将支持至少 4 个插座配置。从我们对 El Capitan 的了解来看,似乎每个节点都将配备 4 个 APU。
从市场的角度来看,没有其他人拥有像它这样的芯片。英特尔的 Falcon Shores XPU 本应具有类似的 CPU+GPU 配置,但该项目被取消以支持普通 GPU。这使得 Nvidia 的 Grace-Hopper 超级芯片成为 AMD 的主要竞争对手。
话虽如此,他们是非常不同的「野兽」,MI300A 正在塑造成为一个合适的 APU,具有直接的芯片到芯片通信和共享内存池。Grace-Hopper 的不同之处在于它使用 Nvidia 的 NVLink-C2C 互连将 72 核 Arm 兼容 CPU 处理器与 96GB H100 GPU 粘合在一起。
AMD 将用自己的以云为中心的 CPU 挑战 Ampere
自 2017 年推出首款 Epyc 处理器以来,这些芯片已被云提供商稳步采用,将核心密度置于单个核心性能之上。
多年来,我们看到 AMD 的芯片从 32 核增加到 64 核,最近又增加到 96 核。然而,从 2020 年开始,竞争对手出现了,承诺更高的核心数。Ampere 的 Arm 兼容 Altra 处理器提供了 80 个内核,最终提供了 128 个内核和 192 个内核,目标客户是云提供商。
算法相当简单,更多的 CPU 内核意味着客户可以轻松地将更多的 VM 和容器装入一个盒子中。为了应对这一新兴市场领域,AMD 透露它正在开发自己的核心优化芯片。在 2021 年底的加速数据中心活动中,AMD 展示了一款名为 Bergamo 的 128 核处理器,该处理器专为云原生工作负载而设计。
我们预计这款最初计划于今年年初推出的芯片将成为 AMD 在 6 月活动中发布的重要产品之一。
Bergamo 将推出一种名为 Zen 4c 的 AMD Zen 4 内核的新变体。我们还知道 Bergamo 将采用与 Epyc 4 Genoa 不同的核心配置。据我们了解,Bergamo 将采用 8 个 16 核 CCD 来实现其 128 核目标,而不是 12 个 8 核 CCD。
这种更密集的核心排列告诉我们,与在 Genoa 系列发现的 Zen 4 核心相比,Zen 4c 核心可能会被削减。如果猜测的话,AMD 可能正在缩小已经很大的 L3 缓存——每个 CCD 在 Genoa 上有 32MB——为额外的内核腾出空间。尽管这是一个猜测,但 AMD 可能已经为云客户剥离了低效用的附加功能。
我们也不太了解芯片的新 Zen 4c 内核可以期待什么样的性能,但我们可以做出一些有根据的猜测。如果 AMD 效仿 Ampere 的例子,我们可以期望 Bergamo 优先考虑一致的时钟速度而不是提升频率。换句话说,相对较高的基本时钟,但就升压时钟而言并不多。
我们还怀疑 AMD 将保持与我们在 Epyc 4 中看到的类似的芯片热设计功率 (TDP) 目标,将其置于 360W-400W 范围内。由于芯片的核心数量更多,仅此一项就需要比以前的 Epyc 部件更保守的频率缩放。
Bergamo 与 Ampere 的云原生芯片的不同之处之一是支持同步多线程。单个 Bergamo 芯片将拥有 128 个内核和 256 个线程。除了多线程之外,值得记住的是这些 AMD 核心仍然是 x86-64。这意味着如果您的应用程序今天在 Epyc 或 Xeon 上运行,它应该可以毫无问题地在 Bergamo 上运行。
尽管 Arm 付出了相当大的努力来验证在其指令集上运行的系统和云实例,但 Ampere Altra 或 AWS 的 Graviton 并不总是如此。将工作负载迁移到这些芯片并不总是必然的。
尽管如此,AMD 在这方面不会有先发优势,过去几年,云优化芯片市场变得相当火爆,Bergamo 不仅要与 Ampere 最新一代的 Arm CPU 抗衡,而且不久之后还要与英特尔的核心优化部件抗衡。
Ampere 最近展示了其 AmpereOne 系列芯片,该系列芯片最高可达 192 个内核,与此同时,英特尔已承诺在 2024 上半年推出名为 Sierra Forest 的 144 核至强处理器。因此,尽管 AMD 可能会在市场上击败英特尔,但它不会在核心方面领先于其长期竞争对手。
Genoa-X
Bergamo 并不是我们期望在 AMD 的 6 月活动中看到的唯一芯片,预计该公司还将推出代号为 Genoa-X 的第二代处理器。
这些芯片专为各种技术计算应用而设计,例如计算流体动力学、数据库和其它带宽密集型工作负载。
随着 Milan-X 的发布,这些芯片于 2021 年推出,采用先进的封装技术,可在芯片的 CCD 上叠加额外的 SRAM。使用这种方法,AMD 能够在每个芯片上封装额外的 64MB 的 L3 缓存,从而在其顶级芯片上总共包含 768MB 的 L3。
正如去年 6 月报道的那样,Genoa-X 会将每个插槽的 L3 容量提高到 1GB 以上。这是有道理的,因为 Genoa 比 Milan 系列多了 4 个 CCD,但这也表明 AMD 这次没有做任何特别的事情。
在 AMD 的 96 核 Genoa-X 芯片上,每个 CCD 有 96MB L3 和 12 个 CCD,因此每个插槽有 1152MB L3 缓存。
然而,正如网站 The Next Platform 所发现的那样,与这些芯片相关的更高价格并不总是与其性能相匹配。尽管如此,AMD 之前已经在某些工作负载中展示了显著的性能提升,例如 Synopsys 的 VCS 测试。
更多精彩即将到来
AMD 的 6 月活动即将成为一场盛宴,值得注意的是,今年至少还有一个 CPU 发布:Siena。
虽然我们对 Siena 了解不多,但 AMD 表示该产品面向边缘和电信市场,优先考虑每瓦性能,并将配备多达 64 个内核。
正如之前报道的那样,英特尔对边缘市场拥有巨大的影响力,其中绝大多数「边缘」系统都运行 Xeon 处理器。然而,我们必须等到 2023 下半年才能看到 AMD 在该领域的竞争者到底有多引人注目。
评论