博客专栏

EEPW首页 > 博客 > 【资讯】Jim keller发声:世界憎恨垄断,GPU不是全部

【资讯】Jim keller发声:世界憎恨垄断,GPU不是全部

发布人:旺材芯片 时间:2023-08-05 来源:工程师 发布文章

来源:半导体资讯


当您将开源的力量与传奇芯片架构师 Jim Keller 广泛而深入的半导体经验结合起来时,一定会发生一些有趣的事情。这正是人工智能初创公司和现在的 CPU 制造商 Tenstorrent 的计划。


Tenstorrent 由 Ljubisa Bajic、Milos Trajkovic 和 Ivan Hamer 于 2016 年创立,总部位于多伦多。Keller从一开始就是一名天使投资人,也是该公司的顾问,在英特尔服务器业务工作了一段时间后,他于 2021 年 1 月被任命为首席技术官,在那里他清理了一些架构和流程混乱,就像他之前在 AMD和在英特尔工作时所做的那样。


图片


今年 1 月,Keller被任命接替 Bajic 担任首席执行官,该公司今天宣布将在 D 轮融资中筹集 1.2 亿至 1.5 亿美元,现代汽车集团和三星 Catalyst 基金领投本轮融资,之前的投资者 Fidelity Ventures、Eclipse Ventures、Epiq Capital、Maverick Capital 和其他投资者继续参与。


所有这些钱都很有趣,并且有必要支付 Tenstorrent 团队需要做的大量工程工作,以创建一系列商业级 RISC-V 服务器处理器和 AI 加速器来匹配它们,更重要的是,论 Nvidia GPU 在 AI 训练中的霸主地位。帮助公司降低人工智能培训成本需要资金——也许需要更多资金,也可能不需要。我们所知道的是,Keller认为他拥有合适的团队来完成这项任务,我们与他讨论了 Tenstorrent 任务,后续我们将深入探讨 Tenstorent CPU 和 AI 引擎架构。


Timothy Prickett Morgan(TPM):我们直接切入追逐场景。我一直很想问你这个问题,因为你的答案很重要。为什么我们需要另一个人工智能加速器?


Jim Keller:嗯,世界憎恶垄断(Well, the world of abhors monopoly)。


TPM:是的,但是我们已经有很多不同的公司参与其中。这些都没有令我满意。这并不像 Groq 的人接受了 TPU 的想法,将其商业化,我们就完成了。它与 MapReduce 和 Yahoo Hadoop 不同。Nirvana Systems 和 Habana Labs 都拥有我认为很好的架构,而英特尔在这两个方面都没有取得巨大成功。Graphcore 和 SambaNova 是合理的,Cerebras 具有晶圆级,这很有趣。Esperanto也看上了RISC-V 。据我所知,每个人都面临着十亿美元的问题才能达到新的水平。我知道 RISC-V 很重要,它是硬件领域的 Linux,我们已经等待这一刻很久了,使用 RISC-V 构建加速器是做出架构选择的简单部分。


Tenstorrent 正在做的事情有哪些不同、更好的地方?我不希望您今天透露所有建筑方面的知识,但是是什么在推动您,为什么?


Jim Keller:有很多事情。首先,每当出现大的炒作周期时,获得投资的人都会超出该行业适当支持的范围。Tenstorrent 的联合创始人之一 Ljubisa Bajic 和我聊了很长时间,因为当时 SambaNova 和 Cerebras 的估值非常高。所以他们筹集了很多钱,他们开始花很多钱,而我们却做了相反的事情。上次融资后我们的估值为 10 亿美元,并且我们以更高的估值获得了更多资金。然后我们想:然后呢?像其他人一样陷入困境?这对你们公司来说真的很困难。就像这会让你的员工和投资者都陷入困境。因此,我们以较低的估值筹集了较少的资金,因为我们是长期投资的。


现在,我们已经分析了 Cerebras、Graphcore、SambaNova、Groq 和其他公司正在做的事情,他们都有一些有趣的东西,否则他们不会获得资助。


你可以说,好吧,我们不会犯这些错误,我们有一些东西可以拿出来讨论。


我不认为 GPU 是运行人工智能程序的全部(I don’t think GPUs are the be all and end all of how to run AI programs)。每个描述人工智能程序的人都会描述一个图表,并且需要通过有趣的软件转换来降低该图表并将其映射到硬件。由于多种原因,事实证明这比显而易见的要困难得多。但我们觉得我们确实在这方面取得了真正的进展。因此,我们可以制造出高性能、运行良好且可扩展的人工智能计算机,我们快到了那个节点。


另一件事是我们开始构建 RISC-V——我们在 Tenstorrernt 对此进行了长时间的讨论——我们认为未来将主要是人工智能。通用 CPU 和 AI 处理器以及程序和软件堆栈之间将会进行交互,并且它们将位于同一芯片上。然后这个领域将会有很多创新。我打电话给我在 Arm 的好朋友,说我们想要获得它的许可,但它太贵了,他们不想修改它。因此我们决定打造自己的 RISC-V 处理器。我们在最后一轮筹集了部分资金,理由是 RISC-V 很有趣。


当我们告诉客户这一点时,我们对人们想要单独授权 RISC-V 处理器感到有些惊讶——非常惊讶。然后我们还发现一些对RISC-V感兴趣的人也对我们的AI知识产权感兴趣。当你观察 Nvidia、AMD、Habana 等公司的商业模式时,你会发现他们并没有将自己的 IP 授权给任何人。因此,人们来找我们,他们告诉我们,如果我们能够证明我们的 CPU 或 AI 加速器有效——并且证明是运行的硅——那么他们就有兴趣授权 IP(包括 CPU 和 AI 加速器)来构建自己的产品。


构建自己的产品的一个很酷的事情是,您可以拥有并控制它,而不用向其他人支付 60% 或 80% 的毛利率。因此,当人们告诉我们 Nvidia 已经赢了,并问为什么 Tenstorrent 会参与竞争时,那是因为只要存在利润率极高的垄断,就会创造商机。


TPM: 这与 Nvidia 控制的 InfiniBand 和超以太网联盟之间目前正在进行的类似争论有关。人们一直告诉我,以太网自诞生以来就一直试图杀死 InfiniBand。我提醒他们,他们不会与 InfiniBand 竞争,因为它正在消亡,而是在两年半以来第一次它正在蓬勃发展。数据中心的英特尔 CPU 也是如此。数据中心集团不可能长期保持 50% 的营业收入。这种利润不仅会吸引竞争,还会助长竞争。


Jim Keller:在现实世界中,实际毛利率总是介于两者之间。如果你的比例远低于 10%,你将很难赚到钱;如果你的比例超过 50%,你就会面临竞争。


然后是所有这一切的开源角度。开源中一个很酷的事情是人们可以做出贡献。然后他们也有机会拥有它,或者复制它并做有趣的事情。硬件的生产成本很高,流片也很困难。但有相当多的人构建自己的芯片,他们想要去做一些事情。


这是我的论文:我们将开始用人工智能生成越来越多的代码,然后人工智能程序是通用计算和人工智能计算之间的交互,这将创造,就像一个全新的创新浪潮。人工智能相当独特,因为它的模型和框架令人惊讶地开放——然后它在非常专有的硬件上运行。


TPM:很多框架和模型都不是开源的,甚至有时候有商业限制的,比如LLaMA,或者已经被关闭了,比如从GTP-3、GPT-3.5到GPT-4过渡的OpenAI 。


Jim Keller:是的,并没有都一帆风顺,我同意。


TPM:但我同意,所有这些都存在开放性的因素。我会说类似于几十年前的关系数据库。


那么这里就有一个关于开放硬件的问题:当你创建RISC-V处理器时,你是否必须将其全部归还?许可模式是什么?


Jim Keller:这是我们正在走的路线。RISC-V 是一种开源架构,我们有人为该架构定义做出贡献。参考模型是开源的,编写Whisper 指令集模拟器的人为我们工作。我们创建了一个向量单元并做出了贡献。我们构建了向量单元的 RTL 版本,然后将其开源。我们与一群学生交谈,他们说基础设施很好,但我们需要更多的测试基础设施。因此,我们正在致力于开源 RTL 验证基础设施。


RISC-V 现在拥有大学计算机体系结构研究中心。这是事实,默认的东西。我们的 AI 处理器内部有一个 RISC-V 引擎,我们一直在尝试弄清楚如何开源 RISC-V AI 处理器。学生希望能够做实验;他们希望能够下载一些东西,模拟它,进行修改,尝试并改变它。因此,我们的引擎上有一个软件堆栈,我们正在清理它,以便我们可以开源它,我们将在今年这样做。然后我们的硬件实现有太多,比如说,硬件中的脏位——你知道,专有的东西。我们正在尝试弄清楚如何构建一个抽象版本,这是一个非常干净的 RISC-V AI 处理器。我想开源,因为开源的一个很酷的事情是,一旦人们开始做它并为它做出贡献,它就会成长。开源是一条单行道,如下所示:


我认为我们在人工智能之旅中只完成了 1% 到 5%。我认为将会有很多实验正在进行,开源是人们做出贡献的机会。想象一下,回到五年前,如果有一个开源人工智能引擎。想象一下,如果他们正在做自己的开源事物的随机版本,但做出回馈,而不是随机做五十个不起作用的不同事情,情况会怎样。


TPM:开源的东西起作用了。例如,像 GPT-3。


Jim Keller:嗯,或者说所有这些人组成的网络产生了一个真正可靠的、有效的 Nvidia 替代方案。


我和很多人工智能公司谈过,当我在特斯拉时,我看到了很多引擎。二十家公司,各自招募 50 名员工工作两年,打造与其他 19 家公司完全相同的产品。如果这是开源开发,那么进展会快得多。


一些开源的东西,比如 PyTorch,已经开放了一段时间了,但是项目运行的方式并不好,但是 PyTorch 2.0 修复了这个问题。TVM 是开源的——我们使用它,它实际上非常好。我们将看看 Chris Lattner 的公司 Modular AI 和 Mojo 编程语言会发生什么。他说他将开源 Mojo,它可以进行额外的软件编译器转换。但我们并没有一个明确的目标来驱动某些东西。所以我今天只是和我的同事们讨论如何清理我们的参考模型,并使之成为人们可以为其增加价值的良好开源人工智能引擎参考模型?


再一次,我认为我们正处于人工智能硬件构建的早期阶段。


TPM:你们的收入模式是什么?我想,你将建造和销售东西,并且你将获得许可?


Jim Keller:我们制造硬件。最初的想法是我们要构建这个出色的硬件。去年,我们的前十个模型开始工作。我们原以为我们有可能开发出 30 到 50 个模型,但我们有点陷入停滞。因此,我们决定重构代码——我们对软件堆栈进行了两次主要重写。我们现在正在让一些客户使用我们构建的硬件。我们与 LG 一起发布了公告,我们还有更多的人工智能公司正在筹备中。然后我们做了这个RISC-V CPU,这是非常高端的。SiFive 是一家不错的公司,但他们的项目处于中间位置,Ventana 比这稍高一些。人们不断告诉我们:我们想要一个非常高端的 CPU。因此,我们正在构建一个非常高端的 CPU,并且我们正在与十个组织讨论以获得许可。


我们是一家设计公司。我们设计CPU,我们设计人工智能引擎,我们设计人工智能软件堆栈。


因此,无论是软 IP、硬 IP chiplet还是完整芯片,这些都是实现。我们在这方面很灵活。例如,在 CPU 上,我们将在我们自己的chiplet流片之前对其进行多次许可。我们正在与六家想要从事定制内存芯片或 NPU 加速器等业务的公司进行交谈。我认为对于我们的下一代,无论是 CPU 还是 AI,我们将构建 CPU 和 AI chiplet。但随后其他人会做其他的小芯片。然后我们会将它们整合到系统中。


TPM:他们将进行组装和系统,而您不感兴趣的只是制作一个封装,然后出售给惠普、戴尔或其他任何人?


Jim Keller:我们会看看会发生什么。奇怪的是,你真的必须构建它来展示它。人们说,我真的很想建造 10 亿个,所以给我看 1,000 个。所以我们建立了一个小型云,我们在云中拥有 1000 个 AI 芯片。当我们刚开始时,我们只是将芯片放入服务器中并为人们提供访问权限。这真的很容易。可以运行 Linux,也可以使用裸机。


TPM:这是我的下一个问题。如果你看看像 Cerebras 和 SambaNova 这样的公司,他们确实正在成为云供应商或特定云供应商的供应商,寻找利基市场,同时也是一种比 Nvidia 的 GPU 更便宜、更容易完成 AI 的方法。根据我的计算,训练下一代人工智能模型似乎需要大约 10 亿美元,而这笔钱必须来自某个地方,或者必须找到一种更便宜的方法。


Jim Keller:我想说大约一半的人工智能软件初创公司甚至不知道你可以购买电脑。我们与他们交谈,让他们感兴趣,然后他们询问是否可以在云上尝试。另一方面,随着公司规模的扩大,他们开始意识到,他们在云上运行人工智能所需的费用是在自己的数据中心运行人工智能的三倍或更多——这取决于你购买的产品以及你的摊销时间。真的很贵。


如果我们设计出一款引人注目的 CPU 和 AI 加速器,那么就有多种进入市场的渠道:IP、chiplet、芯片、系统和云。看起来要证明你在做什么,你必须制造芯片、系统和云来让人们访问它。然后关键点是,你能否建立一个业务,建立一个工程团队,筹集资金并产生收入。我们的投资者大多说,我们不需要你赚十亿美元,我们需要出售价值数千万美元的东西,以表明客户愿意为此付费——它有效并且他们想要它。这就是我们现在的使命。


我们正在旅途中。我最近告诉某人,当事情不起作用时,你有一个科学项目;当事情顺利进行时,你就会遇到电子表格(spreadsheet )问题。电子表格是这样的。我们当前的芯片采用 Globalfoundries 12 纳米工艺。有人说,如果移植到 3 纳米,速度会有多快?这并不涉及火箭科学。您了解 GF12 和台积电 5N、5N 和 3N 的性能,只需将其制成电子表格,然后问:“这是一款引人注目的产品吗?”


当我开始时,我是否认为我们必须做所有这些事情?不,不是真的。但话又说回来,作为一家销售全功能计算机的公司,你必须包办一切,这是否令人惊讶?所以我曾经开玩笑说,当你构建一个产品时,有一个 80/20 规则,即 20% 的努力就是 80% 的结果。然后是 100% 规则,即您必须 100% 完成客户成功所需的事情。(when you build a product, there’s the 80/20 rule, which is 20 percent of the effort is the 80 percent of the results. And then there’s the 100 percent rule, which is you have to do 100 percent of the things that customers need to be successful.)


TPM:在当今时代,公司不必购买所有有趣的东西来看看哪些有效,哪些无效。所以这是一个改进。但无论哪种部署模式,AI训练的成本都非常高。


Jim Keller:在繁荣周期中总是如此。我曾与多家风投公司交谈过,他们表示他们正在为一家人工智能软件初创公司筹集 5000 万美元,其中 4000 万美元最终将流向 Nvidia。当你很着急时,这是一个很好的答案。然后你会想,好吧,我可以花 1000 万美元从 Tenstorrent 获得相同的性能,但你必须做更多的工作。然后讲钱的时间价值,然后他们现在就花这个钱。但当炒作周期开始消退时,人们开始问为什么他们要花这么多钱买东西?比如,什么是可靠的替代方案?我们如何降低成本?


TPM:你会站在那里。使用 Tenstorrent 芯片可以将 AI 训练成本降低多少?


Jim Keller:我们的目标是便宜 5 到 10 倍。


TPM: 准确地说,比类似性能的 GPU 系统便宜 5 到 10 倍。


Jim Keller:是的。这有一些技术原因。我们使用的内存带宽要少得多,因为我们有一个图形编译器,而且我们的架构比 GPU 更像是一台数据流机器,因此我们可以将数据从一个处理元素发送到另一个处理元素。一旦使用 HBM 硅中介层,它就会变得非常昂贵。现在最疯狂的事情之一是,如果你看看 Nvidia 在 H100 SXM5 上的标记,就会发现大部分硅含量都来自三星或 SK 海力士。HBM DRAM 比 Nvidia GPU 芯片更有价值。此外,如果你想构建自己的产品,Nvidia 会向你出售 IP 块还是为你定制?答案明显是不?


TPM:您是否有兴趣从事网络工作,或者您只是专注于计算?我希望你能在这里给出正确的答案。


Jim Keller:我们的芯片上有网络端口,因此我们可以将它们以大型阵列的形式连接在一起,而无需通过其他人的交换机。从技术上讲,这就是我们的方法比 Nvidia 的方法更便宜的原因之一。Nvidia 喜欢销售高利润的 InfiniBand 交换机。我们在不需要的地方建造了一个盒子。


在目前的情况下,英伟达是一个巨大的利润创造者。在我们的情况下,我们会问为什么要在几百个芯片之间放置一个 InfiniBand 交换机?为什么不让芯片直接相互通信呢?我曾与几家非常酷的存储初创公司交谈过,他们的产品非常有趣,然后他们告诉我他们的使命是获得非常高的利润。我告诉他们我们的使命是真正降低成本。你必须选择你的使命。


因此,如果有人来找我,他们想要获得我们技术的许可,以便他们可以修改它并构建自己的产品,我认为这是一个好主意,因为我认为当更多的人能够接受可靠的东西时,创新就会加速,然后继续努力。这部分是因为我相信我们会向任何合作伙伴学习。我们有一些非常优秀的设计师,我们正在认真考虑我们的下一代。


TPM:那么您如何看待软银收购 Arm 之前和软银收购之后 Nvidia 追赶它之间的区别?你想要成为Arm,而不是颠覆(twisted )Arm。


Jim Keller:目前,我们是一家风险投资公司,我们的投资者希望我们的技术能够发挥作用,并希望我们的制造和销售产品的能力得到积极的信号,这正是我们所关注的。


我们刚刚出于两个不同的原因与三星和现代进行了一轮融资。


三星非常了解我,因为我曾在 Digital Equipment、Apple、Tesla 和 Intel 与他们合作开发过产品,而且他们都取得了成功。他们对服务器芯片、自动驾驶芯片和人工智能芯片感兴趣。因此,RISC-V 将成为收入来源,他们希望对此进行投资。



-End-



*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。



关键词: GPU

相关推荐

技术专区

关闭