今年夏天,英伟达创始人黄仁勋专门腾出时间,拜访了一家名叫战略与国际研究中心(CSIS)的智库。在美国,智库的意见能在很大程度上左右华盛顿的政策走向,深处科技战前线的黄仁勋自然深知这一点。
黄仁勋上来就是一顿彩虹屁,并明确表达了捐赠的意向。随后他话锋一转,表示有一位小同志严重拖累了智库队伍的整体水平,建议清除出去。
这位小同志不是别人,正是 CSIS 高级研究中心主任 Gregory C. Allen,也是美国芯片出口管制政策的坚定鼓吹者。
面对美国的打压,英伟达似乎比中国公司还着急。过去数月,黄仁勋一直在竭尽全力阻止制裁落地。
除去给智库施压,黄仁勋还当面警告了华盛顿决策层,认为制裁会造成严重代价。与此同时,他还不忘敦促美国半导体行业协会发表谴责声明,强调进一步限制将损害行业的竞争力 [2]。
今年 7 月,黄仁勋还拉上高通和英特尔去了趟华盛顿,目的也是说服美国政府放松对华限制。
然而,美国依然在 10 月 17 日更新了芯片出口管制,中国特供版芯片 H800 和 A800 也被列入禁售范围。更令人惊讶的是,用于游戏的消费级显卡 RTX 4090 也进了名单。
这对英伟达来说无疑是致命一击,长期以来,中国大陆市场一直占据其 20% 以上的收入。10 月 17 日出口管制发布当天,英伟达股价下跌近 5%,AMD 和英特尔也跟风跌了 1%。
那么,英伟达是否真的无法替代?中国市场之于英伟达又意味着什么?
最好的选择
简单来说,美国政府在新的出口管制政策中添加了多个新指标,不仅把特供产品 H800 和 A800 牢牢卡死,还顺便误伤了消费级显卡 RTX4090,搞得国内黄牛趁机涨了一波价。
为什么说是 “误伤”?虽然 RTX4090 和 H100 都是 GPU,但两者的设计思路截然不同。
比如,RTX4090 的频率强于 H100,因为更高的频率能够提供更强的图形渲染能力。而 H100 的强项则是理论算力、显存大小和显存带宽,这是因为 AI 推理和训练都非常考验数据的吞吐效率,这也是为什么 H100 需要昂贵的 HBM3 内存。
至于玩游戏,H100 甚至都不支持主流游戏的图形接口。这也符合英伟达官方的 “消费类” 和 “计算类” 的归类。
在一些讨论中,RTX 4090 由于更低的价格、不差的算力、更低的功耗,一度被认为同样可以用于高性能计算。
客观地说,铁了心也能用。但一般而言,RTX 4090 由于显存和带宽的限制,最多只能用作推理芯片。
AI 芯片根据部署位置区分,大致上可分为云端芯片和终端芯片。云端芯片用于训练模型,俗称训练芯片;终端芯片用于终端设备,根据训练好的模型对实时数据执行推理任务,俗称推理芯片。
职责不同,导致对训练芯片和推理芯片的性能要求也有很大差异:训练芯片需要通过海量数据训练可靠的模型,因此对数据传输速率、算力等指标有相当极端的要求。这也是为什么 H100 不惜用上昂贵的 HBM 内存和 CoWoS 封装,都是为了数据吞吐效率。
“特供版” 的 H800 和 A100,阉割的也是内存带宽,算力其实没有变化。
推理芯片一般处理实时任务,对于低延迟的要求更高,而且由于部署在终端,还要考虑功耗、大小、成本等问题。因此,用 RTX4090 这类消费级显卡强行训练,过低的带宽会带来 “内存墙” 的问题。
无论是谷歌的 TPU、还是特斯拉的 FSD 芯片,大部分应用场景都是推理。大部分国产 AI 芯片,也都是走推理芯片的路子。
而在训练芯片这个场景下,英伟达的确是目前最好的选择。
从绝对的算力来讲,H100 并不是巅峰。但在 AI 训练这件事上,一口气买几百块显卡的科技公司更在意的是另一个指标:单位成本的算力。
这也是为什么大家宁愿加价抢 H100,也不愿意买 “青春版 H100”——A100:按照 H100 SXM 版本、A100 80GB SXM 版本 8 月的销售价格(24000 美元、15000 美元)计算,每单位算力的成本分别为 12.13 美元、24.04 美元,H100 SXM 优势明显。
另外,数据中心搭建完成后,还需要考虑电力、运维、故障、后期支持等多方面成本。种种因素叠加,大家还是老老实实地拿起了号码牌,加入了漫长的 H100 等待序列中。
比如特斯拉,前脚宣布给自研的 Dojo 超级计算机投 10 亿美元,后脚就透露要购买 10000 张 H100 用于驱动 AI 负载。
简而言之,在推理场景下,英伟达尚有替代方案;但在训练芯片里,英伟达是事实上的唯一方案。
原因在于,英伟达真正的护城河,是软件。
隐形的护城河
今年 10 月 10 日,AMD 宣布打算收购一家名为 Nod.ai 的 AI 开源软件初创公司,以补足其软件短板。
虽然贵为 GPU 行业的世界第二,但长期以来 AMD 的市场份额只能和英伟达二八开,在以 AI 为代表的高性能计算市场,存在感就几乎为 0。
事实上,AMD 的 AI 芯片理论参数并不差,与 H100 对标的 MI250X,虽然在 FP32/FP64 精度下的算力略逊于 H100,但考虑到 10000 美元的售价,MI250X 的 “单位成本算力” 其实更高,理论上可以成为比 H100 更好的选择。
但实际上,不管是大公司还是创业公司,大家还是更喜欢 H100。原因就在软件,也就是大名鼎鼎的 CUDA。
众所周知,GPU 最初的目的是为游戏和视频进行图像渲染。黄仁勋是几乎所有奥斯卡 “最佳视觉效果” 提名影片背后的男人。2007 年,英伟达还曾获得一个分量十足的奖项:艾美奖,以表彰其对娱乐行业作出的重大贡献。
首先发现 GPU 被大材小用的是华尔街精英,在渲染图像时所用到的并行计算能力,正符合金融场景里高频交易的需求。
不过,在用 GPU 跑交易之前,得先编写大量的底层语言代码,这显然劝退了一大批交易员。
为了降低 GPU 的编程门槛,David Kirk 说服黄仁勋在 2006 年推出 CUDA,CUDA 的全称是 Compute Unified Device Architecture,即计算统一设备架构,其作用也直白地写在名字里了:为 GPU 编程提供统一架构,使之满足不同应用场景下的算力需求。
伴随 CUDA 推出的是一本编程指南,里面详述了实现性能的具体方法,并且随着产品的升级迭代不断更新,至今已更新到 12.3 版。
最新版 CUDA 编程指南
这样的说明书在今天看来是基础必备,在当时与竞争对手的差距也不过两年,但先发者的一步领先却足以定义行业。
CUDA 推出后,英伟达迅速打开了新业务的大门,在航空航天、天文学、气象学领域里都有 GPU 的身影。
2009 年,苹果的开发团队推出 OpenCL,支持者包括 AMD 和英特尔,希望能凭借着通用性在 CUDA 身上分一杯羹。但作为追赶者,OpenCL 平台上的开发者天然更少,很容易陷入恶性循环。
而 CUDA 则在 “使用人数越多,CUDA 平台就越好用,新开发者就越倾向于选择 CUDA” 的良性循环中,加固了生态优势。
深度学习爆发后,许多学习框架要么是在 CUDA 发布之后才会支持 OpenCL,要么压根不支持 OpenCL,使得 OpenCL 始终无法触及更高附加值的业务 [5]。
2016 年,AMD 自家软件 ROCm 姗姗来迟,在投入不如英伟达的情况下,服务更新上滞后于 CUDA,因此也难与 CUDA 抗衡。
芯片的架构和制程可以靠一两代产品迅速拉近差距,但一个成熟的生态系统却很难被破坏。CUDA 生态遍布各行各业,从企业蔓延到教育系统。吴恩达曾评价:CUDA 出现之前,全球能用 GPU 编程的可能不超过 100 人。而目前全球的 CUDA 开发者已经达到几百万。
从某种程度上来说,CUDA 已成为行业的事实标准。它的另一个特点是:只能和英伟达的硬件适配。
因此,任何开发者想要脱离 CUDA 生态,都不得不考虑标新立异的成本和风险。
不过对英伟达来说,繁荣的 CUDA 生态既是一座令竞争对手望而生畏的高山,却也是自己的软肋所在。
英伟达在担心什么?
黄仁勋之所以如此着急,道理也简单:如果铁了心换掉英伟达,也不是不可以。
英伟达固然是人工智能得以走上时代舞台中央最大的功臣之一,但在当下,它却存在两个不容忽视的问题:
一是成本过高。以 “地表最强 GPU” H100 为例,首发价为 3.3 万美金,如今二手市场价格更一度上涨至 5 万美金左右。
科技公司如果要搭建拥有一万块 H100 的数据中心,即便不考虑其他成本和后续开支,光 GPU 采购费就需要数亿美金 —— 即便对《财富》世界 500 强排行榜上的科技公司来说,这也不是笔小钱,更遑论初创企业。
二是通用芯片难以实现差异化。堆叠算力不是简单往车里加汽油,需要考虑软件适配性、自身业务需求等一系列问题。更何况,如果只用英伟达的 GPU,意味着只有当英伟达出新产品,自家产品才能跟着升级,彻底将战略主动权交给了黄总。
这就是英伟达面临的一个尴尬情景:自己的客户都是自己的对手。
早在 2014 年,谷歌已开始了自研芯片的计划,其最新成果就是 TPUv5 系列。对参数量小于 200B 的大模型来说,TPUv5 在推理时更具性价比,相较于英伟达 GPU 有着肉眼可见的成本优势 [4]。
而在重要的中国市场,美国的出口管制实际上是在给黄总帮倒忙。
如前文所述,英伟达的核心壁垒在 CUDA 组成的繁荣生态 —— 它就像一个无数开发者组成的 “圈子”,后来者想要进入 AI 产业,就得融入这个圈子。如果把一部分开发者拦在圈子外面,那么他们最有可能做什么呢:组建一个自己的圈子。
事实上,英伟达非常清楚这一点,其法律顾问 Tim Teter 就曾这样警告华盛顿:你冒的风险是刺激了一个由竞争对手主导的生态系统的发展,这可能会对美国在半导体、先进技术和人工智能领域的领导地位产生非常负面的影响。
如果 “被踢出圈子” 的概率只有 1%,那大家只会把它当作一个黑天鹅事件;但一旦这个概率上升到哪怕只有 10%,就一定会有人行动起来。这也是为什么英伟达对美国的出口管制如此警觉 —— 中国科技公司会铁下心来掀桌子,开始搭建自己的生态。
英伟达并非是唯一有着类似境遇的公司,英特尔与高通也一同参与到了施压美国政府的行动当中。它们的一部分竞争力同样来源于生态的构建,英伟达的境遇让这两家芯片巨头深感唇亡齿寒。
要知道,上一轮针对英伟达的出口管制发布后,英特尔专门把 Gaudi 2 芯片的发布会放在北京开,一口一个 “帮助构建中国人工智能的未来”“携手中国产业生态”,趁机挖黄总墙角的心思昭然若揭。
结果新版出口管制出炉,AMD 的 MI250X、MI300,英特尔的 Gaudi 2、Gaudi 3 和黄总一起上了名单。这也难怪有小道消息说,英特尔高层和美国高级官员交涉时 [2],一度急得指着对方鼻子问 “到底懂不懂半导体?”
尽管相比美国,国内的芯片产业整体的差距并不小,但长期的封锁,一定会加速中国芯片产业的发展。一旦这个过程开始,也许就不可逆了。
这就是英伟达害怕的、美国众多芯片公司所担心的事情,正如黄仁勋所说:There is no other China,there is only one China。
来源:远川科技评论