黄仁勋的Token经济学:推理、云端与软硬一体化|GTC2025
2025年03月22日 07:41
作者: 陆彦君 吴洋洋
来源: 第一财经
2人评论
5
90
东方财富APP
Scan me!

方便,快捷

手机查看财经快讯

专业,丰富

一手掌握市场脉搏

手机上阅读文章
Scan me!

提示:

微信扫一扫

分享到您的

朋友圈

  炒股第一步,先开个股票账户

  Key Points

  从快思到慢想:计算范式变了,芯片的架构也需要改变;

  黄仁勋给出了每两年更换一代架构的芯片战略,但他更重要的战略是关于AI的;

  AMD争夺终端,英伟达押注云端;

  AI芯片本身的护城河其实没有那么深,尤其推理芯片。

  「一个Hopper芯片可以为每个用户每秒产生大约100个token,一个兆瓦级数据中心每秒可以产生10万个token。」黄仁勋说,如果进行超级批量处理,那么一个AI工厂每秒可以产生的token量可以达到大约250万个。

  「ChatGPT的成本大约是每百万个token 10美元,250万乘以10,那就是每秒25万美元。」他继续说,一年大约有3000万秒,乘起来就是上万亿,「这就是兆瓦级数据中心的营收,这就是您的目标。」

  当地时间3月18日,黄仁勋在由英伟达举办的年度GTC(GPU Technology Conference)大会上进行了一场长达两个半小时的演讲。和此前历次在GTC、台北Computex电脑节以及不久前举办的CES大会上的发言不同,黄仁勋在此次GTC大会上做的最多的事情之一就是算账。

图片

  黄仁勋说,DeepSeek火了之后,4大云厂商反而买了更多英伟达芯片,而不是更少。

  今年1月底DeepSeek大火之后,由于训练和推理成本的数量级式下降,市场有声音认为市场不再需要那么多英伟达芯片了,英伟达股价因此从153美元/股的高点一路下跌到104美元/股。大概出于试图扭转市场对英伟达未来看法的缘由,3月18日的演讲中,黄仁勋铆足了劲构建和推销他的「token经济学」。

  「去年,几乎全世界都错了。」他断言说,「AI的计算需求事实上是加速的,其规模化定律(scaling law)具有强劲韧性。」

  根据他的算法,「模型推理需要的算力消耗比我们当下以为的还要多100倍。」

  英伟达已经是目前全球最大的AI芯片公司。根据Jon Peddie Research数据,截至2024年三季度,英伟达在全球AI芯片市场份额高达90%;与此同时,以AI芯片为主的数据中心业务也是英伟达营收和利润的最大贡献者,占比高达88%。

  这家公司还能如何增长?黄仁勋的每次公开演讲都在回答这个问题,这次也不例外,但外界买不买账是另外一回事。

  从快思到慢想:计算范式变了,芯片的架构也需要改变

  发布会一开始,黄仁勋就点出了去年DeepSeek推出后业界对于「AI计算需求即将断崖式下滑」的判断不仅是错的,而且错得离谱。他给出的理由不是杰文斯悖论中提到的「效率提升反而令资源消耗激增」,而是计算范式的转换本身带来的——大模型正在从GPT那样的直觉式「快思考」模式,转向OpenAI o1和DeepSeek R1这样通过构建逐步推导的思维链进行推理的「慢想」模式。

  黄仁勋认为,模型思考范式的切换,会同时为模型训练和推理市场带来计算量上的大幅增长。首先,当大模型公司们意识到将「预训练」好的基础模型(比如GPT)再使用强化学习方法进行「后训练」之后,就能得到具有多步思考能力的推理模型,模型训练的需求就会再次获得一拨算力增长;其次,也更重要的是,推理模型的多步甚至反思过程,会比直接给出答案消耗更多token——黄仁勋预计这种慢想消耗的token量大约是快思模式的10倍。

  「为了保持模型的响应速度和交互性,避免用户因等待其思考而失去耐心,我们现在还需要计算速度提高10倍。」黄仁勋说,如此一来,token消耗量增加10倍,计算速度也提升10倍,总计算量「轻松地就能达到百倍」。

图片

  黄仁勋说,数据中心AI市场会成长到1万亿美元的规模。

  黄仁勋称,英伟达在过去每一个新计算时代到来的拐点时刻都及时推出了符合市场需求的芯片。2022年ChatGPT大火之年,英伟达推出了AI芯片的第一个系列Hopper系列,2024年,o1推理模型诞生之前,英伟达也推出了新的Blackwell系列。相较于Hopper架构,Blackwell系列芯片的架构更适合「推理」——它新增了对FP4(4位浮点运算,数字越高,计算精度越高)数据格式的支持,同时加大了内存。

  以2024年3月推出的B200(Blackwell系列的第一款芯片)为例,它首度支持FP4精度的计算。低精度计算对于目前流行的MoE(混合专家模型)架构是必要的,有利于降低训练和推理的成本与效率。DeepSeek的R1模型就是一种MoE架构,并且采用以FP8为主的低计算精度训练和推理。因为推理时只需要调用整个模型中的少量「专家」,而不用动用整个模型的所有参数,且只需要进行8位浮点运算,不像此前主流模型那样动辄需要计算到FP16或FP32的精度,DeepSeek R1能以大约只有OpenAI o1模型3%的价格提供推理服务。

  GPU中内存的大小对非推理模型影响不大,但对推理模型至关重要。推理模型的多步推理意味着更大缓存,如果缓存过多,模型推理速度就会下降,这给用户造成的直接体验就是,模型要花很长一段时间才能想好怎么回答问题,而用户耐心是有限的。为了解决缓存爆炸问题,DeepSeek曾找到一种对缓存数据进行联合压缩的方法,从而大大减少推理期间的内存使用。得益于这一创新,DeepSeek的第二代基础模型V2的生成吞吐量达到了上一代模型(V1)最大生成吞吐量的5.76倍。

  当然,DeepSeek的一系列模型是使用英伟达的最低阶AI芯片A100训练的,其内存和带宽都有限(A100内存只有40GB,带宽最高2.5TB/s ),缓存压缩是没有办法的办法。2024年推出第一代Blackwell系列芯片B200时,英伟达新增了对FP4计算精度的支持,还将内存空间增加到了192GB,直接通过升级硬件解决这一问题。

  3月18日的GTC大会上,英伟达进一步发布了B200芯片的升级版B300,内存从B200的192GB进一步增加到288GB,同时,其FP4计算性能也比B200提高了50%。

图片

  相较于Hopper系列芯片,Blackwell系列芯片为推理产生的缓存提供了更大内存和带宽。

  在B300之后,黄仁勋公布了英伟达在AI芯片方向的整个路线图。路线图显示,在2022年和2023年推出的基于Hopper架构的系列芯片、2024年和2025年推出基于Blackwell架构系列芯片之后,英伟达还将在2026年和2027年发布Rubin新架构和系列AI芯片,再之后是Feynman架构及相应芯片。Rubin和Feynman分别以天文学家Vera Rubin和理论物理学家Richard Feynman(费曼)的名字命名。

图片

  这意味着,英伟达将每两年更新一代芯片架构。这种更新早就不再单纯为了算力,比如从第一代Hopper芯片到第二代Blackwell芯片,芯片加工采用的都是4nm工艺,尽管晶体管数量有增多,但芯片的性能增长越来越多来自架构的合理性而非算力本身的堆叠。以H100和B200为例,单片H100上有800亿个晶体管,B200增加到2080亿个,只增加了1.6倍。但性能上,B200的计算性能差不多是H100的5倍——这种效率更多来自于对不断进化的算法的适配。

  「芯片要解决的不光是计算问题,还是I/O(开或关,即与资源分配、通信有关的问题)问题。」CUDA之父巴克(Ian Buck)曾表示。以越来越多被使用的MoE混合专家模型为例,这种架构将模型分解成一群擅长不同任务的专家,谁擅长什么,就将相应训练和推理任务分配给谁。如此一来,不同专家间的并行计算和通信就变得重要。为了找出类似GPT-4这样的MoE模型训练时最合适的并行配置,英伟达曾进行过大量实验,以探索构建硬件和切割模型的正确组合。

  AMD争夺终端,英伟达押注云端

  从Blackwell架构开始,英伟达的芯片业务就越来越偏向于云端AI计算了。这种倾向一方面体现在英伟达对于自家芯片适配模型算法迭代的及时性追求上:2024年3月发布Blackwell系列的第一款芯片B200时,推理模型尚未问世,OpenAI直到当年9月才推出其首款推理模型o1。B300的发布意味着英伟达只花了几个月时间,就准备好了一款更好适配新类型模型的芯片。如果根据美国半导体咨询机构SemiAnalysis的报道,B300即将推出的消息早在去年12月就出现了,意味着市面上首款推理模型o1出现3个月后,英伟达的适配芯片就差不多就绪。

  另一方面,英伟达对于云端AI芯片的侧重也体现在其对云端即数据中心业务的重视程度上。不管是Hopper还是Blackwell,以及之后的Rubin和Feynman,这一系列芯片都是为数据中心准备的,只有那里的服务器才能运行如此算力规模的芯片,用以模型训练或者云端推理。

图片

  数据中心业务成为英伟达最大的赚钱机器。

  而与此同时,AMD正花大力气想要抢占的,是每个人可以拿在手里、放在家里桌面的小型设备里的终端AI芯片。就在英伟达GTC大会召开的前一天,AMD在北京召开了「AMD AI PC」为主题的创新峰会,AMD董事会主席兼CEO苏姿丰亲自站台,推广公司旗下多个AIPC处理器,包括锐龙AI Max系列、锐龙AI 300系列、锐龙9000HX系列等,宣布搭载这些新品的AIPC将很快面世。联想、华硕、微软宏碁等PC厂商都参加了AMD的这次峰会。

  云端数据中心业务对于英伟达的生意的确越来越重要。截至2025年1月26日的2025财年,英伟达实现总营收1305亿美元,其中以AI芯片为主要产品的数据中心业务营收达到1152亿美元,规模差不多是游戏AIPC为代表的终端业务的10倍,在总营收中占比高达88%。

图片

  云端业务的强劲增势从截至2023年1月的2023财年就开始了。2022财年,英伟达收入的主要贡献者还是游戏机中的GPU,2023财年,云端与终端的力量就反转了。到2025财年,这种力量差异累积到了10倍的高度。

  不能说英伟达已经放弃了终端市场,「GPU云有其自身的要求,但令我非常兴奋的一个领域是边缘计算。」黄仁勋在演讲中说,不过对于把人工智能部署到终端,他给出的例子主要是汽车和机器人,而不是PC。

  对于PC,英伟达给出的方案是超级计算机——DGX,一个完备的个人电脑,有DGX Spark和DGX Station两个款式。其中DGX Station搭载了英伟达当天发布的B300芯片的组合版GB300,大小和Mac Mini相当,售价3000美元。英伟达称,这两款计算机将于今年晚些时候从惠普、戴尔、联想、华硕等OEM厂商那里出货,面向研究人员、数据科学家、AI开发者和学生。这款超级计算机最早在今年1月的CES上出现过,当时英伟达给它的定位是「全球最小的个人AI超级计算机」。

图片

  与AMD力争将其AI芯片植入各大电脑品牌厂商的PC设备中不同,英伟达的这个计算机项目看起来不像是为与既有终端设备厂商达成合作、用英伟达芯片「赋能」它们而推出的,反而更像是为了挑战甚至颠覆它们而存在。「我们需要新一代的计算机。」黄仁勋说。

  AI战略先于芯片战略,但资本市场并没那么买账

  整场演讲中,黄仁勋所谈论的东西让他看起来不像只是一家芯片公司的CEO,而更像是整个人工智能行业的意见领袖:不止关注芯片本身的架构演化,更想要引领人工智能行业的未来方向。

  去年的GTC上,黄仁勋就显示了他要对产业上游——模型层甚至应用层的兴趣。当时,他发布了可以让开发者基于英伟达芯片开发和部署生成式AI助手的NIM(NVIDIA Inference Microservice)服务,以及可以充当机器人大脑的基础模型Project GR00T。

图片

  今年的GTC大会上,他进一步发布了GR00T N1模型,号称全球首个开源的、可定制的人形机器人基础模型,采用分层架构,包括一个动作模型和一个决策模型。能够处理抓取、移动物体以及在双臂之间转移物品等简单动作,也能执行需要多步推理的复杂任务。演讲会场,黄仁勋还让搭载了GR00T N1模型的机器人——Blue(星球大战中的机器人角色)出来走了几圈,并跟它互动了几句。

图片

  加载了GR00T N1模型的机器人——Blue。

  此外,他还宣布英伟达在与DeepMind、迪士尼合作研究一个物理引擎,名为Newton(牛顿),目标是让机器人像人类那样理解摩擦力、惯性、因果关系和物体恒存性。这一模型未来也要开源。

  这些在模型层的开源投资,意味着英伟达并非真的想要把业务拓展到软件层,而是想要建立一种生态。就像CUDA之于英伟达的GPU一样,一个够水准的基础模型(比如DeepSeek)所能构建的软件生态,对于英伟达想要拓展的机器人芯片、自动驾驶芯片,同样重要。在算法尚未收敛阶段,这是让其芯片能够及时适配算法演进最有效的方式。

图片

  与DeepMind、迪士尼合作研究一个物理引擎Newton(牛顿)。

  黄仁勋大谈了AI,不过,他的投资者们更在意的还是芯片。整场大会中,黄仁勋一次也没有提到自动驾驶芯片Thor。这款芯片早在2022秋季的GTC大会上就发布了,支持L4级自动驾驶,原本计划2024年年中量产,迄今仍未有进一步消息。小鹏、蔚来等汽车厂商等不及Thor的量产而在最新款车型中采用了自研芯片。

  除了云端数据中心,英伟达在游戏与AIPC、自动驾驶方面的业绩已经多年不增长了。

  3月18日的演讲开始前,英伟达股价下跌近1%,演讲结束后,跌幅扩大至3.4%。

  AI芯片本身的护城河其实没有那么深,尤其推理芯片

  不少中国芯片厂商已经看到了AI推理带来的计算范式变化和市场机会,并已推出产品分食相应的数据中心市场。

  一位国产芯片行业从业者告诉第一财经「新皮层」,2017年,英伟达在芯片设计中推出tensor core,从科学计算、图形渲染等方向逐步转向AI的路径验证成功后,中国的AI芯片厂商们就随之成立了。2018年9月,阿里巴巴成立了独立的芯片公司平头哥。2019年,华为宣布推出面向AI市场的昇腾系列芯片。燧原科技、壁仞科技、摩尔线程等初创公司紧跟着就成立了。它们研发的GPU产品主要面向AI市场。芯片的研发周期通常为2至3年。2024年DeepSeek推出时,这些公司基本都已拥有成熟的AI芯片产品。DeepSeek模型发布后,持续有国产芯片厂商宣称自研芯片适配DeepSeek模型。

图片

  这些国产GPU公司的AI芯片暂时还难以同英伟达的Hopper、Blackwell等产品同台竞争,但出于芯片禁运等地缘政治风险,不少国产AI芯片也在从中国市场获得订单。「以前可能是象征性地签署战略合作协议,现在产业上下游合作更加紧密,有的芯片公司员工开始住在客户公司里连夜调试,提升芯片性能。」上述国产芯片从业者对「新皮层」说,在DeepSeek出现之后,国内产业上下游开始真正看到了双方的价值。

  一位英伟达的中国区代理商表示,今年是她第二次参加GTC大会。黄仁勋的演讲上午十点开始,她排队近2小时,卡点在9:50幸运进场——超过时间即使有票也无法进入了。这位代理商对「新皮层」称,与今年的演讲相比,去年黄仁勋演讲时提到的技术、产品和整个CUDA生态理念让她更加震撼。她认为,AI推理市场「未来会出现几分天下的情况,英伟达的优先性更高,但中国内地市场的特点是应用足够细分、需求足够多,国产芯片厂商很快能知道客户需要什么,能及时调优获得反馈,相比美国、欧洲,这是中国市场的优点。」

  CUDA生态作为英伟达的护城河当然仍然存在,不过它不再是牢不可破。上述英伟达代理商和国产芯片研发者都对「新皮层」称,华为晟腾也像英伟达那样从芯片底层开始构建了整个infra软件生态。DeepSeek在2月底连续一周开源的多项infra软件,既让英伟达的CUDA软件生态更丰富了,也让外界看到英伟达的芯片架构没有那么难被琢磨清楚,CUDA对于芯片与模型开发者之间的绑定关系被减弱。

  另一位芯片产业人士对「新皮层」称:「前两年芯片生态的锚点在CUDA上,但现在的锚点变得更底层(即芯片架构本身),在这个层级,昇腾和英伟达芯片(面对的挑战)是一样的。」

  另外,前述芯片产业人士告诉「新皮层」,在AI训练场景下,由于需要采用强化学习、混合专家架构等方式去调试算法,国产芯片「堆数量」不能解决根本问题,与英伟达的差距可能会拉大。但在AI推理场景下,由于模型算法已固定,硬件性能的不足可以通过增加芯片数量解决,「用双卡甚至多卡弥补差距」。

  全新妙想投研助理,立即体验

(文章来源:第一财经)

文章来源:第一财经 责任编辑:70
原标题:黄仁勋的Token经济学:推理、云端与软硬一体化|GTC2025
郑重声明:东方财富发布此内容旨在传播更多信息,与本站立场无关,不构成投资建议。据此操作,风险自担。
举报
分享到微信朋友圈
Scan me!

打开微信,

点击底部的“发现”

使用“扫一扫”

即可将网页分享至朋友圈

扫描二维码关注

东方财富官网微信

还可输入
清除
提交评论
郑重声明: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。 《东方财富社区管理规定》
热门评论 查看全部评论
全部评论
最新 最热 最早
2025-03-23 00:28:14 来自 上海
对存储芯片的需求越来越重要,越来越多
置顶 删除 举报 评论 点赞
2025-03-22 08:39:36 来自 安徽
瑞芯微
置顶 删除 举报 评论 点赞

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500
搜索
复制