万字总结:DeepSeek如何加速AI Infra变革: DeepSeek 在进一步点燃 AI Infra 可能性的同时,也带来了新的竞争格局,在 DeepSeek 的范式上,其他厂商能否追赶甚至实现超……
哈喽!伙伴们,我是小智,你们的AI向导。欢迎来到每日的AI学习时间。今天,我们将一起深入AI的奇妙世界,探索“万字总结:DeepSeek如何加速AI Infra变革”,并学会本篇文章中所讲的全部知识点。还是那句话“不必远征未知,只需唤醒你的潜能!”跟着小智的步伐,我们终将学有所成,学以致用,并发现自身的更多可能性。话不多说,现在就让我们开始这场激发潜能的AI学习之旅吧。
万字总结:DeepSeek如何加速AI Infra变革:
DeepSeek 在进一步点燃 AI Infra 可能性的同时,也带来了新的竞争格局,在 DeepSeek 的范式上,其他厂商能否追赶甚至实现超越尤为关键,这决定了他们能否继续留在牌桌上,当前,AI Infra 已然进入新的洗牌期。
2025 年 3 月 22 日,雷峰网、AI 科技评论 GAIR Live 品牌举办了一场主题为“AI Infra 变革进行时”的线上圆桌沙龙。
圆桌主持人为 3C AGI Partners 创始人兼 CEO 王康曼,她一直专注于投资 AI Infra 赛道,其创立基金成立后仅一年多就已经成为英伟达全球 VC 联盟成员,也投资了海外发展势头最猛的两家 AI 芯片创业公司 Cerebras Systems 和 Groq。
同时,圆桌还邀请了魔形智能创始人CEO徐凌杰、探微芯联 CEO 刘学和清程极智联合创始人师天麾共同开启了一场深度对话。
交谈过程中,嘉宾们围绕成本进一步压缩下,MaaS、一体机等 AI Infra 商业模式的前景、DeepSeek 为国产芯片带来的启示、构建开源生态对于 Infra 的重要意义等多个方面发表了独到见解。
当前,国内 AI Infra 初创的商业模式无非云上和线下两种,而 DeepSeek 之后有关云上 MaaS 能否盈利的讨论甚嚣尘上。
对此,师天麾表示,“这块的盈利空间要看算力规模、优化程度、客户付费能力等多个因素,算力成本也会随着更优的硬件架构和更好的硬件工艺进一步降低,模型价格未来也会持续变化,现在没法一概而论能否盈利。”
线下私有化部署方面受到 DeepSeek 的影响,客户需求也逐日走高,不过虽然 DeepSeek 确实提升了大众对于 AI 的认知,但许多企业还是会担忧对实际业务是否有帮助。
针对于此,师天麾建议,“小企业没有太多数据安全顾虑可以租机器,如果对数据安全要求比较高,也可以先花几十万买个性能没有那么强的机器,也不是非要跑 DeepSeek 满血版,先试一试对企业业务场景有没有帮助,有帮助再花钱买更好的机器,用更好的大模型更好地支撑业务。”
线下这块给创业公司带来的机会很多,比如相较于偏爱提供标准化产品的大厂而言,初创提供的服务更为深入和定制化,而从上到下较短的决策链也带来了更加快速的适配跟进速度……
而在国产芯片方面,大家一致认为 DeepSeek 所带来的机遇和提振作用多过挑战。
不过,挑战也是客观存在的。徐凌杰提到,“不止两三家企业在春节后定下了目标做 352 卡、 384 卡大集群的部署。千卡集群分成两部分,一个做 R1 的部署,另一个做 V3 的部署,这些都在他们的规划中,但因为大规模分布式难度高,看起来还需要一段时间调试。”
除前述问题外,DeepSeek 也使开源的呼声持续走高。近期,英伟达也开源了其模块化推理框架 Dynamo,用于在分布式环境中服务 AI 模型,嘉宾们对此也各抒己见。值得一提的是,和 Dynamo 同时在 GTC 上引起关注的还有 Silicon Photonic。
有关 CPO 的未来,刘学认为英伟达对此起到了推动作用,“现在大家统一认为 26 年、27 年硅光会有小批量交付,28 年到 30 年是大规模落地的时间节点。”他还表示,“现在 CPO 很重要,而且工艺厂家越早布局越好,尤其是要全面思考从做光模块转到 CPO 和之前是否有差异。”
以下是此次圆桌讨论的精彩分享,AI 科技评论进行了不改原意的编辑整理:
1.DeepSeek 的影响初探
王康曼:我们讨论的话题是 DeepSeek 之后 AI Infra 的变革,我是 3C AGI Partners的创始人兼 CEO 王康曼,我们基金在过去一年半里投了许多 AI Infra 相关的项目,今天也非常荣幸请到三位老师来共同探讨,他们分别是魔形智能创始人徐凌杰、清程极智联合创始人师天麾和探微芯联 CEO 刘学,请各位老师先介绍一下各自的背景。
徐凌杰:我在 AI 领域深耕多年,和 GPU 有着不解之缘,十多年前我就是第一批学 CUDA 的学生,然后一直在 GPU 行业里从事芯片研发、管理等工作,在芯片公司和互联网公司云计算平台都干过,去年创立了魔形智能(Magik Compute)这家软硬件结合的 AI 基础设施公司。
我们看到的机会是在未来相当一段时间里,因为摩尔定律的限制,芯片里能做的空间相对比较少了,随着模型越来越大、上下文越来越长,更多关于 AI Infra 的创新是在集群、数据中心层面,所以我们既会有自己的硬件集群设计,也会有能够调出优秀性能的软件能力。
师天麾:清程极智是 2023 年底创立的 AI Infra 公司,我们主要聚焦于 AI 系统软件部分,通过寻找软硬件结合优化来赋能国产 AI 的发展,从底层编译器到上层并行计算,我们拥有全栈优化经验。然后我们的首席科学家,也是我的博导,是清华计算机系高性能计算研究所所长翟季冬教授,我们在系统和高性能计算领域有十几年积累,从小规模到万卡、十万卡英伟达、国产显卡的集群都有经验。
刘学:我之前在产业界,后来在学校从事 AI Infra 相关研发,我负责过一个过亿级的类脑计算集群的国家级研发。这十年间我们团队做了个千卡类脑集群,同时实现了 GPU 和 GPU 之间在通信领域先发优势的迭代。
现在主要解决国内GPU厂商卡脖子技术,让国内的GPU厂商具备与英伟达竞争的网络通信、并行能力,研发的 ACCLink 和 ACCSwitch 类似于英伟达的 NVLink 加 NVSwitch,是一个全自、多点、多 GPU 缓存和低延时的无损通信协议,加上自己的 Switch,再借助上层通信库,能创建无缝、高带宽、多节点集群,类似英伟达多芯片、超节点的能力。
王康曼:DeepSeek 发布 R1 后对国内 AI Infra 行业带来的冲击挺大的,从技术路线、成本结构和合作模式上看,对大家有什么具体影响吗?
徐凌杰:去年 DeepSeek 就打响了 token 价格的第一枪,从 V2、V3 到 R1 都给了我们很大启示,他们这几个模型在结构上也有很大的延续性,对 AI Infra 是有挺大冲击的,之前都会说美国的就是最好的,大家投资OpenAI,OpenAI 买微软的云,微软云买 Nvidia 的 GPU,这是非常正向的循环。
DeepSeek 带来了全面冲击,从 Infra 角度最大的启示在于,他们在训练阶段就想好了怎么实现低成本的推理,他们手上只有 2000 张卡的 H800 集群,之前也有一部分 A100 但没有 NVLink 这种强互联的 Scale up 集群的卡,基于手上有的算力资源他们做出了一套模型。
之前互联网公司做搜索推荐时,往往会分两个团队,算法团队负责提升召回率、准确率和效果,工程团队则负责降本。DeepSeek 充分考虑了算法、工程及落地效应,把整条链路打通了。这对于 AI Infra 公司人才培养提出了更高要求,现在算法工程师也要考虑到工程的落地,工程落地的人要考虑到在集群方面有什么样的限制。
对于一个年轻人来说,未来不能只是一个写算子的工程师,要了解集群互联、文件系统,以及到底要做什么样的分布式,是把所有 expert 放在一台机器上,还是每个 expert 分散放在每张卡上面达到最好的效果,侧重于系统的吞吐和优化每个用户 TPS 的体验优化策略是不一样的。
我认为 DeepSeek 点燃了 AI Infra 的可能性,前几天 GTC 上黄仁勋画了个图,横轴是单个用户的 TPS,纵轴是整个系统的吞吐,根据不同的要求能够找到不同的体验点。这对于我们不同的业务来讲也是一样的,我们通过系统的组合、软件的优化有非常多的可能性,DeepSeek 已经做出了一个范式,其他厂商能否跟上且达到他们的效果,大方向上来讲既打开了可能性,也打开了竞争格局,大家都在追随甚至超越他们的范式,这是非常激动人心的时刻。
师天麾:今年感觉 DeepSeek 带来最大的影响是让大家明白了 AI 真的很强,企业内部有机会用上,所以我们今年业务突然多了,企业要用上的话,首先他们会有买机器或租机器的算力需求,但他们更想知道 AI 有什么用,如果没用的话,他们不想付出太多成本,所以我们今年也增加了私有化部署的相关业务。
第二点感受是大家更重视 AI Infra 了,之前可能一些大模型厂商和投资人对 AI Infra 会更重视一些,DeepSeek 开源那一周持续不断给大家带来震撼,大家对 Infra 的重视程度更高了,现在也有很多几百上千卡的集群找过来问能不能也给我们弄个专家并行的方式,然后 PD 分离把成本打下来。
然后 DeepSeek 是对 H 系列的显卡做了很好优化,但其他比如国产显卡或者一些老的卡,他们并没有很好地支持 FP8,所以也有很多客户反馈说用 BF16 跑满血版使他们不得不用两倍的硬件成本。我们上周开源的赤兔推理引擎一大特色是计算还是用 BF16 来算,但是用 FP8 进行存储,这样可以让国产卡和英伟达老卡旧卡跑满血版的最低硬件成本直接砍半。
我们在 A800 上进行了一个实验,原来六台才能跑 BF16 满血版,现在三台就能跑,性能还提升了三倍多,所以非 H 的显卡还是有很多机会的,存量显卡非常多,用的人非常多,这件事还是蛮有意义的,开源之后关注的人很多,后续我们也会持续不断去做更好的适配。
刘学:我的感受第一是 Deepseek 带来的惊喜是在 2048 个 GPU 组成集群的情况下突破了硬件的约束;第二是他们提出通信的重要性,把GPU与GPU间的通信做到了极致,首次提出将通信环节从GPU的SM核卸载出来的概念,整体从软硬件层有一个体验点,找到这个体验点进行更高层级的优化;第三是 DeepSeek 的 MLA 和 MoE 的方案使得 KVCache 在 GPU 和 GPU 之间的搬移要求更高,包括 PTX 层的计算实际上对数据传输和计算提出了很多要求。在高能效的计算和通信之下,包括通信和计算的堆叠并行化,是值得我们对 AI Infra 下一代硬件设计有更好思考的。
王康曼:整个行业的成本因为 DeepSeek 也压缩得比较厉害,大家怎么看云厂商的价格战?会影响初创公司吗?
徐凌杰:讲成本要面对特定市场,就以中国来讲有两个不同市场,一个是云上大规模、大并行,需要大集群做到极致 token per second 性价比,另一个是线下本地化部署,在预算有限的情况下,把 DeepSeek 满血、蒸馏版用起来。
这对于我们 AI Infra 公司来讲也就有两个选择,一是往更极致方向走,把成本打下去,壁垒相当高,算法工程师要懂工程的东西,软件工程师要懂硬件的东西,甚至要考虑网络、计算、存储一系列问题。
从具体数字来讲, DeepSeek 售价是百万 token 16 元,如果把所有 token 都转换成收入的话,潜在毛利率在 500% 以上,也就是说它的成本是 2 元左右,如果只用若干台机器在线下部署做一体机的话,单位token的成本可能是他们的几十倍,这取决于用什么机器。
然后也要讨论硬件演进,目前中美走的路径大同小异,就是要把芯片做大,芯片不够大的情况下,要做 Chiplet 封装,然后在集群里有大量的 HBM,再做 Scale up、Scale out。从这个路径上来看,大家还是在往更大的集群上走,美国大量的业务是上云的,他们看到的是云上大并发、大容量、大集群的市场,中国会有相当一部分业务留在线下,这是中国额外的机会点。
师天麾:我非常认同,MaaS 有很多真实需求,国内外很多开发者都希望能用云上的 API,也确实很便宜,但 MaaS 的盈利空间整体还是要看算力规模、优化程度、客户付费能力等多个因素,算力成本也会随着更优的硬件架构和更好的硬件工艺进一步降低,模型价格未来也会持续变化,现在没法一概而论能否盈利。
中国也有很多本地化部署需求,前期可以简单在云上尝试,但很难真正放进业务中,因为存在太多敏感数据不好上云。所以有几种方案,预算有限可以先租个云,或者不买可以运行 FP8 满血版机器,而是先买几十万的机器跑蒸馏模型,在同样预算的情况下,大多数客户会做这种选择,在自己真实的业务场景里测试,我认为 MaaS 和本地化部署会长期共存。
王康曼:国内 DeepSeek 之后也有了挺多一体机出现,大家认为初创企业在 DeepSeek 的成本压缩下,应该怎样面对或者给大家带来怎么样的机遇?
刘学:我们在考虑成本时要对齐到硬件的使用成本,而硬件使用成本无论是 Transformer、DeepSeek 还是原来 CNN 卷积时代,有三个方面对于降本能起到很好的示范作用。第一是设计 ASIC 或者 GPGPU 能效比的问题,比如 1W 能够处理多少 T ops 算力,这直接决定了每单位瓦数能提供多大算力,这个算力影响到任务的 token 输出;
第二是利用率,在能效比一定的情况下进行计算、通信、互联等优化,提高利用率,这样在每瓦提供的功耗下能运算更多任务;第三是云端和端侧的结合,在云端和本地的推训,国内很多研究单位和中小型企业也和 CNN 时代一样,考虑了自身的私有数据隐秘性和及时性,所以更多投入本地购买。
王康曼:从这些点上来看,初创企业是否能比大厂适配地更快?
刘学:大厂的整体优势在于全方位构建能力,初创企业聚焦更底层,要选择自己具有优势的点集中突破,这也是我们选择 GPU 和 GPU scale up 的通信点的原因,有些大厂在 AI Infra 上层没有做调度器,我们做云侧的优化器、装 K8S 训练起来,这块是有发展空间的。
师天麾:相比于大厂,创业公司也有自己的优势,我觉得有两点,一是反应速度快,我前段时间做了很多对接客户的工作,因为我们也推出了一体机,然后不断根据用户反馈来调整我们的产品细节。我们会总结之前对接客户的经验,当晚或者第二天就能开会调整策略,从上到下的决策链非常短。
二是我们更愿意提供定制化的端到端服务。去年我们也做了一些大模型厂商的性能优化单子,他们当时租的云可能是云大厂的,但没有找那边专门优化,因为大厂考虑到成本更喜欢卖标准化的东西,我们愿意给客户提供更深度的优化、更定制化的服务。今年也有很多企业想把 AI 用起来,我们也愿意帮这些客户从0到1将AI在自己的业务场景中使用起来。
徐凌杰:小公司要成长起来有几个关键词,一是有壁垒,要有差异化竞争优势;二是可落地,不能只做得高大上,商业本质是卖货逻辑,无论是虚拟还是实际货品都要可落地;三是可复制,就像最近很多人讨论 MaaS,我认为无论接下来做线上生意还是结合硬件去做,甚至软硬件一体去做,MaaS 都是非常重要的能力。
从 DeepSeek 发布 V3 到现在三个月左右时间,绝大部分人都还没能在那么大的规模里复现他们那种极低的成本。这使 MaaS 能力变得非常核心,如果有个几十人的团队能实现媲美 DeepSeek 能力的话,在全世界范围内都非常值钱的,但是在没有足够的算力资源、优化能力的情况下,贸然出击往往会亏钱,因为没有庞大的用户、特别大的集群以及足够的并发。对于初创来讲,在资源有限、壁垒还在逐渐建立的过程中,落地要分不同阶段去作为。
另外也要找到长期锚点,我们团队的机会点在软硬协同,特别是以硬件为底座,从大的机会来讲,就像黄仁勋说的,未来模型变得更大、上下文变得更长,就需要先把 Scale up 做起来,集群变大后优化的搜索空间变得更大之后,想象空间就变得非常大,这当中不仅有软硬结合的调优技术,还有相当一部分是我们之前相对比较忽视,但又有非常强的工程壁垒的。
在过去一年当中 NVL72 落地遇到了很多问题,包括稳定性、漏液、冷量不足等,这和我们今天讲的调优没有特别强的关系,但它是整个工业的基础,也就是说今天要把这样非常强互联的集群,几百上千张卡集成在一起,从之前 CPU 集群的 6 千瓦到 8 千瓦的机柜,到单台服务器 H100 12 千瓦的功耗,到 NVL72 的 120 千瓦,再到未来 Rubin 系列 800 千瓦以上,上兆瓦级别的集成度当中有很多有挑战、有价值的工作可做。
英伟达过去两年投入了非常大的精力在做 NVL72,他们遇到了很多工程问题,但非常坚定不移地宣布了这个路线,未来还会持续投入去做得更大、更强,更加 Scale up,AMD 也收购了 ZT Systems 要往这方面追赶。这是我们作为初创公司看到的机会点,不仅要有软件层 MaaS 的世界一流能力,硬件也是基础。
2.国产芯片的机遇和挑战
王康曼:DeepSeek R1 出来之后,最早部署在云上的大部分都是国外的厂商,国内可能因为春节晚了几天,但还有一个原因也是国内底层芯片不一定用英伟达,大家怎么看 DeepSeek 给国产芯片带来的挑战和机遇?
师天麾:国产适配慢几天肯定有一部分是春节原因,我们之前合作的硬件厂商,也有在春节期间就开始跟我们开会讨论后续关于 DeepSeek 的适配和优化合作计划,一是春节肯定有影响,另一个 DeepSeek 开源方案是在英伟达原生跑的,自然英伟达说上立马上了。
不过国产适配也没那么复杂,这波给国产带来的机会相较挑战更多,因为总体上需求变大了,企业私有化部署的需求起来了,随着这块市场的增加国产芯片市场也在相应增加,然后推理变得越来越复杂,比如要去设计更大的显存,以及互联技术因为现在需要多机推理了,需要更好的通信以及各种优化通信的手段,这也是国产的机会。
DeepSeek 从 Infra 角度给大家带来的震撼也是非常明显的,大家也会从软硬结合的角度去思考,从算法设计、硬件设计以及系统设计三方面一起来考虑怎么跑得又快又好,成本还低,整体市场是在变得越来越好的。
王康曼:这点我想听一下刘老师的想法,因为刘老师做的就是要把 NVLink 替代的事情。
刘学:我们最近也对接了一些客户,发现 DeepSeek 对大家的影响在于 AI Infra 这一层级的加速。刚才徐老师也说到 NVL72 这一块英伟达做了好几年,我从底层去讲包括散热,我前几天看到一篇文章通过 3D 打印实现散热,现在也在有所改进,包括一些光纤和电缆的使用,包括 GPU 之间的互联和 GPU 和 CPU 之间的互联,英伟达现在是两条研发路线,第一条路线是 GPU、 CPU 互联自己做,第二条路线是 GPU 自己做,通信可以用 CX7、CX8 甚至更高的网卡,CPU 是 AMD 和英特尔做。
在整体的过程中,解剖 AI Infra 对我们的影响,刚才我说的加速是在每个节点的加速,而从线缆、传输介质、CPU 互联一直到交换,再到 CPU 和 GPU 之间到底是 PCRE 还是 CXL 之间的选择,也面临着认知的加速,最终大家会看到整个 AI Infra 的发展,Infra 的部署就是在英伟达的 CUDA 生态或者国内自成生态,或者是统一生态下的整个基础设施一直到超节点,72 也好英伟达的 576 也好,国内的 64 也好一个更快速 Scale up 和 Scale out 增进。
徐凌杰:DeepSeek 出来之后对国产芯片来讲是有提振作用的,需求变大了,大家觉得都有机会了,同时挑战也变得非常大,一方面大家在看线下的一体机市场,另外很多人瞄上集群化机会,有不止两三家企业在春节之后马上就定下了目标,要做 352 卡、 384 卡大集群部署,甚至千卡集群要分成两部分,一个做 R1 的部署,另一个做 V3 的部署,这些都在他们的规划中。
但事实上今天似乎都还没有官宣,看起来还需要一段时间调试,遇到的问题可能跟刚刚的描述是类似的。这一块壁垒很高,绝大部分国产 GPU 公司、AI 芯片公司大家往往是在做芯片设计,比较 侧重于计算核心的微架构方面的设计,但大集群推理涉及到网络,从数据中心层面来考虑,需要更全面的能力。
许多人觉得有些芯片厂商和英伟达很近了,但事实上无论从硬件还是软件来讲差距都还有些远,硬件上很大的差距在于绝大部分公司通过 PCIE 口在机内进行直连,而没有 NVSwitch ,然后在节点间通过网卡交互,这比未来国外的 NVL72 全面高速连接 72 卡、144 卡、576 卡会弱不少。
我觉得面临双重挑战,一是硬件能力的差距,算力存在现实的技术差距,也需要正视,如何把这块能力建立起来,机会指向的大型集群,今天我们可能还是基于现有的卡,通过网卡的 Scale out 来做一个 384 卡、 352 卡的集群搭建,未来会有更多公司把 Scale up 集群做出来,然后通过中国的集群落地能力做出比 NVL72、144、576 密度更高的集群,这是我们的潜在出路。
之前我们说单个芯片不太行就在芯片上做 Chiplet,今天是说单个封装的芯片性能没那么强的情况下,要把集群能力发挥到极致,然后解决散热、冷却、互联的问题,这是我看到的一条路。然而,之前的芯片设计可能并不适合像 DeepSeek 这样的模型发展,现在集群的发展超出预期,所以我觉得对于 AI Infra、芯片都是新的洗牌过程,要看谁能在这个浪潮中顺势而为。
王康曼:现在确实是个洗牌的过程,DeepSeek 出来之后国外跑得比英伟达还快的集群是 Cerebras 做的,现在最快的两家公司 Cerebras 和 Groq 他们底层用的都不是 GPGPU 的架构,大家感觉 DeepSeek 之后会不会有更多和 Infra 相关的芯片出现,或者说国内有没有一些类似的玩家在这一块做得特别突出的?
刘学:第一是 Cerebras 和特斯拉的 Dojo 使用的是台积电的 Infra 封装,这在台积电的工艺里是属于很先进的,包括良品率的提升和关注,第二我们是需要跟 GPU 厂商联合搭建 Scale up 的方案,我仅代表个人发表一下观点,国内原先 14 年到 18 年之间,大家做 CNN 那时候的 ASIC 或者 NPU 概念是比较流行的,现在国内一些芯片厂商除了在端侧做 ASIC 外,在云侧也更加期望贴近 GPGPU 的设计,一些端侧或者云侧厂商走向 ASIC 是一个比较好的事情。云侧的 GPGPU 是比较标准的 PTX 或者说底下的 SaaS 指令执行是比较通用的版本。
无论是 GPGPU 还是 ASIC 上,大家也看到除了 GPU 的单核、单 SM,NPU 的单核、单 cluster 外,要把 cluster 内部的计算单元进行更多的互联,我们还是要讲这个事情,无论是芯片内的一个 Chiplet 还是芯片外的 scale up。现在大家也形成了一些共识,在互联层面应该有一个 computing in network 的存在,这也成为了 AI Infra 的必备特性。
徐凌杰:DeepSeek 根据手上的硬件做了相应的模型设计,也就是说模型是有一定弹性的,假设中美没有禁运的话,他们能拿到 NVL72 这样全球最优秀的集群产品,可能设计出来的模型是不太一样的,能更好地发挥全互联的优势。在模型有大量可变化前景的情况下,硬件是要保留足够灵活性的,同时,无论 GPU 还是 DSA 大家已经很趋同了,因为目标市场是一样的,流派没有那么大的差别。
英伟达在 Blackwell、Hopper 里都加入了一些特定的指令,来加速 AI 的 workload,也就是说他们 tensore core 设计、指令集设计也好、memory loading 方式为了 AI 的特定应用,已经做了相当的优化,也有了一定的倾斜。GPU 很多东西是为了图形做专业化设计的,这一块差距没有那么大。V2 的结构到 V3 是有一定延续性的,随着模型变得越来越大, expert 变得越来越多,对于容量的要求也会变得更高。
现在像 Groq、Cerebras 因为片上存储的容量限制,都跑不起来满血版的 R1,之前我们也看到过有公司在纯片上存储的情况下能跑出非常优秀的性能,但一旦有容量的硬伤之后就跑不起来了。这就涉及到后面大的趋势的判断,就是说模型是不是还会变得那么大,能不能通过其他的 KV Cache 进一步压,或者通过多级存储的方式把存储限制去掉。
今天都是用非常贵的 HBM,而 HBM 会受到封装、颗粒、美国禁运的限制,那么在 memory 的技术上,有没有一些其他方式通过 3D 堆叠,能够利用 commodity 去做更大的基于 GDDR 6、LPDDR 的芯片,我觉得会有各种各样的方式,这也是在刚刚讲的曲线里面的不同的体验点,要解决的是并发的问题,还是解决 latency的问题,基于不同的设计来讲,会有不同的答案。从这个方向上来讲,未来一段时间里会有非常大的变化,也会出现不同的流派,我感觉会非常精彩。
王康曼:DeepSeek 给国内外的芯片厂商都带来了很多启发,说到硬件最近也有声音说到美国政府要求进一步禁运英伟达芯片,首先不知道这件事是真是假,但如果真的有进一步禁运的话,假设最基础的芯片都进不来,对我们影响大吗?
师天麾:短期内在一些供应能力上可能会受到一些影响,然后大家的成本可能会有所提升,但是我觉得这个反而会推动大家更重视国产生态或国产硬件,怎么用得更好,这可能在一定程度上是一种助推。现在大家也意识到国产显卡能把性能堆得不错,但在易用性上还有一定进步空间,这其实就是软件生态还不够完善。
所以这也是我们在做一个事情,就是端到端把整个软件栈做起来,完善软件生态之后,就像我们开源赤兔推理引擎一样,我们把技术贡献出来,最近也有很多厂商主动提出,希望双方一起合作适配我们赤兔引擎,希望能把国产显卡、国产系统以及国产模型打造成一个闭环,这也是我们的终极目标,无论英伟达禁不禁运,我们最终都是可以实现这个目标的,只是时间问题。
刘学:我觉得如果禁运的话,会让国内百花齐放,在这个过程中也给了大家一定的窗口期,有可能是一两年甚至更长时间,可以去思考 GPGPU 和 ASIC 的设计特点,乃至跟上层生态的结合,国内芯片的部署在生态上还有很大的提升空间。
徐凌杰:我想对于创业公司来讲就是要守正创新,无论禁不禁运公司都要能走下去。对于做芯片来讲,守正是国产供应链要走下去,对于我们这种目前还不做芯片的公司来讲,就是无论哪种情况下都要有备案,无论在海外发展业务还是在国内通过跟国产芯片合作也好,通过其他方式去做拓展也好,都是必须要去考虑的。禁运会带来大的格局上的变化。
中国包括前一波的芯片公司,虽然现在有一些不同的流派,但主流的几家AI 芯片公司、 GPU 公司,其实就是谁能够长得更像英伟达,谁就能融得到钱,而在美国 Cerebras、Groq 则是谁长得越不像英伟达谁就能融到钱,这是两个不一样的思考方式。
如果接下来禁运的话,从技术流派上来讲,会是一个非常大的变化,现在中国绝大部分公司都还在走大芯片 Chiplet 集成,然后走 HBM 的大封装方式,这是美国走过的路,也比较确定能往下走,甚至包括我们刚刚讲的 Scale up 路线也是有比较强的确定性的,英伟达趟过坑了,可以用比较小的成本去 copy 它的路线图往下走。
如果说完全禁运的情况下,路径模仿的可能性没有了之后,反而是会促进中国有一些其他创新的。我是比较期待的。就是说无论如何我们都要做好准备,跟着美国走 Scale up 这条路线,我们已经完全准备好了,要做更大的集群,能够跟各个厂商配合。如果走另外一条路线,我相信我们也是能够和芯片公司配合起来的,也能够有成长性、确定性。
3.构建开源生态的启示录
王康曼:我们说了这么长时间的硬件,想换一个话题问一下,我觉得 DeepSeek 让整个 AI 界、投资界觉得很震撼的一点,除了它是个非常高效的模型外,就是它的开源,你们觉得这对中国甚至全世界的 AI 生态会有什么影响呢?
刘学:对于世界的影响,我觉得杨立昆教授说了句实话,他说美国一直在禁止对国内的开源,结果中国的科学家和工程师们反而做出了更加惊艳的成绩。
对于开源我们有两点思考,一是 Deepseek 当前无论是训练还是推理,对整个计算、互联、通信的认知影响能否形成大家统一认可的一致标准,第二是从 DeepSeek 的开源上底层如果由自己在软件层设计,我们所说的软件层除了DeepSpeed、vLLM 这些训推框架,和在通信库层和底层运行时,也就是中间件层的开源,或者大家分别拿出一部分来在国内做一些更统一、可能有优化方向的社区和项目,这也会给我们带来了一些思考。
王康曼:你觉得我们在业务模式上面对开源和闭源的模式,从您个人或者初创企业的角度会不会有些区别的对待?
刘学:我们认为应该有区别对待的,这可能影响着在芯片层或者硬件层做标准或者做自己工作的结果,简单来说无论做 Scale up 的解决方案还是 GPGPU、ASIC,上层都要给用户或者工程师开放一些软件层的东西,就像英伟达的 PTX 是开源的,但是它底层的 SaaS 层是不开源的。在国内做计算、通信是不是在 PTX 这层开源,让更多的使用者或者工程师在这一层级能够有更深层次的优化,这应该是个值得思考的方向。
师天麾:DeepSeek 火了之后全世界科学家都会在他们的基础上做研究,这一方面扩大了他们的影响力,另一方面这些研究对 DeepSeek 接下来的研究也会有所帮助,所以说开源的思路就是去结交更多朋友,然后大家一起合力做更大的事情。DeepSeek 就是做更好的模型,然后以 AGI 为目标,邀请大家做更大事情。我们的赤兔推理引擎开源也是这样的,我们就是想邀请无论是模型厂商、芯片厂商,还是一些社区开发者、个人爱好者,都一起来把这个国产生态做好,助力中国 AI 产业的发展。
然后包括刚才刘老师有提到底层 PTX 这一层,国产显卡公司能不能开源,我们这块也会有一些具体的感受,因为我们跟挺多家国内芯片厂商有合作,大家确实开源程度不一样,如果对方能把某个接口开放给我们,我们对算子优化的能力就会更强。
开源建立生态然后邀请更多朋友助力,这也许会引起更多无论是模型厂商还是硬件厂商的思考,今年我们有一些私有化部署的客户,大家可能去年已经买了一些闭源模型都已经部署上去了,但今年还是要换 DeepSeek,然后他们的观点就是说开源还是更灵活一些。
王康曼:所以师老师觉得开源会是以后的一个大方向,那这个对传统厂商冲击挺大的。
师天麾:只能说会引起更多思考,但是否要开源看自己如何选择,包括 OpenAI 现在只是把价格打下来或者免费了,但他们依然选择 close 的路线,我只能说大家各有思考,选择最适合自己的路线。
徐凌杰:我觉得首先开源是一个展现团队极强的自信心的项目,但我们也知道在 GitHub 上有很多开源项目烂尾也是比较常见的,后续没有人再去运营了。DeepSeek 的开源是非常有影响力,全世界范围内甚至对股市都造成了非常大的冲击,他们一开始其实也只是开放了权重,后面把自己的一部分能力释放出来,让大家觉得他们是非常扎实的团队,对于初创公司来讲人才吸引也好,品牌建设、吸引投融资来讲这都是非常重要的事情,真开源跟假开源是不一样的。
第二对于生态建设而言,英伟达也是相对来说比较封闭的,但是它也有一定的层次是开放的,能够让全世界所有的开发者建立在他们平台上,作为工业基础去做开发,这样就形成了一个合力的正向循环。现在国内很多国产芯片公司,一方面还没形成气候,另一方面开源出来东西可能也不 solid,发出来别人也没办法用起来,还是有一段路要去走的,这对我们这样的初创公司有带来了启示,回到商业模式来讲,你靠什么赚钱,今天模型如果做闭源,那么跟 DeepSeek 比有什么优势,到底是数据上的,还是客户关系上的,而对于我们做优化来讲非常重要的是能够持续迭代的能力。
现在开源社区里有 vLLM、SGLang,英伟达也开始在推 Dynamo 框架,业界知识平权会变得非常快,很快就会没有秘密,很多东西都是会流通的,也就是说今天你认为你发现了一个非常厉害的东西,三个月之后可能没有那么厉害了。那对于初创公司而言护城河在哪,这是我一直以来的思考,再回到 MaaS 是不是好生意,我认为它是一个非常重要的能力,能够有这么一个团队持续迭代至关重要,但仅凭这点做生意可能非常容易被颠覆,投资人也不太放心,所以还是要有一个比较长久的护城河,要可落地、可复制。我觉得开源对商业模式冲击是比较大的,很多人已经被颠覆了,还有一些人在被颠覆中,如果不想被颠覆还是要找到锚点。
王康曼:杨立昆也说开源是以后的大趋势,不开源的公司在这当中要思考的东西还是比较多的,刚才徐老师也提到了 Dynamo,英伟达刚开完 GTC 大会,里面的亮点还是挺多的,其中我觉得有一点我有点小惊讶,就是关于 Silicon Photonic 这块,用 Silicon Photonic 把 NVLink 做得更完善还是挺早的,老黄说了这么一句,所以我也想听听各位老师的想法,这个事情是可以很快商业化落地的吗?还是他只在说一个故事?
徐凌杰:已经是一个马上要在今年下半年发布的产品,那肯定是真实的东西,在这个交换机里实现是过去这一两年大家都已经比较确定的路线,发展到一定程度之后一定要通过光去做,通过共封装的方式把光模块省掉,把功耗降下来,这是对的趋势。Silicon valley 在过去这五六年里,如果大家参加 Hot Chips 也能看到了很多关于共封装、CPO 的提案。
这几年的重点是说怎么能够把 CPO 和芯片相结合,也就是说现在在网络上我们已经比较确信了,已经产品化了,那在计算芯片上去做共封装什么时候能够实现,我想随着 Scale up 的要求越来越高,后面 Chiplet 加上 CPO 是比较明确方向。我也有一些老同事出来做 CPO,CPO 是中国未来的发展机会,因光不需要特别先进的制程,通过高速互联弱一点的芯片也能连起来,我非常认同这个方向。
这里面还要解决生产关系的问题,因为但凡是大型芯片都是同一家公司做不同的 Chiplet,然后不同的代际、不同的排列组合做在一起。靠其他公司的 Chiplet 去封装几乎在大型芯片里面几乎是没有的,那这个生产关系怎么解决,特别是在标准接口没有充分定义的情况下,是蛮难的。
刚刚刘老师讲的 CXL 还不是芯片级别的,是一个服务器级别的接口,CXL 在过去五六年的发展一直也有讨论,但没有大量落地,包括 UCIE 接口大家也都在讨论,大型芯片解决生产关系和生产力同样重要,这一块技术上是比较确定的,是值得芯片公司往前走一步的方向。
刘学:我先顺着讲一下生产关系的问题,这个生产关系是做 UCIE IP 的提供者、做硅光的提供者、工艺的提供者、做 Scale up 像我们互联通信协议的提供者以及 GPGPU 和 ASIC 的生产关系。
关于 CPO 这块,昨天我和国内做光通信的一家公司交流过,我们当时也规划过到后边几代做 CPO,英伟达起到了推动作用,现在大家统一认为 26 年、27 年硅光会有小批量交付,28 年到 30 年是大规模落地的时间节点。
现在做硅光工艺、设备以及解决方案的厂家都在正视起来的问题,当中也有一些需要改进的点,像硅光和芯片结合之后形成 Scale up,中间的通信协议在这一层起到了什么作用,这当中有对于角色的思考。现在 CPO 很重要,而且工艺厂家越早布局越好,尤其是大家要全面思考从做光模块转到 CPO 和之前是否有差异。
王康曼:那关于 GTC 的另外一个话题就是 Dynamo,我想问一下师老师怎么看最新发布的可以大幅提高推理效率的开源 AI 处理服务库 Dynamo?
师天麾:英伟达确实积累了很多东西,放出来挺震撼的,但是我感觉他们很多底层东西的接口还是没有给开发者,所以他们可以做更激进的优化,包括大家应该也知道一些库在大部分场景上确实很难写得比英伟达更快。但这个开放出来英伟达也能巩固软件生态的护城河,这也值得我们学习。
一是看他们技术设计上是怎样的,然后就是学习一些相关思路,看能不能用来构筑国产软件生态,我们在做的事情还是帮大家更好地用起来国产显卡。我们相信未来算力国产化肯定是大趋势,这个确定性是比较强的,所以我们会从别人的思路里学习,结合我们自己的技术和经验以及国产显卡的特色做一些自己的东西。
徐凌杰:我觉得 Dynamo 非常好,我和我的联创都在推动团队要迅速把优秀的开源项目集成到我们的产品中去,这个非常好,这也意味着英伟达不仅是个芯片公司,他们一直说自己是算法、软件公司,今天他们变成了一个基础设施公司,基础设施公司就是要提供一系列工具,让大家把基础设施用好,这块代表了英伟达非常大的野心,包括从集群层面他们会有非常大的投入,Dynamo 不是一个小的基于单个芯片的项目,而是基于集群的调优。这一块还是回到商业的本质,就是英伟达越做越多的情况下,其他跟它同类竞争的公司要怎么跟上,另外做英伟达的上下游哪些东西比较有护城河,这是很有意思的话题。
刘学:我们也会持续学习和吸收,从整个系统来讲,我们会进行拆解,然后看一下在国产芯片和整个 Scale up 互联方面的启发,实现更快速地落地,然后在商业模式方面,当前无论是硅光还是 Dynamo,英伟达都在给大家不停地讲述要系统级设计更底层的芯片和互联,这也是我们乐意看到的。
王康曼:英伟达的链确实越来越长了。圆桌快结束了,我们现在来回答一下观众提问。有观众问到如何解决中小企业在私有化部署的成本门槛的问题?看看谁想先来回答。
师天麾:我觉得小企业的低成本部署如果对数据安全的要求没有太多顾虑的话,确实可以去租机器甚至用 MaaS,如果数据安全这块要求比较多,可以先花几十万买个性能没有那么强的机器,也不是非要跑 DeepSeek 满血版,其他模型并非不能用,挺多小模型、量化、蒸馏模型也都还不错,先试一试对企业业务场景有没有帮助,有了帮助以后再花钱买更好的机器,用更好的大模型更好支撑业务,就是说前期不一定非要最好,要先判断对企业业务是否有帮助。
徐凌杰:我非常同意,首先模型一定要对客户有用,我们今天讲 AI Infra 是围绕算力来讲的,要把算力转换成生产力的话,还是有蛮多事情要做的。去年模型还没有像 DeepSeek 那么强,需要做各种各样数据方面的准备,包括像 RA、Post-training,今年 DeepSeek R1 其实大部分情况下也不能直接用到业务场景里去,要能够去做结合。
回到我们现在的商业模式来讲,一是我们会往硬件方向投入更多精力,软件要作为入口给硬件带货,因此做端到端的解决方案也非常关键。我们从去年开始投入,也产生了一部分的营收,能够跟客户把它的场景打磨出来,第一步就是保证场景可用,这块跟性能没有任何关系,是模型的效果或者基于模型做二次开发能不能给业务带来产生力,我们算法工程师,也进行了落地。
第二步是根据具体情况,基于现有的硬件做调优,达到更好的效率和性价比。第三,如果客户对标准的硬件不满意,部署量也比较大,我们能够通过差异化的软硬件相结合的产品有层次地提供。所以说是从算法效果到纯软件的调优效果,再到软硬结合三步走的策略,去给客户提供不同层级的方案,这和客户体量、业务属性都有关系。
刘学:徐老师是从算力转化至生产力,我们是反过来从生产力转化为算力,我们作为一家互联通信公司,是想为国产 GPU 或者 ASIC 提供 Scale up 的整体解决方案,包括 Switch 芯片,DeepSeek V3 对 NVLink 的Switch 做了很大篇幅的描述,我们的重点是告诉大家,如果中小企业想提高性能,我们可以提供一些可定制的超节点。因为我们在和 GPU 厂商交流时, 他们也会问 256 个节点怎么连,在互联的拓扑下怎么满足当前 DeepSeek 这种 MoE 架构的训练和推理,这个其实也是我们正在做的事情,我们专门有一个组拆解算法,拆解到具体的 GPU 和互联上,看哪个互联拓扑形成什么样的树形或者环形结构来加速训推。
王康曼:另外一个观众提问光子芯片会是未来的发展趋势吗?光在芯片的未来技术中,包括量子芯片等不同的路径中占什么地位?会是过渡技术还是长期存在呢?
刘学:除了光子计算、量子计算还有类脑计算,我本身也是从事类脑计算的,有几个说法,第一是国际上有说法称类脑计算和量子计算是后摩尔时代的两大解决方案,第二国内我们也听到一些消息说在 GPU 或者 ASIC 路线之外还会开辟出其他路线,像类脑计算、光子计算和量子计算。从这几点我们可以看到,无论是从 GPU、ASIC 还是光子计算和量子计算,当前离最终实现都有需要提升的地方,对此我想说两点,一是当前的这些光子计算、量子计算相比以前的设计是否有后发优势,二是在整体的设计过程中,一些周边域的工程和科学问题是否得到解决了,这是值得关注的。
王康曼:我也分享一下,我前几天去 GTC 约了英伟达做量子计算的专家交流,他们内部觉得这块不会很快实现商业化落地,他们也没有时间表,但这块做出来和 GPU 芯片是不违背的,可以用量子芯片去做很多模拟,然后用 GPU 做训练,这是他们现在的框架。最后快结束我想请问三位老师说一说对于 AI Infra 这个行业的愿景。
师天麾:愿景或者公司做到哪个程度从商业化角度来说,可能有点不太合适,因为整个行业变化很快,但是我们始终想做的就是做最有价值的事情,优先看有没有给中国的 AI 生态带来价值,要推进整个产业发展,这是我们愿意去做的。我们也会在开源和国产生态上持续投入,邀请更多朋友一起做更有价值、更有意义的事情,这是我们的愿景。
徐凌杰:对于做公司来讲既要仰望星空,又要脚踏实地。
仰望星空就是从数据上来看,美国 2% ~ 3% 的电力用在数据中心,五年后可能是 7% ~ 9% 的电力用在数据中心,当中很大的增量来自人工智能,这是未来非常大的机会,数据中心是承载人类智慧精华的载体。数据中心未来可能占 10%、 20% 发电量,当中每一点计算效率、软硬件、散热效率、集群化能力的提升、成本下降都蕴藏着非常大机会,也是能给人类创造价值的。
脚踏实地的话,未来三五年风高浪急的局势变化情况下,小船能够不被打翻就是一个小愿望,能够进一步扩张团队,把我们心中无论软硬件产品还是解决方案的愿景都踏踏实实做下来,也希望得到投资人的支持。我们在上海、北京、深圳、海外都有办公室,也在招人,欢迎大家联系我们交流合作。
刘学:我从历史、现在和未来做一个阐述,第一过去 12 年到 22 年是芯片设计也就是体系结构设计的黄金时间,从 22 年开始是 Transformer 以及 AI Infra 的一些提升,实际上夹杂着历史的年轮,是夹杂着整个算力、数据和基础设施体系结构的时代,这是非常好的时代,我们做互联、通信、GPU、ASIC、软件以及算法都在这个舞台上有很精彩的表现,但这是个有竞争的时代,因为在任何一个点都能看到大家在抢占赛道。这也是集成电路于国内而言比较利好、开放的时代。未来则面临着三个问题,一是算法如何引进,二是训练效率如何提升,三是规模如何扩展,这个过程中我们也看到了整个 Scale up 和 Scale out 通信集群的重要性,所以我们总结就是专注通信、聚焦集群。
嘿,伙伴们,今天我们的AI探索之旅已经圆满结束。关于“万字总结:DeepSeek如何加速AI Infra变革”的内容已经分享给大家了。感谢你们的陪伴,希望这次旅程让你对AI能够更了解、更喜欢。谨记,精准提问是解锁AI潜能的钥匙哦!如果有小伙伴想要了解学习更多的AI知识,请关注我们的官网“AI智研社”,保证让你收获满满呦!
还没有评论呢,快来抢沙发~