小智头像图片
AI动态资讯 2025年03月17日
0 收藏 0 点赞 50 浏览 3976 个字
摘要 :

印度CEO用20人团队让芯片快10倍功耗砍近80%!: 在图形处理器(GPU)领域,英伟达、AMD 和英特尔占据主导地位已有一段时间了。虽然中国还有其他相关企业,但他们要打入……

哈喽!伙伴们,我是小智,你们的AI向导。欢迎来到每日的AI学习时间。今天,我们将一起深入AI的奇妙世界,探索“印度CEO用20人团队让芯片快10倍功耗砍近80%!”,并学会本篇文章中所讲的全部知识点。还是那句话“不必远征未知,只需唤醒你的潜能!”跟着小智的步伐,我们终将学有所成,学以致用,并发现自身的更多可能性。话不多说,现在就让我们开始这场激发潜能的AI学习之旅吧。

印度CEO用20人团队让芯片快10倍功耗砍近80%!

印度CEO用20人团队让芯片快10倍功耗砍近80%!:

在图形处理器(GPU)领域,英伟达、AMD 和英特尔占据主导地位已有一段时间了。虽然中国还有其他相关企业,但他们要打入美国市场一直以来都困难重重。

近日,一家美国 GPU 初创公司 Bolt Graphics 发布了专为游戏、渲染和超级计算机模拟等用例设计的 Zeus GPU 平台。据了解,Bolt Graphics 没有仅仅致力于打造低端显卡并寄希望于扩大规模,而是巧妙地解决了高端 GPU 计算方面的一个特定难题。该公司表示,其 Zeus GPU 不仅支持可升级内存与内置以太网接口等,而且在路径追踪工作负载方面的性能表现比英伟达 GeFOrce RTX 5090 快 10 倍左右。根据 Bolt Graphics 的数据,280 张 RTX 5090 GPU 的算力只需 28 张 Zeus GPU 即可实现。

印度CEO用20人团队让芯片快10倍功耗砍近80%!

据了解,Bolt Graphics 是一家成立不到 6 年的初创公司,由印度人 Darwesh Singh 在 2020 年创立,该公司在领英的主页上显示共有 20 位员工。该公司在 2021 年获得了第一轮融资,随后很快又于 2022 年获得了第二轮融资,专注于电影、模拟和游戏中的硬件加速光线追踪技术,目标是在解决模拟和 3D 图形等繁重任务的性能问题同时降低功耗。

创立 Bolt Graphics 前,Darwesh Singh 从事了十年的数据中心和云环境设计工作。多年来,他从事过从安装机架到为大型企业设计先进数据中心的各种工作。2014 年,Darwesh 凭借创新精神,在目睹了电影视觉效果的冗长渲染时间后,开发出了硬件加速光线追踪解决方案。这一突破为他于 2020 年创立的 Bolt Graphics 公司奠定了基础。

对于 Zeus GPU 现在所公布的性能情况,有网友调侃道:“这家公司将在‘3、2、1’的倒计时结束后被英伟达收购。”

速度快了,功耗更低、显存可扩展?
与当今许多处理器一样,Zeus 同样依赖于多芯片设计。据介绍,入门款 Zeus 1c26-032 配备单一处理单元以及 32 GB LPRDDR5X 内存,传输带宽为 273 GB/ 秒,可使用双 SO-DIMM(速度为 80 GB/ 秒)和最高 128 GB 的 DDR5 内存。Zeus GPU 还搭配有 I/O 芯片,该芯片包含一个 400 GbE/800 GbE 的 QSFP-DD 端口、两个使用 CXL 3.0 协议的 PCIe Gen5 x16 插槽(可实现多卡间的高效内存共享)以及一个用于 BMC 的 GbE 端口。该 GPU 芯片以 256 GB/ 秒的速率与其 I/O 芯片连接。

印度CEO用20人团队让芯片快10倍功耗砍近80%!
Zeus 单芯片架构

更高端的 Zeus 2c26-064/128 则使用双 Zeus 处理单元、一个 I/O 芯片,且支持 64 GB 或 128 GB 的 LPDDR5X 内存。最强大的旗舰版本 Zeus 4c26-256 则集成了四个处理单元、四个 I/O 芯片、256 GB LPDDR5X 以及最高 2 TB 的 DDR5 内存容量。四芯片版的 Zeus 不再以 GPU 卡的形式存在,而是直接作为服务器交付。

印度CEO用20人团队让芯片快10倍功耗砍近80%!
四芯片版 Zeus 的架构

与优先考虑带宽的高端 GPU 不同,Bolt Graphics 显然更重视内存容量的绝对数值,希望借此处理更大的渲染与模拟数据集。另值得一提的是,从该公司展示的 Zeus 性能表现表格图中可以看到,Zeus 的 DDR5 内存还带有 SO-DIMMs 后缀,这代表它是支持可插拔的。也就意味着,这块显卡是可以通过插入多条 DDR5 内存来扩展显存。

印度CEO用20人团队让芯片快10倍功耗砍近80%!

此外,内置的 400 GbE 及 800 GbE 端口可实现联网 GPU 之间的更快数据传输,这表明 Zeus 显然是以数据中心作为主要应用场景。

印度CEO用20人团队让芯片快10倍功耗砍近80%!
Zeus 高性能计算模拟用例

Zeus vs RTX 5090

据该公司介绍,高质量渲染、实时路径追踪与计算是 Zeus 关注的重点领域,因此即使是入门级 Zeus 1c26-32,也能提供比英伟达 GeForce RTX 5090 更高的 FP64 计算性能(高达 5 TFLOPS,远高于后者的 1.6 TFLOPS),路径追踪性能也高得多(77 Gigarays,远高于后者的 32 Gigarays)。

功耗
Zeus 还拥有比英伟达这款旗舰级产品更大的片上缓存(高达 128 MB,后者为 96 MB),且运行功耗更低(120W,后者高达 575W),约是 RTX 5090 的 21%,这使其在模拟、路径追踪和离线渲染等领域更高效。

此前,RTX 5090 曾因高功耗而受到争议,其相比 RTX 4090 性能提升有限,但功耗却多出 125W,对电源的要求较高。原本许多用户都希望,英伟达 RTX 50 系列能更注重效率而不是继续提高功耗,特别是考虑到 RTX 4090 相比 350W 的 RTX 3090 已经是一次大幅跃升。

价格
不过,四芯片版的 Zeus 虽然功耗低于 RTX 5090,但价格可能更贵——从数据来看,除了 FP32 和 FP16 运算之外,四芯片版的 Zeus 在所有工作负载方面都能胜过英伟达的这款旗舰级游戏显卡,这凸显出 Zeus 或并不打算以传统游戏画面渲染为主要卖点。RTX 5090 推出时就因高昂价格引发讨论,1999 美元(合人民币约 14647 元)的 GPU 定价对普通玩家来说不是一笔不小的数目。

该公司表示,四芯片版本针对电磁场建模、光子学研究和快速傅里叶变换(FFT)计算进行了优化。凭借更大的内存池加上对于外部存储的较低依赖,Zeus 有望提高大规模模拟的运行速度。当然,前提是它的这套混合内存子系统在所有工作负载上都能高效运行。

印度CEO用20人团队让芯片快10倍功耗砍近80%!
Zeus 电磁波模拟输出用例

AI 及传统渲染
RTX 5090 在 AI 工作负载中似乎仍然占据主导地位,其 FP16 算力达到 105 TFLOPS、INT8 算力达到 1637 TFLOPS,而单芯片 Zeus 的这两项指标分别只有 10 FP16 TFLOPS 与 614 INT8 TFLOPS。如果 Zeus 可以进行传统渲染,那么 1c26-32 也只拥有 10 FP32 TFLOPS 性能,似乎远无法与 RTX 5090 的 105 TFOPS 相抗衡。

但 Bolt Graphics 还推出了 Glowstick 路径追踪渲染引擎功能,这可能是种很有前途的内部实时渲染解决方案。传统的渲染工作流程往往需要较长的处理时间才能实现结果可视化,而 Zeus 则大大减少了这种延迟,因此更适用于专业的可视化应用场景。与现有解决方案相比,Bolt Graphics 声称其在单芯片版本上的性能提高了 2.5 倍,且使用多张 GPU 时性能还会更高。

传统图形处理方面,但目前还不清楚 Zeus 究竟会提供怎样的性能。与现代消费级显卡相比,Zeus 公布的矩阵吞吐量确实看似平平无奇,更不用说与数据中心级别的显卡相比了。单块功率限制为 700W 的英伟达图形处理器 Blackwell B200,可提供 60 TFLOPS 的着色器 FP32 运算能力、30 TFLOPS 的 FP64 密集矩阵运算能力和 1.8 PetaFLOS 的稀疏 TF32 运算能力。

全面投产的挑战
Zeus 的出现似乎代表着一种突破,但目前 Zeus 仍在纯模拟环境下运行,因此以上所有性能声明均未通过实际硬件验证。Bolt Graphics 方面表示,其首批开发套件将于 2025 年底上市,全面投产则要等到 2026 年底,期间软件开发者将可充分试用这款硬件。如果 Zeus 真能兑现承诺,则很有可能成为科学计算、路径追踪与离线渲染等应用场景下的重要替代方案。

需要注意的是,由于 Zeus 针对的是路径追踪渲染技术以及计算工作负载,因此它被猜测可能没有传统的固定功能 GPU 硬件,如纹理单元(TMU)及光栅操作单元(ROP)。尽管如此,每张 Zeus GPU 都配备一个 DisplayPort 2.1a 和一个 HDMi 2.1b 输出端口。但该公司则专门解释称,Zeus 配备了 TMU 和 ROP 引擎,且优化工作仍在持续进行,目前尚未披露任何规格。

在 GPU 中,ROP 负责将 3D 图形数据转换为 2D 像素表示,是图形渲染过程中的重要一步,对最终输出阶段起着关键作用。据英伟达介绍,RTX 5090 配备了 176 个 ROP 单元。但前不久被曝,有部分用户到手的 RTX 5090 存在 ROP 数量不足的缺陷。要知道,ROP 的缺失将带来许多明显的游戏体验影响,包括游戏帧率下降、延迟增加、抗锯齿性能降低等。英伟达当时对此的解释是生产问题,并表示故障卡的数量占比不到 0.5%。

此外, 软件支持无疑将成为决定 Zeus GPU 成功与否的关键因素,毕竟单凭硬件功能其并不足以与 AMD 和英伟达等老牌厂商展开竞争。 与英伟达的 CUDA 和 AMD 的 ROCm 不同,Bolt Graphics 的 Zeus 缺乏成熟且得到广泛采用的软件生态系统。

根据已发布的演示文稿,与依赖专有指令集的 AMD、英特尔和英伟达 GPU 不同,Bolt Graphics 的 Zeus 依赖于开源的 RISC-V ISA,其采用了一种开源无序通用 RVA32 标量核心,同时与 FP64 算术逻辑单元(ALU)及 RVV 1.0(RISC-V 扩展版 1.0)配合使用,能够处理 8 位、16 位、32 位乃至 64 位的数据类型,还配备了针对加速科学工作负载所设计的其他专有扩展功能。基于 RISC_V 架构,Zeus 可以使用现有的开源工具和库,但若无强大的开发者支持,其采用可能会受到限制。

然而,目前还不清楚 Zeus 是否支持行业标准框架,如 OpenCL、Vulkan 和 CUDA 转换层——这些框架对于 GPU 产品在高性能计算(HPC)工作负载领域的推广至关重要。如果 Bolt Graphics 能够提供强大的开发者工具、优秀的编译器支持以及同 Linux HPC 环境的兼容性,Zeus 确实有望成为科学计算与渲染领域的一位强大参与者。但无论如何,与英伟达成熟生态系统的“艰苦”竞争仍然不可避免。

驱动程序也将是另一大潜在影响因素——即便是像英特尔这样的科技大厂,往往也需要很长时间才能解决驱动程序带来的问题。

简而言之,关于 Zeus GPU 家族还有太多的未解之谜和需面临的挑战。Zeus 目前才刚刚完成模拟运行测试,实体硬件计划于今年晚些时候推出。它会如何处理传统渲染、路径追踪以及 AI?我们还须拭目以待。

嘿,伙伴们,今天我们的AI探索之旅已经圆满结束。关于“印度CEO用20人团队让芯片快10倍功耗砍近80%!”的内容已经分享给大家了。感谢你们的陪伴,希望这次旅程让你对AI能够更了解、更喜欢。谨记,精准提问是解锁AI潜能的钥匙哦!如果有小伙伴想要了解学习更多的AI知识,请关注我们的官网“AI智研社”,保证让你收获满满呦!

微信打赏二维码 微信扫一扫

支付宝打赏二维码 支付宝扫一扫

版权: 转载请注明出处:https://www.ai-blog.cn/8403.html

相关推荐

零一万物在国内接入DeepSeek专做企业To B: 3 月 17日,零一万物正式对外发布了万智企业大模型一站…

小智头像图片
50

多款AI搜索引用错误率高达60%,付费版本错误率更高: AI 搜索工具在美国很火,几乎四分之一的美国…

小智头像图片
157

我们如何引入DeepSeek R1来做领域特定语言训练的: 大模型时代下新语言训练的挑战 在网易 CodeWave…

小智头像图片
49

百度双模型免费上线 实测助打工人避雷: 在中国 AI 大模型热闹了一整个春节后, 百度又给出了大动…

小智头像图片
95

印度CEO用20人团队让芯片快10倍功耗砍近80%!: 在图形处理器(GPU)领域,英伟达、AMD 和英特尔占…

小智头像图片
50

王兴兴自曝做机器人从200块钱“手搓板”开始!: 近日,宇树科技创始人、首席执行官兼首席技术官王兴…

小智头像图片
181

行业落地分享:Dify在顺丰内部AI Agent落地: Dify 是一个开源的大语言模型(LLM)应用开发平台,…

小智头像图片
80

大模型的智能从哪里来?: 了解机器智能背后的本质也成为大众的好奇心所指。究其机器的本质在于:…

小智头像图片
84
发表评论
暂无评论

还没有评论呢,快来抢沙发~

助力原创内容

快速提升站内名气成为大牛

扫描二维码

手机访问本站

二维码
vip弹窗图片