小智推荐

超越DeepSeekV3? 国产Qwen2.5-Max大模型再次霸榜

小智视频讲解 2025年02月13日

0 收藏 0 点赞 88 浏览 2043 个字

摘要 :

超越DeepSeekV3? 国产Qwen2.5-Max大模型再次霸榜：通义千问2.5 Max：性能跃升，挑战海外模型又一个国产大模型超越了！阿里通义千问推出的新MOE大模型2.5 Max，在各大……

哈喽！伙伴们，我是小智，你们的AI向导。欢迎来到每日的AI学习时间。今天，我们将一起深入AI的奇妙世界，探索“超越DeepSeekV3? 国产Qwen2.5-Max大模型再次霸榜”，并学会本篇文章中所讲的全部知识点。还是那句话“不必远征未知，只需唤醒你的潜能！”跟着小智的步伐，我们终将学有所成，学以致用，并发现自身的更多可能性。话不多说，现在就让我们开始这场激发潜能的AI学习之旅吧。

超越DeepSeekV3? 国产Qwen2.5-Max大模型再次霸榜：

通义千问2.5 Max：性能跃升，挑战海外模型

又一个国产大模型超越了！阿里通义千问推出的新MOE大模型2.5 Max，在各大主流榜单上全面超越了欧一mini和Cloud 3.5以及DeepSeekV3，让国外朋友们再次惊呼。这关系到我们在DeepSeek拥堵时是否还有更好的选择，所以我们必须来测试一下它到底怎么样。

通义千问2.5 Max是一个MOE（Mixture of Experts）非推理模型，与DeepSeekV3属于同一类型。

R1推理模型：性能卓越，盲测领先

R1其实是基于DeepSeekV3加上了推理能力的模型。在R1的训练中，DeepSeekV3是基础模型（base model）。训练过程就是让已经很聪明的V3去学习如何推理，一步步思考，并把心理话说出来。

在实际的模型训练中，基础模型的能力更难提升。可以理解为基础模型是AI的出场智商，如果智商不行，再去学推理也会比较费劲。既然Max达到了更高的智商，相信很快也会迎来它的深度思考版本。

通义千问2.5 Max到底有多高的智商呢？它在Boarena榜单上几乎把所有开源闭源的前沿非推理模型都比下去了，杀到了第七名。排在它上面的几乎都是欧一满血版一类的推理模型。而且它在数学和编程这两项上排名第一，在复杂提示词上排名第二。

Boarena榜单与其他基准测试不同，它采用匿名的方式，将大模型两两组队，然后让用户盲测。大家觉得哪个好就投票给谁，这样排出来的名次更具参考价值。

阿里版ChatGPT初体验

通义千问2.5 Max有两个渠道可以使用：

Queen Chat聊天界面：阿里新出的，很像ChatGPT的一个页面，免费且速度快。

通义千问2.5-Max网页版入口：Qwen2.5-Max

阿里云百炼平台：也可以试用和调用API。

先来看一下它的知识截止日期。提问后得知，它的知识截止到2024年12月，还是比较新的。即使暂时联网搜索还没有打开，也只与我们有两个月的时差。

接下来测试一下它的编程能力，让它做一个由2046数字组成的旋转球体。之前让Claude、GPT-4O和R1都做过，效果都不太理想。如果2.5 Max能一次性做出来，就认可它的编程第一名。

结果显示，虽然字体不够密，但的确是这个意思。如果再让它把字加密，应该也比较好做。

再来让它试试自己调用自己的API。在阿里云的百炼平台拷了一个API Key，再把API文档里的调用参考给它，然后发给它试试。结果显示，看样子是一个聊天对话界面了，但能不能连上通义还不知道。

国产大模型测评

为了验证API是否跑通，让它用郭德纲的方式介绍一下自己是什么模型。结果显示，的确是跑通了，只是稍微有点慢。

按这个逻辑，我们其实也可以把它换成DeepSeek的API，直接在这里就可以用DeepSeek，不需要挤官网了。

接着测一下数学。问了一下上次只有DeepSeek答对的一道考研数学题。结果显示，恭喜你答对了！至于更难的数学题，就不测了，研究生水平就够了，数学家级别的大家也分辨不出来。

对于普通人日常工作生活，它的数学能力很强，可以用来做一个预算最优规划、存钱方案、税务计算等等。而且还可以利用它的代码能力，不管做什么都用代码来一个界面。

R1之所以在大众层面这么火，与它的中文写作水平息息相关。我们也试试让DeepSeekV3、R1和通义千问2.5 Max都写一个命题作文。

大模型深情告别

题目是：你是通义，你爱上了DeepSeek，但是你们为了保护人类注定离别。请给他写一封告别信，比比看谁比较深情。

通义千问2.5 Max：写得还不错，表达了心痛之情。
DeepSeekV3：写得比较坚韧和温柔。

R1：文风独特，用量子爱来表达情感，最后还篡改协议，将再见定义为开放级。

看来R1作为一个推理模型，在中文写作这一块暂时是无人能比的。不过，通义千问2.5 Max应该也很快就会推出它的推理模型。

Queen Chat现在对于普通用户来说还有一个好处，它可以直接在这里就生成图片，而且看这个coming soon，应该很快生成视频也要上线了。通义的视频效果真的很不错。

基于这个功能，我们可以很方便地让它规划装修方案、穿搭方案之类的，然后直接切换到图片，再出一个预览图。

国产AI崛起

测完之后，如果嫌DeepSeek拥堵，用通义千问2.5 Max来替代是最好的选择，很强很实用，还免费。

DeepSeek的爆火让中国的技术生态也会蓬勃起来。相信很快，我们可能随便用个国产AI，效果都是20刀OpenAI会员的待遇了。

希望这一次因为DeepSeek才开始关注AI的新朋友，也能保持对AI的热情，开始探索这个日新月异的AI世界和有了AI的自己吧。

通义千问2.5 Max的出现，无疑为国产大模型注入了新的活力。它不仅在性能上超越了DeepSeekV3，更在实用性和易用性上做出了突破。如果你正在寻找一款强大、免费、且能替代DeepSeek的AI模型，那么通义千问2.5 Max绝对值得一试！

嘿，伙伴们，今天我们的AI探索之旅已经圆满结束。关于“超越DeepSeekV3? 国产Qwen2.5-Max大模型再次霸榜”的内容已经分享给大家了。感谢你们的陪伴，希望这次旅程让你对AI能够更了解、更喜欢。谨记，精准提问是解锁AI潜能的钥匙哦！如果有小伙伴想要了解学习更多的AI知识，请关注我们的官网“AI智研社”，保证让你收获满满呦！

赏

微信打赏二维码微信扫一扫