小智头像图片
视频讲解 2025年02月13日
0 收藏 0 点赞 35 浏览 2043 个字
摘要 :

超越DeepSeekV3? 国产Qwen2.5-Max大模型再次霸榜: 通义千问2.5 Max:性能跃升,挑战海外模型 又一个国产大模型超越了!阿里通义千问推出的新MOE大模型2.5 Max,在各大……

哈喽!伙伴们,我是小智,你们的AI向导。欢迎来到每日的AI学习时间。今天,我们将一起深入AI的奇妙世界,探索“超越DeepSeekV3? 国产Qwen2.5-Max大模型再次霸榜”,并学会本篇文章中所讲的全部知识点。还是那句话“不必远征未知,只需唤醒你的潜能!”跟着小智的步伐,我们终将学有所成,学以致用,并发现自身的更多可能性。话不多说,现在就让我们开始这场激发潜能的AI学习之旅吧。

超越DeepSeekV3? 国产Qwen2.5-Max大模型再次霸榜

超越DeepSeekV3? 国产Qwen2.5-Max大模型再次霸榜:

通义千问2.5 Max:性能跃升,挑战海外模型

又一个国产大模型超越了!阿里通义千问推出的新MOE大模型2.5 Max,在各大主流榜单上全面超越了欧一mini和Cloud 3.5以及DeepSeekV3,让国外朋友们再次惊呼。这关系到我们在DeepSeek拥堵时是否还有更好的选择,所以我们必须来测试一下它到底怎么样。

通义千问2.5 Max是一个MOE(Mixture of Experts)非推理模型,与DeepSeekV3属于同一类型。

超越DeepSeekV3? 国产Qwen2.5-Max大模型再次霸榜

R1推理模型:性能卓越,盲测领先

R1其实是基于DeepSeekV3加上了推理能力的模型。在R1的训练中,DeepSeekV3是基础模型(base model)。训练过程就是让已经很聪明的V3去学习如何推理,一步步思考,并把心理话说出来。

在实际的模型训练中,基础模型的能力更难提升。可以理解为基础模型是AI的出场智商,如果智商不行,再去学推理也会比较费劲。既然Max达到了更高的智商,相信很快也会迎来它的深度思考版本。

通义千问2.5 Max到底有多高的智商呢?它在Boarena榜单上几乎把所有开源闭源的前沿非推理模型都比下去了,杀到了第七名。排在它上面的几乎都是欧一满血版一类的推理模型。而且它在数学和编程这两项上排名第一,在复杂提示词上排名第二。

Boarena榜单与其他基准测试不同,它采用匿名的方式,将大模型两两组队,然后让用户盲测。大家觉得哪个好就投票给谁,这样排出来的名次更具参考价值。

阿里版ChatGPT初体验

通义千问2.5 Max有两个渠道可以使用:

Queen Chat聊天界面:阿里新出的,很像ChatGPT的一个页面,免费且速度快。

通义千问2.5-Max网页版入口:Qwen2.5-Max

阿里云百炼平台:也可以试用和调用API。

先来看一下它的知识截止日期。提问后得知,它的知识截止到2024年12月,还是比较新的。即使暂时联网搜索还没有打开,也只与我们有两个月的时差。

接下来测试一下它的编程能力,让它做一个由2046数字组成的旋转球体。之前让Claude、GPT-4O和R1都做过,效果都不太理想。如果2.5 Max能一次性做出来,就认可它的编程第一名。

结果显示,虽然字体不够密,但的确是这个意思。如果再让它把字加密,应该也比较好做。

再来让它试试自己调用自己的API。在阿里云的百炼平台拷了一个API Key,再把API文档里的调用参考给它,然后发给它试试。结果显示,看样子是一个聊天对话界面了,但能不能连上通义还不知道。

国产大模型测评

为了验证API是否跑通,让它用郭德纲的方式介绍一下自己是什么模型。结果显示,的确是跑通了,只是稍微有点慢。

按这个逻辑,我们其实也可以把它换成DeepSeek的API,直接在这里就可以用DeepSeek,不需要挤官网了。

接着测一下数学。问了一下上次只有DeepSeek答对的一道考研数学题。结果显示,恭喜你答对了!至于更难的数学题,就不测了,研究生水平就够了,数学家级别的大家也分辨不出来。

对于普通人日常工作生活,它的数学能力很强,可以用来做一个预算最优规划、存钱方案、税务计算等等。而且还可以利用它的代码能力,不管做什么都用代码来一个界面。

R1之所以在大众层面这么火,与它的中文写作水平息息相关。我们也试试让DeepSeekV3、R1和通义千问2.5 Max都写一个命题作文。

大模型深情告别

题目是:你是通义,你爱上了DeepSeek,但是你们为了保护人类注定离别。请给他写一封告别信,比比看谁比较深情。

通义千问2.5 Max:写得还不错,表达了心痛之情。
DeepSeekV3:写得比较坚韧和温柔。

R1:文风独特,用量子爱来表达情感,最后还篡改协议,将再见定义为开放级。

看来R1作为一个推理模型,在中文写作这一块暂时是无人能比的。不过,通义千问2.5 Max应该也很快就会推出它的推理模型。

Queen Chat现在对于普通用户来说还有一个好处,它可以直接在这里就生成图片,而且看这个coming soon,应该很快生成视频也要上线了。通义的视频效果真的很不错。

基于这个功能,我们可以很方便地让它规划装修方案、穿搭方案之类的,然后直接切换到图片,再出一个预览图。

国产AI崛起

测完之后,如果嫌DeepSeek拥堵,用通义千问2.5 Max来替代是最好的选择,很强很实用,还免费。

DeepSeek的爆火让中国的技术生态也会蓬勃起来。相信很快,我们可能随便用个国产AI,效果都是20刀OpenAI会员的待遇了。

希望这一次因为DeepSeek才开始关注AI的新朋友,也能保持对AI的热情,开始探索这个日新月异的AI世界和有了AI的自己吧。

通义千问2.5 Max的出现,无疑为国产大模型注入了新的活力。它不仅在性能上超越了DeepSeekV3,更在实用性和易用性上做出了突破。如果你正在寻找一款强大、免费、且能替代DeepSeek的AI模型,那么通义千问2.5 Max绝对值得一试!

嘿,伙伴们,今天我们的AI探索之旅已经圆满结束。关于“超越DeepSeekV3? 国产Qwen2.5-Max大模型再次霸榜”的内容已经分享给大家了。感谢你们的陪伴,希望这次旅程让你对AI能够更了解、更喜欢。谨记,精准提问是解锁AI潜能的钥匙哦!如果有小伙伴想要了解学习更多的AI知识,请关注我们的官网“AI智研社”,保证让你收获满满呦!

微信打赏二维码 微信扫一扫

支付宝打赏二维码 支付宝扫一扫

来源:https://www.bilibili.com/video/BV1SoNUeoEsU/?spm_id_from=333.1007.tianma.2-3-6.click&vd_source=1e9b92d776cbaa26fa9d7ec8fc93542d

版权: 转载请注明出处:https://www.ai-blog.cn/3856.html

相关推荐

AI视频免费中文生成神器,解锁你的各种创意: 还在为AI视频不会写中文而烦恼吗?别担心!通义万相…

小智头像图片
245
02-13

超越DeepSeekV3? 国产Qwen2.5-Max大模型再次霸榜: 通义千问2.5 Max:性能跃升,挑战海外模型 又一…

小智头像图片
35
02-06

DeepSeek全网最全实战技巧!摆脱卡顿无响应: 还在为 DeepSeek 卡顿烦恼?想本地部署又觉得太复杂…

小智头像图片
237

Deeplx-whisper-turbo字幕配音:低成本视频出海终极指南: 想让你的视频在全球范围内爆红吗?还在…

小智头像图片
269

Deeplx-whisper-turbo轻松实现视频双语字幕和AI配音: 想让你的视频轻松出海,进军日语教程蓝海市…

小智头像图片
519

新版Open Webui一键包:本地构建AI女友,畅聊NSFW小说: 想拥有一个懂你的 AI 女友,还能一起畅聊…

小智头像图片
140

Deep-Seek-R1酒馆AI一键包:打造声若幽兰的AI女友: 本教程将带你轻松接入声音模型,让你的 AI 女…

小智头像图片
479

Deep-Seek-R1模型与酒馆AI整合包本地部署指南: 想在本地拥有一个更智能、更懂你的 AI 女友吗?还…

小智头像图片
498
发表评论
暂无评论

还没有评论呢,快来抢沙发~

助力原创内容

快速提升站内名气成为大牛

扫描二维码

手机访问本站

二维码
vip弹窗图片