小智头像图片
AI动态资讯 2025年02月26日
0 收藏 0 点赞 160 浏览 2308 个字
摘要 :

首个混合推理模型Claude 3.7发布!编程能力全面领先: Claude深夜重磅发布新模型—— Claude 3.7 Sonnet,首个混合推理模型问世,在编码和前端Web开发方面显著提升,实现……

哈喽!伙伴们,我是小智,你们的AI向导。欢迎来到每日的AI学习时间。今天,我们将一起深入AI的奇妙世界,探索“首个混合推理模型Claude 3.7发布!编程能力全面领先”,并学会本篇文章中所讲的全部知识点。还是那句话“不必远征未知,只需唤醒你的潜能!”跟着小智的步伐,我们终将学有所成,学以致用,并发现自身的更多可能性。话不多说,现在就让我们开始这场激发潜能的AI学习之旅吧。

首个混合推理模型Claude 3.7发布!编程能力全面领先

首个混合推理模型Claude 3.7发布!编程能力全面领先:

Claude深夜重磅发布新模型——

Claude 3.7 Sonnet,首个混合推理模型问世,在编码和前端Web开发方面显著提升,实现了全面领先。

首个混合推理模型Claude 3.7发布!编程能力全面领先

与o3-mini实际对比,相同的提示词下,Claude 3.7 Sonnet的表现。

o3-mini:

首个混合推理模型Claude 3.7发布!编程能力全面领先

Claude 3.7 Sonnet:

首个混合推理模型Claude 3.7发布!编程能力全面领先

(提示词:编写一个 p5.js 脚本,模拟 100 个彩球在球体内弹跳。每个球都应留下一条逐渐消失的轨迹,显示其最近的运动轨迹。容器球体应缓慢旋转。确保实现适当的碰撞检测,使球保持在球体内。)

还有用它来做视频游戏。

首个混合推理模型Claude 3.7发布!编程能力全面领先

作为混合推理模型,它有两种思考模式:

近乎实时地反应&扩展地、循序渐进(step-by-step)地思考。

扩展思维模式下,它在数学、物理、指令遵循、编码等多个任务中有额外的提升。

首个混合推理模型Claude 3.7发布!编程能力全面领先

API用户甚至还可以精准控制模型的思考时间。目前已经在全平台上线,包括亚马逊云服务Bedrock平台、谷歌云,而要想要扩展思考模式,除免费版外其他都可以用。

首个混合推理模型Claude 3.7发布!编程能力全面领先

模型升级,价格不变——

与前代产品相同,每百万输入token 3 美元,每百万输出token 15 美元(其中包括思考代币)。

除此之外,他们还发布了他们首个编码工具Claude Code:

它能够一次性完成原本需要45分钟以上手动才能完成的工作。

首个混合推理模型Claude 3.7发布!编程能力全面领先

网友们纷纷表示,已经迫不及待地想用上了。

首个混合推理模型Claude 3.7发布!编程能力全面领先

不过,为什么是3.7版本呢?

首个混合推理模型Claude 3.7发布!编程能力全面领先

Claude 3.7 Sonnet:首个混合推理模型
官方此次首先表示,他们开发Claude 3.7 Sonnet这个的理念与市场上其他推理模型不同。

类比于人类大脑有快速反应和深度思考两种一样,他们认为推理应该是前沿模型的综合能力,而不是完全独立的模型。

由此,Claude 3.7 Sonnet在多个方面都有体现这个理念。

首先,Claude 3.7 Sonnet 既是普通的 LLM 模型,又是推理模型:

您可以选择何时让模型正常回答,何时让模型在回答前思考更长时间。

在标准模式下,Claude 3.7 Sonnet 是 Claude 3.5 Sonnet 的升级版。在扩展思维模式下,它会在回答前进行自我反思,从而提高其在数学、物理、遵循指令、编码和许多其他任务上的表现。

首个混合推理模型Claude 3.7发布!编程能力全面领先

在两种模式下,对模型的提示方式类似。

这是代码生成任务下,两种思维模式回答之间的区别。

首个混合推理模型Claude 3.7发布!编程能力全面领先

其次,控制思考预算,用速度和成本来换取答案的质量。

API用户可以告诉Claude思考的数量不超过 N 个token,N 的值可以是任何值,但输出上限不能超过 128K个token。

模型能力的表现,也就取决于允许思考的token数量。例如以下在AIME 2024的成绩图。

首个混合推理模型Claude 3.7发布!编程能力全面领先

第三,优化重点转向更能反映用户需求的现实世界任务,对数学和计算机竞赛问题优化较少。

首个混合推理模型Claude 3.7发布!编程能力全面领先

△解决实际的概率问题
编码任务,网友们对它这种「vibe coding」(面对非开发人员的AI辅助编码)印象深刻。

有网友实测发现,确实能解决其他模型无法解决的问题。>你能用 p5js 编写最复杂的布料模拟吗?

结果Grok 3 和o1 pro没有可用的结果。而Claude 3.7 Sonnet的表现是:

首个混合推理模型Claude 3.7发布!编程能力全面领先

在代理工具使用上面,实现了SOTA。

首个混合推理模型Claude 3.7发布!编程能力全面领先

Claude 3.7 Sonnet 在指令遵循、一般推理、多模态能力和代理编码方面表现出色,扩展思维在数学和科学方面提供了显著的提升。

首个混合推理模型Claude 3.7发布!编程能力全面领先

除了传统的基准测试之外,它甚至在宝可梦游戏测试中超越了所有以前的模型——

团队为Claude配备了基本内存、屏幕像素输入以及按键和屏幕导航的功能调用,使其能够超越通常的上下文限制,持续玩游戏,并通过数以万计的交互进行游戏。

最终实验表明,它是迄今所有Sonnet模型中表现最好的,它成功与三个宝可梦道馆馆主(游戏的 Boss)战斗并赢得他们的徽章。相比之下,Claude 3.0 Sonnet 甚至无法离开故事开始的地方Pallet Town 的房子。

x 轴表示 Claude 在玩游戏时完成的互动次数;y 轴表示游戏中的重要里程碑,包括收集某些物品、导航到某些区域以及击败某些Boss。

首个混合推理模型Claude 3.7发布!编程能力全面领先

此次,研究人员使用了并行测试时间计算来提高模型的性能。

他们的方法是对多个独立思考过程进行采样,并在事先不知道真实答案的情况下选出最佳答案。其中一种方法是使用多数投票;选择最常见的答案作为 “最佳 ”答案。另一种方法是使用另一个语言模型(比如Claude的第二个副本),要求它检查自己的工作或学习的评分函数,然后选出它认为最好的答案。

结果在GPQA评估中,这一方法让模型取得了惊人的改进。

GPQA是一组常用的具有挑战性的生物、化学和物理问题。 Claude 3.7 Sonnet 使用 256 个独立样本的等效计算、学习的评分模型和最大64 token的思维成本之下,取得了 84.8% 的 GPQA 分数(包括 96.5% 的物理子分数)。

首个混合推理模型Claude 3.7发布!编程能力全面领先

此外,Claude 3.7 Sonnet 还对有害请求和良性请求进行了更细致的区分,与前代版本相比,不必要的拒绝次数减少了 45% 。

首个混合推理模型Claude 3.7发布!编程能力全面领先

Claude首个编码工具面世
Claude Code,从官方透露的功能看,它可以搜索和读取代码、编辑文件、编写和运行测试、提交和推送代码到 GitHub以及使用命令行工具。

首个混合推理模型Claude 3.7发布!编程能力全面领先

目前还只是早期的预览版,可直接在终端运行。

首个混合推理模型Claude 3.7发布!编程能力全面领先

早期测试中,Claude Code可以一次性完成了通常需要 45 分钟以上手动操作才能完成的任务,从而减少了开发时间和开销。

在接下来的几周内,他们计划结合他们使用情况不断改进它——

比如增强工具调用的可靠性,增加对长时间运行的命令的支持,改进应用内渲染,并扩展 Claude 对其功能的理解。

除此之外,他们还改进了 Claude.ai 上的编码体验。GitHub 集成现已在所有Claude使用平台中提供,开发人员可以将其代码存储库直接连接到 Claude。

嘿,伙伴们,今天我们的AI探索之旅已经圆满结束。关于“首个混合推理模型Claude 3.7发布!编程能力全面领先”的内容已经分享给大家了。感谢你们的陪伴,希望这次旅程让你对AI能够更了解、更喜欢。谨记,精准提问是解锁AI潜能的钥匙哦!如果有小伙伴想要了解学习更多的AI知识,请关注我们的官网“AI智研社”,保证让你收获满满呦!

微信打赏二维码 微信扫一扫

支付宝打赏二维码 支付宝扫一扫

版权: 转载请注明出处:https://www.ai-blog.cn/5306.html

相关推荐

Claude Code 工具现严重漏洞:或致系统“变砖”: 3 月 7 日消息,Anthropic 近期发布的编码工具 Cla…

小智头像图片
77

最新全球AI应用排行:DeepSeek 名列第二: 3 月 7 日,全球著名投资基金、咨询公司 Andreessen Hor…

小智头像图片
105

火山引擎部分模型降价50%,百度上调DeepSeek价格: 3 月 6 日,据网友反馈,火山引擎向用户发送通…

小智头像图片
148

Manus 紧急扩容服务器,口碑两极分化: 3 月 6 日,一款 AI 产品突然火爆社交圈,诸多文案以“比肩 …

小智头像图片
99

欧洲「DeepSeek」发布了全世界最好的 OCR: 就在刚刚,那个曾经开源了首个 MoE 模型的欧洲初创公司…

小智头像图片
47

被骂惨的“现象级”Manus,今天我们来扒一扒它的水平!: 昨天,一款由中国团队发布的 Agent 产品 Man…

小智头像图片
152

代码界的“瘟疫”?卡帕西“氛围编码”兴起: “有一种全新的编码方式,我称之为“vibe coding”(氛围编…

小智头像图片
69

Arm发布全新Armv9边缘AI计算平台: 近日,Arm 正式发布了其全球首款 Armv9 边缘 AI 计算平台。据介…

小智头像图片
162
发表评论
暂无评论

还没有评论呢,快来抢沙发~

助力原创内容

快速提升站内名气成为大牛

扫描二维码

手机访问本站

二维码
vip弹窗图片