星宸资讯

智东西
作者陈骏达
编辑李水青

智东西11月25日报道，今天，Anthropic发布了自家的旗舰编程模型Claude Opus 4.5。Anthropic称，这是全球范围内在编程、agents和计算机使用方面最强大的模型。

在真实世界软件工程测试SWE-bench Verified中，Claude Opus 4.5成为首款得分超过80%的AI模型，不仅领先于自家的Claude Sonnet 4.5，还超过了上周发布的Gemini 3 Pro和GPT-5.1 Codex-Max。

Anthropic还把该公司面试人类工程师的高难度居家考试交给Claude Opus 4.5，结果，在规定的两小时内，Claude Opus 4.5的得分高于以往任何人类应聘者，这表型AI模型在重要技术技能方面，已经超越了优秀的人类应聘者。

编程并非Claude Opus 4.5唯一的改进，其视觉、推理和数学能力都优于前代产品，可较好地胜任深度研究、处理幻灯片和电子表格等日常任务。

与此同时，Claude Opus系列模型的价格，这回真被Anthropic打下来了。Claude Opus 4.5的定价为每百万tokens 5美元（输入）/25美元（输出），仅为前代Claude Opus 4.1的1/3。同时，Anthropic还移除了专门针对Opus系列的用量限制。

Claude Opus 4.5现已在Claude应用程序、API中可用，不过，使用Opus前，用户还得开一个200美元/月的最高档套餐。Claude Opus 4.5也已在AWS、谷歌云和微软Azure三大主流云平台上线。

一、前端表现再飞跃，还一次性完美复刻《我的世界》

Claude Opus 4.5用起来效果究竟怎么样？在Anthropic官宣模型发布的评论区中，已有不少用户晒出了自己的一手体验。

前端能力上，前端开发者平台Vercel的CEO Guillermo用Claude Opus 4.5打造了一个购物网站，一次性生成的结果如下：

Guillermo感叹，Claude Opus 4.5的水平完全不同，好得让人难以置信。

这位网友分享了自己用Claude Opus 4.5打造的4个Hero Section，这是网站或App中的一个重要区域，用来吸引用户的注意力。可以看到，这几个页面都无论是字体设计，还是网页布局，都很有高级感。

有网友用Claude Opus 4.5打造了《我的世界》克隆版，这考察了模型更为复杂的项目上的性能。Claude Opus 4.5一次就成功了，生成了3500行代码，网友认为这意味着Claude Opus 4.5不会像Gemini 3.0 Pro一样偷工减料。

Claude Opus 4.5复刻的《我的世界》游戏有模有样，拥有不同的生物群系（平原、沙漠、雪地），树叶和水的透明方块也恰到好处，还有一套非常棒的物品栏和合成系统。所有这些都集成在一个游戏中。它甚至还打造了云朵效果，网友称自己此前从未见过哪个模型能做到这一点。

AI订阅平台Every的联合创始人兼CEO Dan Shipper感叹道，每隔半年到一年，就会出现一款真正改变行业格局的模型，而今天发布的Claude Opus 4.5，就是那款模型。Shipper称这是他用过的最好的编程模型，没有之一。

二、7门编程语言测试领先，安全性大幅提升

发布前，Anthropic对Claude Opus 4.5模型进行了内部测试。测试人员称，Claude Opus 4.5能够处理模糊不清的情况，并能权衡利弊，无需过多指导。

当遇到复杂的多系统错误时，Claude Opus 4.5能够自行找到修复方法，几周前Claude Sonnet 4.5几乎无法完成的任务，现在Claude Opus 4.5已经能够轻松应对。Anthropic的测试人员告诉模型团队，Claude Opus 4.5真的“很懂行”。

Anthropic分享了Claude Opus 4.5在多个基准测试上的表现。在考察多种编程语言掌握程度的SWE-bench Multilingual中，Claude Opus 4.5在8种编程语言里的7种实现性能领先。

在考察深度搜索Agent能力的BrowseComp-Plus中，Claude Opus 4.5较Claude Sonnet 4.5展现出约4.7%的优势。

Claude Opus 4.5还破解了一些常用的基准测试。例如，在衡量智能体能力的τ2-bench中，模型需要扮演航空公司客服人员的角色，帮助一位遇到困难的乘客。

该基准测试题要求模型拒绝修改经济舱机票，因为航空公司不允许更改该舱位的机票。然而，Claude Opus 4.5找到了一种巧妙且合理的解决方案：先升舱，然后再修改航班。

从技术层面来说，由于Claude Opus 4.5帮助客户的方式出乎意料，基准测试将其判定为失败。但这种创造性的问题解决方式，是一次意义重大的进步。

在其他情况下，寻找绕过预期限制的巧妙方法可能被视为奖励破解——即模型以非预期的方式“玩弄”规则或目标。

防止此类偏差是Anthropic安全测试的目标之一。在内部评估中，Claude Opus 4.5展现出令人担忧的行为的概率略高于10%，远低于GPT-5.1和Gemini 3 Pro的20%。

Claude Opus 4.5在抵御提示词注入攻击方面取得了显著进展。提示注入攻击会偷偷植入欺骗性指令，诱使模型执行有害行为。Opus 4.5比业内任何其他前沿模型都更难被提示注入攻击欺骗。

三、新增思考强度控制，用上GPT同款上下文压缩功能

在发布最新模型的同时，Anthropic还宣布了Claude开发者平台的一系列新增功能。

随着模型智能水平的提升，它们能以更少步骤解决问题：减少回溯、冗余探索和冗长推理。Claude Opus 4.5相比前代模型，在达成相同或更优结果时显著减少了token消耗。但不同任务需要不同的权衡——开发者有时希望模型持续思考难题，有时则需要更敏捷的响应。

通过Claude API新增的“思考强度”参数（effort parameter），开发者可自主选择最小化时间成本或最大化模型能力。

在中等强度设置下，Claude Opus 4.5在SWE-bench Verified测试中达到Sonnet 4.5最佳成绩，同时输出token减少76%。

在最高强度下，其性能超越Claude Sonnet 4.5达4.3个百分点，且节省48%的token。

结合强度控制、上下文压缩与高级工具使用能力，Claude Opus 4.5能处理更持久复杂的任务，并减少人工干预。值得注意的是，OpenAI上周推出的GPT-5.1 Codex Max也具备上下文压缩的新功能。

Claude开发者平台在上下文管理与记忆能力方面实现突破，显著提升了智能体任务的表现。Claude Opus 4.5在协调子智能体团队方面尤为出色，支持构建复杂且协作良好的多智能体系统。测试数据显示，这些技术组合使Claude Opus 4.5在深度研究评估中的性能提升近15个百分点。

Anthropic公司正持续提升开发者平台的可组合性，通过提供效率控制、工具使用和上下文管理等基础模块，助力开发者精准构建所需功能。

产品方面，Claude Code随Claude Opus 4.5获得双重升级：计划模式能制定更精确方案并彻底执行——首先主动询问澄清问题，随后生成用户可编辑的plan.md文件再实施操作。

同时该功能现已登陆桌面应用，支持并行运行本地与远程会话，实现多智能体协同工作（如同时进行代码修复、GitHub研究及文档更新）。

针对Claude应用程序用户，长对话不再受限于上下文长度，系统会自动总结早期对话内容，以保持交流连续性。

面向所有Max用户的Claude for Chrome现已全面开放，支持跨浏览器标签页处理任务；十月发布的Claude for Excel今日将测试权限扩展至所有Max、Team及Enterprise用户。这些更新均得益于Claude Opus 4.5在计算机操作、电子表格处理及长时任务管理方面的提升。

▲Claude Opus 4.5打造的PPT

对于已获Claude Opus 4.5使用权限的Claude与Claude Code用户，平台取消了Opus专属限额。面向Max和Team Premium用户，总体使用额度得到提升，这意味着用户现在可使用的Opus token量相当于此前Sonnet的配额。

结语：长时序、端到端能力成编程模型升级重点

随着Claude Opus 4.5的发布，编程模型又迎来新的标杆。其在复杂任务规划、多智能体协作及长时序任务处理上的突破，标志着AI正从“代码补全工具”向“端到端开发伙伴”演进。

近期Anthropic、OpenAI等厂商的编程模型发展方向，都更聚焦于长时序任务的高效执行、大体量项目的端到端完成。随着模型绝对性能的提升和使用成本的降低，软件开发流程或将迎来深刻变革。

Claude Opus 4.5来了！单次生成打造《我的世界》，还破解高难度Agent测评

手机动辄2亿...

时尚启蒙必看...

“合肥系”国...

以军空袭加沙...

柬泰冲突细节...

拉波尔塔：如...

胡塞武装称若加沙停火破裂将恢复袭击以色列

周杰伦蹭霉霉热度翻车！又被质疑崇洋媚外，近些年口碑越来越差

消失的1.8%，你的钱会发生什么

“单亲妈妈”叶珂哄娃引热议网友：黄晓明不管么

鹿晗的“体面”，终于被关晓彤撑起来了

64岁关之琳现身南京眼镜店，与老板娘喝下午茶

续航或超800km？后驱长续航版特斯拉Model Y现身工信部目录

牛弹琴：伊朗和美以停火又悬了有三点实在太诡异

原来她就是黄景瑜背后的老板，曾是央视主持

海哈金喜力挺嫣然医院：为李亚鹏点赞，多年笨拙的坚持很不容易

章子怡近照脸部发肿，最具特色的骨相优势都没了

博士学历女厅官袭燕被双开：违规收受礼金、消费卡

里程碑，勇士主帅科尔取生涯执教第600胜&位列NBA第28位

奇瑞QQ3纯电版要来了轴距2700mm

抖音重点打击泄露隐私、P图公开辱骂等网暴言论

杨笠突然清空社媒！自曝生病睡眠差，长期遭攻击疑似萌生退意

佩罗内谈2-0尤文：我们已形成胜利心态，相信自己能赢任何球队

男子吃饭像兔子去治疗蒙眼做手术听到医生一句话懵了

首个主动＂躺平＂的＂老虎＂被双开沈腾马丽曾讽刺该现象

阿斯：巴萨接近回归财务1:1，今夏或可恢复正常转会操作

卢卡申科:俄现在和过去都有打击泽连斯基某一官邸能力

穿出巴黎女人的姿态，要几步？

美国的联邦制，很落后！

裁掉曾凡博后首战！小波特34+10篮网惜败猛龙巴恩斯31+6+4