Anthropic 公司的新型 AI 模型 Claude Opus 4.6 有哪些特别之处？

Xpert 预发布版

在线联系方式（Konrad Wolfenstein）

Available in 27 languages 📢

在 Google 上更倾向于选择 Xpert.Digital。ⓘ

发布日期：2026年2月8日 / 更新日期：2026年2月8日 – 作者：Konrad Wolfenstein

Anthropic 公司的新型 AI 模型 Claude Opus 4.6 有哪些特别之处？

Anthropic公司推出的全新AI模型Claude Opus 4.6有哪些特别之处？ – 图片来源：Xpert.Digital

适应性思维解释：这就是克劳德·奥普斯 4.6 决定何时“思考”的方式。

不再丢失上下文：这就是 Opus 4.6 中新增的“上下文压缩”功能所带来的好处。

随着 Claude Opus 4.6 的发布，Anthropic 在快速发展的 AI 领域发出了强有力的宣言，重新定义了我们对语言模型的期待。此次更新远不止是对其前代产品 Opus 4.5 的性能提升；它标志着向真正基于代理的工作流程和更深层次的自主问题解决能力的根本性转变。以往的模型主要作为线性对话中的被动助手，而 Opus 4.6 则将自身定位为复杂项目中的积极合作伙伴。.

此次调整的核心在于令人瞩目的技术扩展：高达 100 万个标记（测试版）的超大上下文窗口以及翻倍至 12.8 万个标记的输出容量，使得该模型能够一次性分析整个代码库或数百页文档，并生成全面的解决方案，而无需人为限制。但规模并非一切——借助自适应思维等功能，人工智能现在可以自主决定完成任务所需的“思考量”（工作量级别），从而在成本、速度和分析深度之间取得平衡。.

对于开发者和高级用户而言，最具革命性的是引入了智能体团队和上下文压缩功能。用户不再需要按顺序处理孤立的任务，而是可以创建协同工作的 AI 团队，并行处理项目的不同方面，而后台的智能摘要功能则可以防止重要信息在长时间会话中丢失（上下文腐烂）。因此，Opus 4.6 将用户的角色从微观管理者转变为战略领导者，能够高效地管理 AI 资源——无论是在软件开发、复杂数据分析，甚至是办公应用中。.

与此相关：

SaaS股票市场崩盘：人工智能改变了游戏规则——SaaS提供商股票市场崩盘的背后是什么？

概述：Opus 4.6 在人工智能领域中的意义

Claude Opus 4.6 是 Anthropic 旗舰型号的最新版本，被认为是 Opus 系列迄今为止最智能的扩展。与 Opus 4.5 相比，Anthropic 正从“简单”的后续产品迈向更高层次：它不仅仅拥有更强大的计算能力，更在规划、上下文管理和基于代理的工作方式方面进行了深刻的重新调整。主要区别包括：大幅扩展的上下文窗口，最多可容纳 100 万个标记；一种全新的“反思性”行为（自适应思维）；以及引入用于并行工作的代理团队。因此，对于开发人员、数据分析师以及任何处理大型代码库、文档集合或冗长对话历史记录的人来说，Opus 4.6 不仅仅是一次细微的优化，更是与 AI 助手协作方式的一次范式转变。.

上下文窗口：100万代币及其为何能改变游戏规则

Opus 4.6 最引人注目的特性之一是其在测试阶段支持高达 100 万个标记的上下文窗口。Opus 默认仍使用 20 万个标记的上下文，但将其扩展到 100 万个标记的选项对于大型项目至关重要。理论上，这相当于数百页代码或多个中等规模的代码库可以同时处于模型的上下文中。这使得我们可以在一次分析中完成整个代码库、冗长的文档或大量的研究资料，而不会在分析之初丢失任何重要信息。.

对于实际用户而言，这意味着两点主要改进：首先，Claude Opus 4.6 能够处理更复杂、更长期的任务，而无需因为上下文范围过窄而频繁“回溯”。其次，“上下文腐烂”（即查询接近上下文边界时信息质量下降）的风险降低。在诸如包含 100 万个上下文的“大海捞针”测试等基准测试中，Opus 4.6 的表现显著优于之前的 Opus 模型，表明其在超长上下文中嵌入和检索信息的能力显著增强。.

128,000 个令牌输出：更长的答案和更复杂的思考过程的空间。

与更广泛的输入上下文同步，Opus 4.6 将每个响应的最大输出词元数增加到 128,000 个。这比之前的 64,000 个词元限制翻了一番，为生成更详细的响应开辟了全新的可能性。实际上，这意味着在生成完整文档、完整代码文件或冗长的结构化分析时，Claude 不再需要人为地将其拆分成多个小部分。对于开发者而言，这意味着 Claude Opus 4.6 可以一步处理整个功能或多个文件，而不会“截断”响应。.

这项增强对基于代理的工作流程有着尤为积极的影响。在这样的场景中，模型不仅需要能够生成详尽的答案，还需要足够的空间来插入复杂的“思考步骤”，然后再得出最终解决方案。这一点至关重要，因为 Opus 4.6 中的许多优化正是针对这一领域：更多的规划步骤、对错误的更多反思以及更细致的推理。通过显著提升输出能力，扩展思考和深度分析的结合变得切实可行——用户无需不断尝试使用更短、更精简的答案。.

适应性思维：Opus 4.6 如何自行决定何时进行“深度思考”

Opus 4.6 的一个关键范式转变是引入了“自适应思维”。之前的 Claude 版本基本上只提供了一个二元选择：要么启用扩展思维（使用固定的思维代币预算），要么保持禁用状态。在 Opus 4.6 中，Anthropic 用一个自适应系统取代了这种固定选项，该系统由模型自身决定任务所需的“思维努力”程度。这基于用户设定的“努力”级别，用户可以从中选择。.

共有四个工作量级别：低、中、高（默认）和最高。实际上，这意味着对于重命名文件或格式化文本等简单任务，您可以使用低或中级别来降低延迟和成本。一旦遇到更复杂的任务，例如多部分重构、架构变更或大规模代码审查，就应该切换到高或最高级别。在这些级别下，模型几乎总是会进行“更深层次”的思考，这意味着它会在给出答案之前执行更多步骤。所谓的“最高”级别是 Opus 4.6 独有的，它允许 Claude 在不受固定约束的情况下进行思考——这尤其适用于要求极高的分析性任务。.

语境压缩：Opus 4.6 如何永久“理解”长篇对话

Opus 4.6 的另一项关键特性是在测试阶段引入了“上下文压缩”功能。长时间的对话或代理工作流程往往会占用大量上下文空间，直至达到上限。在之前的版本中，这意味着对话质量下降或因空间不足而导致会话终止。Opus 4.6 主动解决了这个问题：当对话接近可配置的阈值时，模型会自动总结较早的内容，并将其替换为精简的摘要。.

这些摘要保留了相关内容，包括重要决策、代码变更和之前的讨论。压缩过程在后台透明运行——用户通常会收到一条简短的通知，提示对话正在“压缩”，但讨论的连续性得以保持。对于需要运行数小时代理的开发者来说，这是一个至关重要的优势：他们无需频繁重启或手动调整即可完成复杂的项目。压缩不仅可以防止代理立即终止，还能确保模型在长时间内保持稳定，避免出现其他模型常见的“崩溃”问题。.

智能体团队：从单个智能体到人工智能开发团队

Opus 4.6 中最具雄心的功能之一是引入了“代理团队”。此前，单个 Claude Code 窗口可以充当代理，处理任务并将结果返回给用户。在 Opus 4.6 中，Anthropic 更进一步：现在可以启动多个独立的 Claude Code 代理，这些代理可以相互协调并并行工作。这些代理团队在许多集成平台中以“研究预览”的形式推出，这意味着它们尚未在所有接口中完全可用，但其功能已经非常成熟。.

概念：一个代理扮演“团队领导”的角色，划分主要任务并为团队成员分配职责。每个团队成员/代理都有自己的上下文窗口，可以独立工作，例如，一个代理负责后端逻辑，另一个代理负责前端组件或测试。代理之间可以直接发送消息、协调进度，甚至可以就不同的解决方案提出异议。实践证明，这可以显著加快项目进度，因为多个部分可以并行开发，用户无需频繁切换窗口。.

代理团队实践：开发人员正在经历哪些变化

实际上，Agent-Teams 从根本上改变了开发人员的工作模式。以往需要使用单个窗口按顺序处理多个子任务，而现在则可以启动完整的“团队工作流”。用户描述总体任务——例如，“创建一个包含后端、前端和测试的 Web 应用程序”——然后团队负责人将工作分配给团队成员。每个成员都可以在自己的环境中工作，编辑文件、编写代码和运行测试，而负责人则监控进度并汇总结果。.

对用户而言，这意味着迭代时间显著缩短。人工智能团队无需反复将任务分解成小部分并每次都发出新的指令，而是可以接收更大的任务，并自主完成中间的小步骤。实际测试表明，智能体团队能够显著减少复杂项目中所需的交互次数。此外，由于人工智能团队几乎可以自主地组织这些任务，因此启动重大重新设计或完全重构的门槛也降低了。.

提高了编码技能和独立处理大型代码库的能力

Opus 4.6 显著提升了 Claude 的编码能力。在 SWE-Bench 等基准测试中，该模型得分约为 72.5%，相比之前的版本有了大幅提升。该类别专注于解决基于 GitHub 实际问题的真实软件工程难题。72.5% 的得分意味着 Claude Opus 4.6 在大约四分之三的情况下都能提供可接受的解决方案，而无需用户重写整个解决方案。.

这项改进体现在多个方面。首先，规划能力显著提升：Claude 现在可以分析更大的代码库，更深入地理解其结构，并在编写任何代码之前规划好步骤。其次，自主性增强：Opus 4.6 能够在大型代码库中执行长时间运行的任务，而不会丢失上下文或结构。这不仅包括编写代码，还包括跨多个文件的测试、调试和重构。.

另一个关键方面是识别和纠正自身错误的能力。在之前的版本中，用户通常需要先查找错误，然后请求 AI 修复代码。而在 Opus 4.6 中，AI 越来越能够独立检查代码一致性、确保测试通过并维护良好的架构。这种改进的规划、更广泛的上下文感知以及自主纠错功能的结合，使得 Opus 4.6 成为开发人员在中大型项目中的强大助手。.

借助“托管人工智能”（人工智能）实现数字化转型的新维度——平台及B2B解决方案 | Xpert咨询

“托管式人工智能”开启数字化转型新篇章——平台及B2B解决方案 | Xpert Consulting - 图片来源：Xpert.Digital

在这里，您将了解到您的公司如何快速、安全地实施定制化的人工智能解决方案，且无需承担过高的准入门槛。.

托管式人工智能平台是您实现人工智能的全方位、无忧解决方案。您无需处理复杂的技术、昂贵的基础设施和漫长的开发流程，即可从专业合作伙伴处获得根据您的需求量身定制的现成解决方案——通常只需几天时间。.

主要优势一览：

⚡ 快速实施：从构思到可立即使用的应用，只需几天而非几个月。我们提供切实可行的解决方案，创造即时附加值。.

🔒 最高数据安全保障：您的敏感数据始终由您掌控。我们保证安全合规地处理您的数据，绝不与任何第三方共享。.

💸 无财务风险：您只需为结果付费。完全无需前期投入大量资金用于硬件、软件或人员。.

🎯 专注于您的核心业务：集中精力做好您最擅长的事情。我们将负责您人工智能解决方案的全部技术实施、运营和维护。.

📈面向未来且可扩展：您的AI将与您一同成长。我们确保持续优化和可扩展性，并灵活调整模型以适应新的需求。.

更多信息请点击这里：

托管式人工智能解决方案——工业人工智能服务：服务业、工业和机械工程领域保持竞争力的关键

这款人工智能现在已经能够独立思考：为什么复杂的任务很快将不再是问题。

办公工具和生产力应用程序使用方面的新可能性

Anthropic 还针对传统办公软件优化了 Opus 4.6。目前已推出实验性集成功能，Claude 可以直接在 Excel 或 PowerPoint 文档中工作。例如，在 PowerPoint 中，Claude 不仅可以提供内容建议，还可以主动参与设计系统，调整布局并组织幻灯片。在 Excel 中，这款人工智能软件可以分析复杂的计算，提供公式建议，并优化电子表格结构。.

对于经常处理 Office 文件的用户来说，Opus 4.6 不仅能生成文本，还能理解数字和结构，堪称一位得力助手。结合其宽大的上下文窗口，Opus 4.6 可以分析整个演示文稿或复杂的计算模型，识别其中的关系，并提供针对性的建议，而无需用户逐一解释。这些集成功能目前仍处于研究和预览阶段，但它们展现了未来的发展方向：从孤立的助手转向融入整个工作流程的 AI 系统。.

与此相关：

Anthropic 隆重推出 Claude Opus 4.5：比 Google 更胜一筹？Excel、代码和代理——包含 PC 控制功能

工作量管理：如何平衡人工智能的智能、成本和速度

引入四个工作量级别对许多公司来说至关重要，因为它使它们能够以更有针对性和规模化的方式使用人工智能。在实践中，这意味着对于简单、重复性的任务，可以将工作量设置为低，从而确保快速且经济高效的响应。一旦任务变得更加复杂——例如，涉及架构决策、大量代码审查或复杂分析——则将工作量切换到高或最高。.

这种机制尤为重要，因为深入思考和耗时耗力都与成本直接相关。思考越多，消耗的代币越多，请求的成本就越高。精细化控制允许公司使用标准流程处理简单任务（设置较低或中等），并使用单独的高质量流程处理关键的 AI 决策（设置最高）。这确保了 AI 的高效利用，兼顾经济性和内容质量。.

代理团队、上下文压缩和工作量：这些功能如何协同工作

Opus 4.6 的新功能并非孤立设计，而是相互关联、环环相扣。在实践中，智能体团队、上下文压缩和自适应思维协同工作，实现了长期、复杂的智能体工作流程。各个智能体并行工作，而上下文压缩则确保每个团队成员即使在长时间运行后也能保持“上下文关联”。同时，该模型会根据所选的努力程度，确定每个请求所需的认知资源量。.

这种协同作用意味着用户终于可以启动复杂的项目，而无需时刻担心技术限制。他们不必再反复指示人工智能需要重新审核哪些文件，也不必因为上下文过于复杂而拆分会话，工作流程可以无缝运行。代理团队可以相互协作，自动总结较旧、相关性较低的内容，同时更深入地思考下一步的合理步骤。.

基准测试与对比：Opus 4.6 与其他型号相比处于什么位置

Opus 4.6 在众多基准测试中始终名列前茅，尤其是在需要长期推理、更广泛的上下文以及复杂智能体行为的领域。例如，在针对复杂多阶段问题的跨学科基准测试“人类最后的考试”（Humanity's Last Exam）中，Opus 4.6 取得了所有已知模型中的最高分。在专注于 shell 中基于智能体的编码的 Terminal-Bench 2.0 测试中，该模型也取得了优异的成绩，凸显了 Opus 4.6 在自主终端工作流程方面的强大实力。.

Opus 4.6 的性能在长上下文以及代理和上下文压缩功能方面表现尤为突出，基准测试结果充分证明了这一点。Opus 4.6 在多项代理编码基准测试中均取得了优异成绩：在用于代理编码的 Terminal-Bench 2.0 测试中，该模型得分约为 65.4%；在用于代理计算机使用的 OSWorld 测试中，得分为 72.7%；在用于代理搜索的 BrowseComp 测试中，得分约为 84%。这意味着 Opus 4.6 不仅显著优于 Opus 4.5，而且优于目前大多数同类模型——尤其是在涉及多阶段、基于工具的工作流程的场景中。.

在诸如“人类最后的工具考试”（Humanity's Last Exam with Tools）等多学科基准测试中，Opus 4.6 的得分约为 53.1%；在“财务代理”（Finance Agent）任务中约为 60.7%；在诸如 GDPVal-AA 等办公任务基准测试中，其 Elo 得分约为 1606。这些结果表明，该模型不仅针对纯编程任务进行了优化，而且在复杂的组合工作流程（例如研究、分析、文本创作和演示设计）中也表现出色。.

Agentic 功能：为什么 Opus 4.6 Agentic 更具“思考性”。

Anthropic明确将Opus 4.6定位为智能体优化模型。这意味着该模型不仅是一个优秀的文本生成器，更是一个能够将复杂任务分解为多个步骤、控制工具并进行自我评估的系统。在诸如τ2-Bench之类的基准测试中（该测试旨在评估零售和电信场景下基于工具的规划能力），Opus 4.6在零售部分取得了约91.9%的成绩，在电信部分取得了约99.3%的成绩。与Opus 4.5相比，这是一个显著的飞跃，表明其在正确调用函数、同时规划多个步骤以及检测错误方面的能力得到了显著提升。.

与此同时，某些领域的性能略有下降——例如，在 MCP Atlas 中，Opus 4.6 的性能略逊于 Opus 4.5 和 GPT-5.2。这表明存在一种权衡：针对持续、长期代理类型工作负载的优化以及更分散的代理协调，显然意味着某些非常特殊的、高扩展性的工具编排场景的性能不如以前。然而，对于大多数用户而言，这并非实际问题，因为在编码、操作系统交互、搜索和办公任务之间取得的整体平衡显然更有利于 Opus 4.6。.

多文档和多编码功能：1M 上下文如何在日常生活中发挥作用

100 万个标记的上下文在以下三种场景中尤为显著：大型代码库、冗长的文档以及包含大量工件相关文件的复杂项目。实际上，Opus 4.6 现在可以同时跟踪包含数百个文件的整个 Python 或 JavaScript 代码库，而这在以前只能通过人工分区和手动重新加载来实现。在 SWE-bench 测试中，该模型在 SWE-bench Verified 测试中达到了约 80.8% 的准确率，几乎与 Opus 4.5 持平——尽管其上下文规模更大，集成的工作流程也更加复杂。.

在诸如法律文本分析（HS-BigLaw Bench）或科学研究（GPQA）等文档分析场景中，Opus 4.6 显著提升了在长篇结构化文本中保持一致性的能力。通过结合更广泛的上下文信息、上下文压缩和自适应思维，该软件能够从多个章节中提取建议、识别关联并找出矛盾之处，而无需用户反复提供额外的上下文片段。.

安全性、可靠性和拒收率：Opus 4.6 如何处理不确定性

Anthropic 强调，Opus 4.6 不仅功能更强大，而且比其前代产品更安全可靠。在实践中，这体现在诸多方面，例如更低的过度拒绝率——即模型拒绝合理但可能涉及敏感问题的频率。这意味着，在许多情况下，即使问题本身有效且措辞清晰，用户也能直接获得针对复杂、技术性或业务相关问题的答案，而无需触发响应功能。.

与此同时，该模型的所谓“考虑周全性”也得到提升：它倾向于公开沟通不确定性，记录额外的假设，并在辟谣或撰写安全或合规文件时更严格地遵循预定义的准则。针对法律或金融代理任务的基准测试表明，这种更高的可靠性和更清晰的不确定性沟通相结合，显著提高了其在专业环境中的实用性。.

效率、成本和代币经济：何时才值得付出多少努力？

尽管 Opus 4.6 的功能显著增强，但代币经济对于实际用户而言仍然至关重要。低、中、高和最高难度等级直接影响思考代币的数量，进而影响成本和响应时间。在许多日常任务中——例如撰写短文、格式化电子邮件或调试小型代码片段——低或中等难度等级足以在质量和效率之间保持良好的平衡。.

对于复杂、长期的代理型工作流程，情况则有所不同：基准测试表明，使用高或最高设置可以显著提升性能，尤其是在 Terminal-Bench 2.0、OSWorld 和多学科推理任务中。在这些情况下，更高的令牌消耗是合理的，因为整体项目效率提高了：人工智能需要的来回切换次数更少，纠错周期更少，人工干预也更少。对于企业而言，这意味着一个清晰的策略：标准工作流程投入较少，而关键或复杂项目则投入更多。.

代理团队与单个代理：团队合作何时更有用？

代理团队并非所有应用的必要组件，但在某些情况下，它们确实能带来显著的附加价值。在单代理场景中，克劳德窗口的运行环境有限，工具匮乏，目标也较为固定。而代理团队则由多个独立代理组成，这些代理可以相互协调，承担不同的角色，并能并行工作。使用 Terminal-Bench 2.0 和 OSWorld 进行的基准测试表明，代理团队比单个代理速度更快、更稳定，尤其是在大型多阶段项目中。.

在实践中，当一项任务包含多个大型子任务时，例如后端开发、前端实现、测试和文档编写，组建代理团队就显得尤为重要。每个代理可以负责其中一个领域，而团队负责人则负责整合并监控结果。对于规模较小或高度集中的任务，组建代理团队的额外开销通常是不必要的，因为单个代理只要投入足够的精力就能取得足够的成效。.

未来展望：Opus 4.6 如何改变人工智能代理的使用方式

Opus 4.6与其说是一次简单的升级，不如说是智能体架构的一次范式转变。凭借智能体团队、百万上下文、上下文压缩和自适应思维，无需用户持续干预，即可连续运行复杂项目数小时甚至数天。这使得企业能够实现整个工程、研发或生产力工作流程的自动化，人工智能智能体不仅可以处理单个任务，还能规划、执行和控制整个项目。.

与此同时，人类作为“设计者”和“监控者”的角色日益凸显。用户定义目标、设定工作量、监控智能体团队并做出最终决策，而人工智能则负责处理具体的操作工作。从这个意义上讲，Opus 4.6 标志着人工智能从助手向合作伙伴的转变，后者将参与长期、复杂的协作工作流程，而非仅仅提供偶尔的帮助。对于开发人员、数据分析师和知识工作者而言，这代表着一次意义深远的变革，它不仅提高了生产力，也彻底改变了项目的组织和管理方式。.

克劳德作品4.6的特别新颖之处在于：

Claude Opus 4.6 的真正创新之处并非在于某一项单一功能，而是一系列意义深远的改进，这些改进共同将 AI 代理的能力提升到了一个新的水平。这些改进包括：支持高达 100 万个标记的上下文窗口、输出标记数量翻三倍至 12.8 万个、具有多级努力的自适应思维、引入代理团队以进行并行 AI 工作、针对长时间会话的上下文压缩，以及在编码、终端使用、研究和办公任务方面显著提升的代理能力。.

Opus 4.6 与 Opus 4.5 的区别不仅在于它“更好”，还在于它支持一种不同的使用模式：由 AI 团队接管长期自动化工作流程，而人类则扮演战略家和质量控制专家的角色。对于在软件、分析或知识工作中使用智能体工作流程的公司而言，这代表着一项重大改进，其成果体现在基准测试和日常项目中。.