忘记提示:为什么人工智能代理的真正力量在于文件夹结构
从聊天机器人到副驾驶:构建人工智能就绪代码的 4 条架构规则
上下文工程:90% 的 AI 开发人员忽略的关键因素
围绕人工智能驱动的软件开发的讨论常常陷入循环:哪个模型打破了最新的基准测试?哪个提示能生成最简洁的代码?但这些问题忽略了问题的核心。正如现代智能体模型(尤其是 Anthropic 公司的 Claude Code)令人印象深刻地展示的那样,决定成败的并非聊天机器人本身,而是它运行的环境。那些代码库结构混乱、将人工智能视为高级搜索引擎的人,充其量只能得到一些通用答案,而最糟糕的情况是积累巨额技术债务。真正的魔力只能通过“上下文工程”来实现:即精心构建信息架构,将简单的语言模型转化为一个自主的、感知上下文的开发伙伴。本文揭示了当前人工智能工具的生产力悖论,警示了不受控制的代码生成所带来的潜在风险,并阐述了使开发团队能够掌握从简单的提示到真正控制人工智能系统这一范式转变的关键架构原则。.
即使正确使用错误的工具,最终也难逃失败。
人工智能发展辩论的核心误解
多年来,围绕人工智能驱动的软件开发的争论一直围绕着一个错误的问题。当公司、开发团队和技术撰稿人讨论哪个模型能达到最佳基准测试结果,或者哪个提示能提供最精确的答案时,真正阻碍高效人工智能工作的障碍却在别处:代码本身的结构。Anthropic 公司于 2025 年 2 月推出的基于命令行的代理模型 Claude Code 就清晰地说明了这一点。那些将其用作增强型聊天机器人的用户只能得到通用答案。而那些以允许代理导航的方式构建代码库的用户则会获得截然不同的东西:一个理解项目背景、遵循规范并在结构化框架内自主工作的开发伙伴。.
这种差异并非微不足道。它是所谓“上下文工程”整个范式的核心论点,即精心构建一个信息框架,供人工智能代理做出有意义的决策。正如ThoughtWorks的软件架构师Bharani Subramaniam所说:“上下文工程的艺术在于,它能准确地向模型展示它需要看到的内容,从而提升结果。关键不在于信息的数量,而在于所提供信息的质量和相关性。”.
为什么上下文是人工智能世界中最昂贵的商品
像 Claude 这样的语言模型使用所谓的上下文窗口,也就是会话期间可用的内存。这部分内存是有限的,其使用遵循边际效用递减规律:添加的无关信息越多,模型的可靠性就越低。Anthropic 用“注意力预算”一词恰如其分地描述了这一点。注意力预算是智能体用于处理大量信息的资源,即使在实际任务开始之前,过载或结构不良的上下文也会消耗掉这部分资源。.
这会产生直接的实际后果。一个组织混乱的代码库无法为智能体提供任何可用的信号。文件名、目录层级和组织规范对于人工智能智能体而言并非美观细节,而是语义信息的载体。例如,在 `tests/` 文件夹中存在名为 `test_utils.py` 的文件,与在 `src/core_logic/` 文件夹中存在同一文件,对智能体而言意义截然不同。因此,结构本身并非目的,而是机器可读的通信方式。.
代理赋能存储库的四个架构原则
一个结构良好的AI代理代码库本质上可以归纳为四个方面:系统用途、代码拓扑结构、行为规则以及重复流程描述。这四个方面决定了代理是通用响应还是像嵌入式开发人员那样运作。对于大型团队而言,这并非奢侈品,而是任何希望高效利用AI代理的项目的最低要求。.
该系统的基础是 `CLAUDE.md` 文件,它直接放置在项目根目录下。它的作用类似于新员工入职培训文档:解释系统存在的意义、项目的结构以及适用的规则。Anthropic 强调,该文件会在每次会话开始时自动加载到上下文中,使其成为智能体最可靠的信息来源。最佳实践建议保持其简洁,理想情况下在 100 到 200 行之间,并引用其他文档,而不是将所有内容都塞进一个冗长的文件中。矛盾的是,过长的 `CLAUDE.md` 文件反而可能导致模型错过关键信号。.
按需获取专业知识:可重用技能的概念
启用代理的存储库的第二个组成部分是 `.claude/skills/` 目录,其中包含以 Markdown 文件形式编写的标准化工作指令。这些所谓的“技能”是可重用的专家模式:代码审查协议、重构指南、调试工作流程或发布流程只需定义一次,代理即可在需要时随时使用。效率提升的关键在于,无需在每次提示时都重新编写指令。技能是 Claude 接收一次的培训文档,然后将其应用于所有相关任务。.
区分不同的配置级别至关重要。`CLAUDE.md` 包含静态的项目上下文,例如技术、架构和通用约定,而技能则描述了特定任务类型的动态工作流程。钩子(Hooks)是第三个组件,它保证某些操作的可靠执行,无论 Claude 是否记住指令。实际上,未自动激活的技能很少使用,因为该模型在绝大多数情况下会忽略手动添加的指令。来自开发者社区的估计表明,手动调用的技能在约 90% 的情况下不会被注意到。.
通过机制实现可靠性:钩子作为人工智能工作流程的护栏
第三个要素,即 `.claude/hooks/` 目录,解决了所有语言模型的一个根本缺陷:它们会遗忘。即使是最好的模型也无法在许多交互中始终如一地遵循约定。Hooks 通过在工作流中定义的节点自动执行操作,提供了一种结构化的解决方案。格式化程序会在每次文件更改后运行,核心更改后会触发测试,并且某些关键目录(例如身份验证模块、计费逻辑或数据库迁移)可以被完全锁定。.
其基本原则借鉴自经典软件工程:可靠运行的功能不应依赖于用户的意愿或记忆,而必须嵌入系统本身。用一个简洁的类比来说,`CLAUDE.md` 就像代码风格指南,而钩子(hooks)就像代码检查器。这种区别具有实际意义:`CLAUDE.md` 中的防护措施可以被绕过,但钩子则不能。它们使人工智能工作流在工程意义上更加健壮,因为它们以确定性而非概率性的方式运行。.
循序渐进的上下文而非信息过载:文档导航
第四个组件,即 `docs/` 目录,遵循一种可称为渐进式揭示的原则。代理不会将所有相关信息加载到上下文中,而是接收一个可用文档的映射表,并根据需要自行浏览。架构概述、架构决策记录和操作手册都随时可用,但仅在特定任务需要时才会检索。Anthropic 将其描述为一种即时方法:代理维护轻量级引用(例如文件路径或链接),并在实际需要时动态地将内容加载到上下文中。.
这种方法解决了基于代理的开发中的一个根本性难题。一方面,代理需要大量的上下文信息来完成复杂任务;另一方面,模型性能会随着上下文长度的增加而下降。解决方案不在于更大的上下文窗口,而在于更好的上下文管理。Anthropic 指出,即使是未来拥有更大上下文窗口的模型,仍然会受到上下文污染的影响,因为相关性和范围仍然是根本性的矛盾。.
借助“托管人工智能”(人工智能)实现数字化转型的新维度——平台及B2B解决方案 | Xpert咨询
在这里,您将了解到您的公司如何快速、安全地实施定制化的人工智能解决方案,且无需承担过高的准入门槛。.
托管式人工智能平台是您实现人工智能的全方位、无忧解决方案。您无需处理复杂的技术、昂贵的基础设施和漫长的开发流程,即可从专业合作伙伴处获得根据您的需求量身定制的现成解决方案——通常只需几天时间。.
主要优势一览:
⚡ 快速实施:从构思到可立即使用的应用,只需几天而非几个月。我们提供切实可行的解决方案,创造即时附加值。.
🔒 最高数据安全保障:您的敏感数据始终由您掌控。我们保证安全合规地处理您的数据,绝不与任何第三方共享。.
💸 无财务风险:您只需为结果付费。完全无需前期投入大量资金用于硬件、软件或人员。.
🎯 专注于您的核心业务:集中精力做好您最擅长的事情。我们将负责您人工智能解决方案的全部技术实施、运营和维护。.
📈面向未来且可扩展:您的AI将与您一同成长。我们确保持续优化和可扩展性,并灵活调整模型以适应新的需求。.
更多信息请点击这里:
从程序员到人工智能架构师:你作为开发人员的工作正面临着彻底的变革。
明确标记危险区域:本地配置文件
第五个常被忽视的机制是将本地的 `CLAUDE.md` 文件直接放置在关键项目模块中。像 `src/auth/`、`src/persistence/` 或 `infra/` 这样的目录通常包含隐藏的复杂性,如果没有明确的警告,AI 代理无法检测到这些复杂性。将本地配置文件放置在代理运行的确切位置,可以使其在正确的时间获得正确的信息,而无需将其永久加载到全局上下文中。.
这一原则对于企业环境尤为重要,因为在企业环境中,安全逻辑、合规性关键组件或与外部系统的接口等敏感区域需要特别关注。使用本地上下文文件对高风险区域进行标记,可以显著降低这些区域的错误率,因为代理在进行任何更改之前就能被明确告知潜在的风险。.
人工智能开发工具的生产力悖论
人工智能编码工具的广泛应用造成了主观感知与客观测量结果之间一种奇特的差异。开发者普遍反映效率提升,但对照研究却呈现出更为微妙的景象。Anthropic 引用的一项实验表明,开发者平均感觉人工智能提升了 20%,但实际上他们的速度反而变慢了。这种自我报告与测量结果之间的差距,反映了业界普遍存在的一个问题:人工智能的应用与人工智能的有效性混为一谈。.
METR研究所2025年的一项研究调查了经验丰富的开源开发者,得出了一个令人惊讶的结论:使用人工智能平均会使任务耗时增加19%。然而,2026年初的一项后续研究显示,同一批开发者的趋势发生了逆转。尽管测量方法本身已接近极限,因为越来越多的参与者不愿意在没有人工智能的情况下工作,从而导致比较组出现偏差。与此同时,针对经验较少的开发者进行的实地研究通常显示,在执行特定任务时,人工智能的使用可使生产力提高30%至55%。.
结构胜于经验:谁能从人工智能代理中获益最多?
数据揭示了一个清晰的模式:人工智能驱动的编码工具带来的益处与开发人员对代码库的熟悉程度成反比。熟悉架构的高级开发人员几乎无法从自动化代码生成中获益。而初级开发人员由于对代码库不熟悉,反而获益最大,因为人工智能可以自动搭建代码框架、创建样板代码和搜索文档。Faros AI 对 1255 个团队的 10000 名开发人员进行的一项分析发现,高人工智能团队每天处理的任务量增加了 9%,拉取请求数量增加了 47%——换句话说,他们管理着更多的并行工作流程。.
这一发现揭示了软件开发结构性的转变:人工智能并非必然提升个人技能的深度,而是拓展工作的广度和并行性。这使得定义、优先级排序和协调任务的能力比技术执行速度本身更为重要。《2025年DORA报告》对此关系进行了精准阐述:人工智能就像一个放大器,它能放大高效团队的优势,同时也会加剧低效团队的劣势。如果没有结构化的工作流程、清晰的流程和有效的上下文管理,人工智能只会创造出孤立的生产力区域,而这些区域最终会被下游的混乱所抵消。.
隐形风险:人工智能生成代码带来的技术债务
在关于生产力的讨论背后,隐藏着一个尚未在业内得到系统性解决的长期风险:人工智能生成的代码导致技术债务呈指数级累积。人工编写的代码债务累积呈线性,而人工智能代码则会成倍地加速这一过程。安全公司 Ox Security 分析了 300 个开源项目,并识别出人工智能生成的代码中十种反复出现的架构反模式,包括缺乏重构、注释过多、照搬形式而不进行项目适配,以及系统性地忽略架构决策。.
尤其令人担忧的是:在几乎所有被考察的项目中,人工智能生成的代码都倾向于应用预设模式,而非针对特定用例进行定制。其结果是,代码虽然技术上能够运行,但却增加了安全审计的难度,提高了维护成本,并加剧了架构上的不一致性。Gartner 预测,到 2028 年,软件缺陷将增加 2500%,而这主要是由于不受控制的“提示即应用”开发方法造成的,在这种方法中,开发人员未经架构审查就将人工智能生成的代码部署到生产环境。.
Anthropic公司在结构化人工智能工程方面的商业押注
鉴于这些风险,Anthropic 于 2025 年 8 月将 Claude Code 整合到其所有团队版和企业版套餐中并非偶然,此举省去了之前繁琐的 AI 编码工具预订和安全审计流程。这一决定直接响应了机构客户最常提出的诉求。Claude Code 迅速成为营收增长的驱动力:Anthropic 的年化营收达到 25 亿美元,并在短短几个月内翻了一番,其中企业版订阅收入占比超过一半。.
据该公司称,全球市值排名前十的公司中,已有八家将 Claude 集成到其核心流程中。这凸显了市场对人工智能驱动开发的巨大需求,但如何将其结构化地集成到现有开发环境中仍然是一个复杂的挑战。Anthropic 公司针对这一挑战提出了一种新的模型,该模型将安全相关的治理、管理控制和审计日志直接纳入企业集成,因为他们认识到,缺乏企业级控制,速度本身并不能带来实际效益。.
真正的范式转变:从提示到架构
构建支持代理的知识库背后的深层含义是:提示是短暂的,结构是永久的。任何每次会话都重新指示代理的人都会反复付出相同的信息代价,导致会话间上下文丢失,并产生不一致的结果。相反,任何一次性构建好知识库,使代理能够独立定位知识库的人,都能将这些知识转化为永久性的基础架构。.
这标志着开发者角色发生了概念性的转变:从执行单个代码实现转向成为控制人工智能代理的系统架构师。抽象思维能力、清晰阐述需求的能力以及预测错误模式的技能,正变得比单纯的编码速度更为重要。GitHub、谷歌和麦肯锡都预测,开发者的价值将不再取决于编写代码,而是取决于定义代理系统的边界和目标。研究表明,人工智能在生产代码中的占比已上升至近27%,并且呈现明显的上升趋势。.
新标准:清晰度胜过音量
对于开发者和开发团队而言,这个实际结论既清晰又令人不安。决定人工智能软件开发质量的并非最新模型或最巧妙的提示,而是幕后结构化工作的质量。一个能够向智能体解释自身定位、所有内容位置、禁止操作以及任务执行方式的存储库,始终比在非结构化环境中更强大的模型产生更好的结果。.
这一发现具有直接的经济意义。能够高效部署人工智能代理的团队,其成功与否并非取决于模型成本,而是取决于其组织架构的建设。在清晰的存储库架构上投入的每一小时,都会在未来所有代理会话中产生倍增效应。这不仅适用于小型初创公司,也适用于已经将 Claude 集成到其核心运营中的八家财富 10 强企业。技术层面的问题早已得到解答。而战略层面的问题在于:谁愿意花时间去教会他们的人工智能代理它自身的位置?


