基于人工智能的知识工作：来自OpenAAI的Chatgpt进行深入研究：优点和限制在哪里？

Xpert 预发布

在线联系（Konrad Wolfenstein）

Available in 27 languages 📢

在 Google 上更倾向于选择 Xpert.Digital。ⓘ

发布日期：2025年2月27日 / 更新日期：2025年2月27日 – 作者：Konrad Wolfenstein

AI驱动的知识工作：使用OpenAI的ChatGPT进行深度研究：优势和局限性是什么？ – 图片来源：Xpert.Digital

OpenAI 与竞争对手：深度研究如何塑造未来的工作

深度研究：OpenAI 开放获取途径，改变知识工作格局

OpenAI逐步开放其深度研究功能，此举意义非凡，有望从根本上改变我们获取和处理知识的方式。这项功能此前仅供Pro用户专属使用，如今已向更广泛的用户群体开放，包括ChatGPT Plus、Team、Education和Enterprise套餐的订阅用户。尽管存在每月使用量限制，但此次权限的扩展不仅标志着这项技术的日趋成熟，也体现了OpenAI在竞争激烈的AI信息系统领域占据领先地位的战略雄心。与此同时，Perplexity、Google、xAI和Microsoft等公司正竞相开发下一代知识工作工具，竞争日趋激烈。

深度研究的背景和功能

起源和核心功能

深度研究的诞生源于突破传统搜索方法局限性、开启知识获取新时代的迫切需求。它被构想为一种能够自主执行复杂多阶段研究的“人工智能代理”。其核心不仅在于查找信息，更在于理解、分析信息，并以结构化的方式呈现信息。深度研究采用了OpenAI o3模型的先进版本，该版本专为应对网页浏览和数据分析等高要求任务而优化。

与 GPT-4o 等传统聊天机器人模式不同，深度研究旨在长时间运行——通常每个查询需要五到三十分钟。在此期间，它会系统地搜索数百个在线资源，提取相关信息，结合问题上下文解读其含义，并将结果综合成一份连贯的报告。这个过程远不止于简单的搜索结果检索；它还包括积极地与材料互动，识别模式、矛盾之处以及相关的关联。

技术基础

Deep Research 的功能基于多种先进人工智能技术的融合。其关键在于“推理”，即得出合乎逻辑的结论并理解复杂问题的能力。这使得系统能够独立制定和调整搜索策略，批判性地评估信息来源，并根据具体问题判断信息的关联性。

此外，Deep Research 能够执行 Python 代码，从而实现直接数据分析。这项功能在处理大型数据集、进行统计分析或执行复杂计算时尤为重要。另一个重要特性是能够处理用户自定义文件。用户可以向系统提供文档、电子表格或其他文件格式，这些文件随后可以整合到研究中。例如，这使得将内部报告、研究数据或特定文档集成到分析中成为可能，从而拓宽研究范围。

与以往模型的关键区别在于训练方法。Deep Research 采用强化学习进行训练，专注于需要使用浏览器和工具的真实世界任务。这种方法与许多早期语言模型中常见的纯文本训练方法有着本质区别。通过在真实世界的研究任务上进行训练，Deep Research 学会了如何有效地驾驭互联网上动态且通常非结构化的信息空间。

扩展访问权限和使用条款

新增用户组和查询限制

将深度研究的访问权限扩展到更广泛的用户群体，标志着这项技术民主化进程中的重要一步。该功能最初仅供每月订阅费为 200 美元的专业版用户使用，自 2025 年 2 月 25 日起，访问权限已扩展至以下用户群体：

Plus 用户（每月 20 美元）

每月 10 次深度研究查询。这使得广大用户无需承担专业版订阅的高昂费用，即可体验深度研究的基本优势。

团队/企业/教育

每位用户每月限查询 10 次。此政策旨在方便组织和教育机构访问，并促进团队协作开展深度研究。

专业用户

每月查询次数上限已从 100 次增加到 120 次。对于经常进行大量研究的高级用户来说，这无疑是一项令人欣喜的容量提升。

资源密集型加工：精度与效率之间的平衡

这些分级使用限制反映了深度研究对资源的密集程度。每次查询都需要大量的计算资源，因为模型会自主运行长达 30 分钟，制定搜索策略、评估数据源并进行结果三角验证。因此，限制查询次数有助于高效管理系统资源，并确保所有用户都能获得始终如一的高质量服务。

作为扩建工程的一部分，技术改进也随之而来。

随着用户群的扩大，我们也实施了技术改进，进一步提升了深度研究的功能性和用户友好性：

1. 带有引言的嵌入式图片

现在，来自网络资源的视觉内容已直接整合到报告中，并附有相应的来源信息。这不仅丰富了报告的视觉信息，还有助于理解复杂的主题，尤其是在科学、技术和设计等领域。

2. 改进的文档分析

Deep Research 现在对上传的文件（尤其是 PDF 和电子表格）有了更深入的了解。这在用户经常处理复杂文档的专业领域尤为有利。改进后的分析能力能够更精确地从这些文档中提取信息，并将其整合到研究结果中。

3. 提高透明度

Deep Research 出具的每份报告都包含详细的资料来源引用和研究步骤概述。这提高了研究过程的可追溯性，使用户能够更好地评估结果的可信度。透明度是建立对人工智能驱动的知识工作的信任以及促进负责任地使用这项技术的关键因素。

性能和实际应用

基准测试结果和性能比较

Deep Research 的性能已在各种内部和外部测试中得到验证。在与其他模型（包括 GPT-4o 和 Claude 3.5）的直接比较中，Deep Research 在各种基准测试中均显著优于它们：

人类的最后一次考试（CAIS/Scale AI）

在这项严苛的基准测试中，Deep Research 的准确率达到了 26.6%，该测试旨在检验人工智能系统的通用知识和问题解决能力。相比之下，GPT-4o 和 Claude 3.5 的准确率仅为 9%。这一结果凸显了 Deep Research 在理解复杂问题和提供精准答案方面的卓越能力。

GAIA基准

在 GAIA 基准测试中，该测试旨在检验人工智能系统回答各个知识领域问题的能力，深度研究在 50 个任务类别中的 43 个类别中名列前茅。这表明深度研究具有广泛的适用性和跨领域的高性能。

重编程研究

在生物医学研究的一个具体应用案例中，Deep Research 成功在不到 30 分钟的时间内分析了 200 多项细胞重编程研究。这项任务通常需要数天甚至数周才能完成，而使用 Deep Research 却在极短时间内即可完成。这充分展现了该技术在加速研究进程方面的巨大潜力。

竞争格局和战略定位

竞争方案和独特卖点

OpenAI 特意将 Deep Research 定位为应对人工智能驱动的知识工作领域日益激烈的竞争的解决方案。市场上存在一些提供类似功能但在某些方面有所不同的替代解决方案：

谷歌深度研究

已集成到 Gemini Advanced 中（Gemini Advanced 也提供，每月 20 美元）。谷歌也提供类似的解决方案 Gemini Advanced，同样依赖于深度研究功能。OpenAI 和谷歌之间的竞争推动了该领域的创新，并促使现有技术不断改进。

xAI深度搜索

Grok 用户专享（起价 8 美元/月）。埃隆·马斯克的公司 xAI 提供另一种选择：DeepSearch，但需要订阅 Grok 服务。这表明，人工智能市场的不同参与者正在采取不同的策略来定位和推广他们的技术。

微软深度思考

虽然可以免费使用，但缺少网页浏览功能。微软提供了一款名为 Think Deeper 的免费解决方案，但由于无法访问互联网，其功能受到限制。这凸显了网页浏览功能对于深度研究工具而言至关重要。

各种解决方案之间的关键区别在于它们的“代理能力”。微软的ThinkDeeper仅限于静态数据集，而OpenAI和谷歌的系统则能够独立搜索网络并动态访问新信息。这种自主收集和处理信息的能力是深度研究的核心优势，也是它区别于更简单的搜索工具的关键所在。

困惑深度研究

Perplexity Deep Research 自诩为一个免费的 AI 驱动型研究平台，旨在为用户提供快速、交互式的访问方式，获取海量且最新的信息资源。与传统搜索工具不同，Perplexity 特别注重透明地呈现信息来源，并能够根据上下文解答复杂问题。该平台运用先进的算法，动态地从网络中提取相关数据，实时满足用户的信息需求。这种自主网络搜索与精准结果呈现的结合，使 Perplexity Deep Research 成为一款极具吸引力的工具——尤其适合那些既重视速度，又追求可靠易懂信息的用户。此外，该平台的交互特性允许用户通过对话直接提出后续问题，从而支持迭代式研究过程。

经济影响和市场策略

OpenAI 的定价策略是：Plus 订阅价格为 20 美元，Pro 订阅价格为 200 美元。这一战略举措旨在吸引更广泛的用户群体，同时留住高性能用户。价格更亲民的 Plus 版本让更多用户能够了解并利用深度研究的优势，而 Pro 订阅则专为进行广泛研究并需要高级功能的专业用户量身定制。

ABI Research 的 Paul Schell 等分析师认为，这一发展趋势清晰地表明了“基于代理的人工智能民主化”的趋势。深度研究及类似技术的广泛应用，有可能从根本上改变知识型工作，并为企业和个人开辟新的机遇。与此同时，这一发展也对传统知识工作者构成颠覆性影响，他们的工作可能会越来越多地被人工智能系统取代。未来，能够有效地与人工智能工具协作并批判性地评估其结果，将成为知识工作者的一项关键能力。

安全与风险管理

幻觉发生率和错误易感性

尽管深度研究能力令人瞩目，但我们必须考虑这项技术的局限性和潜在风险。OpenAI自身也承认，深度研究在3%到5%的情况下可能会得出错误结论或未能正确评估权威来源。这些“误判”或错误可能由多种原因造成，例如训练数据集的缺陷、算法的不足，或是所处理信息本身的复杂性。

OpenAI 的一份内部白皮书特别警告了以下潜在的错误来源：

对监管准则的误解

深度研究可能难以正确解读和应用复杂的法律、法规或合规准则。这在金融或医疗保健等高度监管的行业中尤其成问题。

事实与谣言区分不足

在瞬息万变的互联网信息空间中，往往难以区分已确立的事实与未经证实的谣言或观点。在某些情况下，深度研究可能难以可靠地做出这种区分，并可能在其报告中包含虚假或误导性信息。

不确定性沟通的局限性

人工智能系统通常难以在其陈述中明确传达不确定性和概率。深度研究有时可能会给人一种错觉，即其结果绝对确定且毫无错误，但实际情况并非总是如此。

安全措施和质量保证

为了最大限度地降低风险并确保深度研究的安全，OpenAI 采取了多种措施：

1. 红队演练活动

外部安全专家和“红队”的任务是系统性地搜索深度研究（Deep Research）中的漏洞和潜在滥用风险。这些测试涵盖了12个不同的风险类别，包括数据隐私、传播危险建议、歧视和操纵。这些测试的结果帮助OpenAI识别漏洞并改进其安全措施。

2. 自动化评估

OpenAI 依靠自动化评估系统持续监控深度研究的质量和安全性。据该公司称，这些系统在检测仇恨言论、宣传或有害信息等不良内容方面，准确率高达 93%。

3. 沙盒

Deep Research 中的 Python 代码执行在隔离的“沙箱”环境中进行。这可以防止潜在的恶意代码访问整个系统或造成不必要的副作用。沙箱是一种常见的安全技术，用于最大限度地降低恶意软件或系统遭到入侵的风险。

未来发展和未决问题

计划中的功能和改进

OpenAI 已宣布，将在未来几个月内进一步开发和扩展深度研究功能。以下增强功能计划于 2025 年第二季度推出：

多模态报告

将数据可视化和生成图像整合到深度研究报告中。此举旨在进一步提高报告的易懂性和信息价值，使用户能够一目了然地掌握复杂信息。

API 访问

OpenAI将为部分企业合作伙伴提供应用程序编程接口（API）。这将使企业能够将深度研究直接集成到自身的系统和应用程序中，并根据具体用例调整技术。然而，OpenAI强调，只有在“说服风险”得到充分明确之后，才会发布API。这表明OpenAI非常重视深度研究的潜在风险，尤其是在操纵和虚假信息方面。

动态查询限制

为团队引入基于使用量的扩展机制。这意味着，大量使用深度研究的团队将获得更灵活的查询限制，或者能够预订额外的容量。动态调整使用限制将使组织更容易将深度研究优化地集成到其工作流程中。

尚未解决的挑战和研究需求

尽管取得了令人瞩目的进展，但关于深度研究和人工智能支持的知识工作，仍然存在一些悬而未决的问题和挑战。例如，批评者质疑当前的引用机制是否符合科学标准。一项科学文献分析案例研究表明，在分析Oct4蛋白修饰时，深度研究虽然在87%的情况下正确引用了相关研究，但在13%的情况下却引用了过时或不相关的文献。这个例子表明，对人工智能系统结果的质量保证和批判性评估必须继续发挥至关重要的作用。

深度研究的广泛应用将如何影响工作世界和知识工作者的角色，仍然是一个悬而未决的问题。深度研究真的能像凯文·韦尔预测的那样，将“数周的工作缩短到几分钟”吗？还是它最终只会沦为另一种实用性有限的人工智能工具？这些问题的答案很大程度上取决于企业和个人如何应用这项技术并将其融入到工作流程中。然而，可以肯定的是，基于智能体的研究时代已经到来，并将从根本上改变我们获取和处理知识的方式。

人工智能支持的知识工作的一个转折点

Deep Research 向更广泛的用户群体开放，标志着人工智能驱动的知识工作迎来了一个转折点。该工具为各个领域的研究人员、分析师和知识工作者带来了前所未有的效率提升和全新的知识获取机遇。与此同时，关于质量保证、伦理责任以及对工作世界的影响等重要问题仍然存在。OpenAI 决定暂时不通过 API 提供 Deep Research，这凸显了该公司对潜在滥用风险的谨慎态度，以及负责任地开发这项技术的必要性。对于企业而言，集成此类工具正日益成为一种竞争优势，前提是它们能够同时培养批判性地评估结果并负责任地使用这项技术所需的技能。未来几个月乃至几年将见证 Deep Research 是否真的有潜力从根本上改变知识工作，并开启人工智能驱动的知识获取新时代。