低手不知道 AI 错了，高手不相信 AI 会错 • Yucheng (YC)'s Blog

你的公司在培训员工怎么写 prompt。但没人培训他们什么时候不该打开 ChatGPT。

这是大多数 AI 战略里缺失的那一半。

758 个咨询师，一个让人不舒服的结论

2025 年发表在《Organization Science》上的一篇论文，提供了目前关于 AI 对知识工作者影响最严格的实验数据之一。

研究团队来自哈佛商学院、MIT 和多所顶级学府，与 BCG 合作，设计了 18 个模拟真实咨询工作的任务，让 758 名 BCG 咨询师参与随机对照实验，分成三组：无 AI 组、GPT-4 组、GPT-4 加 prompt 工程培训组。

结果分两个方向：

前沿内任务（AI 能力范围内：写报告、分析数据、生成营销文案）：

论文原文：

“subjects using AI outperformed those not using AI, completing 12.2% more tasks and completing them 25.1% more quickly on average while also delivering solutions of significantly improved quality.” — Dell’Acqua et al., Organization Science, 2025

即：完成任务多 12.2%，速度快 25.1%，质量更高。

前沿外任务（一个需要整合模糊信息做出判断的复杂管理决策题）：

论文原文：

“subjects using AI were 19% less likely to produce correct solutions compared with those without AI, pointing to potential limitations of AI supporting knowledge workers.” — Dell’Acqua et al., Organization Science, 2025

使用 AI 的人比不用 AI 的人少 19% 的概率答对。

AI 让他们变差了。而他们不知道自己变差了。

这里引出论文的核心概念：锯齿技术前沿（Jagged Technological Frontier）。论文对这个概念的定义是：

“a jagged technology frontier… where AI assistance improves performance for some tasks but worsens it for others, even within the same knowledge workflow and with a seemingly similar level of difficulty.”

「前沿」指 AI 当前的能力边界。「锯齿」指这条边界不是一条平滑的曲线，是凹凸不平的。对人类来说感觉难度相似的两个任务，可能一个完全在 AI 能力范围内，另一个完全在外面。

AI 的能力边界不是一堵墙，是一排锯齿。你往前走一步可能还在安全区，往旁边走一步就掉下去了。

大多数公司的 AI 策略只有两档：全油门和全刹车。但这不是策略，这是态度。

分析单位错了

「我们部门要全面引入 AI」这句话，本质上是一个粒度太粗的决策。

AI 策略的分析单位应该是任务，不是部门。说「市场部用 AI」跟说「市场部用电」一样没有信息量。

同一个咨询师，在同一个项目里，可能做十个任务：六个在前沿内，四个在前沿外。「全用」和「全不用」都会在某些任务上犯错。

几个具体例子：

✅ 通常在前沿内（AI 稳定加分）：

写一段产品介绍文案（有参考信息，输出可评估）
把一份 50 页报告总结成 3 页摘要（信息提取，有原文对照）
生成一份竞品分析的初稿（框架性任务，人可以验证）
把客服问题分类打标签（规则清晰，结果可验证）
写一封邮件初稿（有明确的目标和语境）

⚠️ 通常在前沿外（AI 会帮倒忙）：

判断这个候选人是否适合公司文化（需要理解人，高度情境化）
决定这个季度应该优先做哪个产品功能（需要整合市场感知、团队现状、战略方向）
判断这个大客户的合同该怎么谈（需要理解关系动态、历史背景）
识别一个团队成员是否开始”躺平”（需要长期观察和细微感知）
决定是否进入一个新市场（需要整合大量模糊的、非结构化的信息）

每类任务回答三个问题：

输出可以验证吗？ 有标准答案或可对照检验的 → 通常在前沿内
需要整合模糊上下文来做判断吗？ 需要 → 可能在前沿外
错误代价是什么？ 代价高、容错率低 → 更需要谨慎

这不是一次性的分类工作，是组织需要持续维护的「任务地图」。

培训了一半的技能

实验里有个值得注意的细节：接受了 prompt engineering 培训的第三组，在前沿外任务上的表现和没有培训的第二组差不多。

培训没有帮助他们识别该不该用 AI。

Prompt engineering 是如何给 AI 写有效指令的技能。这是一项真实有用的技能——但它解决的是「怎么用 AI」，不是「什么时候不该用 AI」。

Prompt 是操作技能，知道什么时候关掉 AI 是认知技能。前者一天能学会，后者需要领域知识。

真正需要培养的是对自己使用 AI 的行为进行评估的能力。在开始用 AI 之前，先问自己：

这个任务的 AI 输出，我能验证吗？ 如果不能，我有没有足够的领域知识来感知它是否合理？
我是在用 AI 加速自己的判断，还是在用 AI 替代自己的判断？ 前者是辅助，后者是外包。
如果 AI 的输出是错的，我会看出来吗？ 如果不会，这是高风险场景。

举个例子：一个市场经理用 AI 写竞品分析报告。AI 输出看起来完整、有条理、格式漂亮。但竞品的某个关键数据是错的——AI 产生了幻觉（hallucination，即 AI 自信地给出了不存在的信息）。

有领域知识的经理会在读的过程中感觉「这个数字不对」，去核实，发现错误。没有这个背景知识的人，直接把报告交了出去，团队基于错误报告做了决策。

这种能力的培养方式和 prompt 培训完全不同，更像是批判性思维的训练。

最危险的不是错误，是不知道自己错了

前沿外任务上，AI 给出的答案通常「看起来合理」。这是最大的风险。

AI 最危险的输出不是错误答案，是看起来正确的错误答案。

实验里犯错的咨询师不是乱猜，是拿到了一个有说服力的错误答案，然后接受了。AI 给的答案语言流畅、逻辑自洽、格式规整——一切看起来都像对的。

放到组织层面，这个风险会被进一步放大：

虚假共识

一个团队的三个人同时用 AI 分析同一个问题，分别得到了高度相似的答案（因为 prompt 类似，AI 的训练数据也是共同的）。三个人把各自的结论一汇总，发现「大家都这样认为」，于是更加确信。

虚假共识比错误答案更贵。错误你会去验证，共识你直接执行。

这在战略讨论中尤其危险。几个人用 AI 研究新市场，都得出「有机会」的结论，决策层拍板。但 AI 的训练数据对市场最新变化反应滞后，而那些滞后的部分恰好是最重要的。

两种失败模式

新手的风险是看不见错误，老手的风险是不相信自己会看不见错误。

新人领域知识不够，感知不到 AI 输出的偏差。

有经验的人有另一种风险：对 AI 越熟悉，越容易高估自己判断前沿的能力。他们知道「AI 擅长 A、不擅长 B」，觉得自己能判断。但 AI 的能力在不断进化，新的盲区也在形成。两年前建立的「AI 能力地图」，今天已经有大量失效的部分。

前沿在移动

GPT-4 时代画的那条边界线，今天已经大幅移动了。

两年前，「写一段有说服力的法律意见书初稿」对 AI 来说是前沿外的任务。今天，o1、Claude 3.7 这些推理模型出来之后，大量律所已经开始用 AI 生成初稿，律师审核。这个任务从前沿外移到了前沿内。

类似的迁移还在发生：代码审查、医学影像分析、财务预测模型搭建……这些两年前 AI 只能做到「参考」水平的任务，今天已经在某些场景下达到「可信赖」的水平。

但前沿向外扩张的同时，新的前沿外区域也在形成。随着 AI 越来越强，人们把更复杂的任务交给它——有些任务其实还没到「可以放心交」的水平，只是看起来像了。

每次模型升级，锯齿就移动一次。你上个月画的前沿线，这个月已经是错的。

AI 风险管理不是一次性的评估，是需要随着模型升级持续更新的工作。每次有重大模型发布，值得重新问：

之前认为在前沿外的任务，现在可以安全使用 AI 了吗？
正在用 AI 做的任务里，有没有哪些已经悄悄落到了新的前沿外？

结语：AI 队友的正确定位

Lucius 是我们做的 AI 社群运营工具。一开始我们在想：Lucius 应该能做多少事情？Jagged Frontier 的框架让我们换了一个问法：Lucius 不应该做哪些事？

社群管理里，前沿内任务很多：写欢迎语、回答常见问题、汇总活跃数据、生成内容初稿。这些 Lucius 可以稳定处理。

前沿外任务也有：判断两个成员之间的摩擦是否会演变成冲突、决定是否移除边界行为的成员、和关键 KOL 维护关系、判断社区健康度是否需要战略调整。这些 Lucius 可以提供信息，但不应该独立决策。

工具是你指哪打哪。队友是你指错了方向，它会拍你肩膀。

一个好的 AI 队友，不是能做最多的那个，而是知道自己边界在哪里的那个。

试着打开你团队上周的任务列表，逐条标注：这个在 AI 前沿内还是前沿外。标完你就知道策略该怎么改了。

参考文献

Dell’Acqua, F., McFowland III, E., Mollick, E., Lifshitz-Assaf, H., Lakhani, K., Kambhampati, S., Nowak, M., & Aral, S. (2025). Navigating the Jagged Technological Frontier: Field Experimental Evidence of the Effects of Artificial Intelligence on Knowledge Worker Productivity and Quality. Organization Science. https://doi.org/10.1287/orsc.2025.21838