低手不知道 AI 错了,高手不相信 AI 会错
/ 14 min read
Table of Contents
你的公司在培训员工怎么写 prompt。但没人培训他们什么时候不该打开 ChatGPT。
这是大多数 AI 战略里缺失的那一半。
758 个咨询师,一个让人不舒服的结论
2025 年发表在《Organization Science》上的一篇论文,提供了目前关于 AI 对知识工作者影响最严格的实验数据之一。
研究团队来自哈佛商学院、MIT 和多所顶级学府,与 BCG 合作,设计了 18 个模拟真实咨询工作的任务,让 758 名 BCG 咨询师参与随机对照实验,分成三组:无 AI 组、GPT-4 组、GPT-4 加 prompt 工程培训组。
结果分两个方向:
前沿内任务(AI 能力范围内:写报告、分析数据、生成营销文案):
论文原文:
“subjects using AI outperformed those not using AI, completing 12.2% more tasks and completing them 25.1% more quickly on average while also delivering solutions of significantly improved quality.” — Dell’Acqua et al., Organization Science, 2025
即:完成任务多 12.2%,速度快 25.1%,质量更高。
前沿外任务(一个需要整合模糊信息做出判断的复杂管理决策题):
论文原文:
“subjects using AI were 19% less likely to produce correct solutions compared with those without AI, pointing to potential limitations of AI supporting knowledge workers.” — Dell’Acqua et al., Organization Science, 2025
使用 AI 的人比不用 AI 的人少 19% 的概率答对。
AI 让他们变差了。而他们不知道自己变差了。
这里引出论文的核心概念:锯齿技术前沿(Jagged Technological Frontier)。论文对这个概念的定义是:
“a jagged technology frontier… where AI assistance improves performance for some tasks but worsens it for others, even within the same knowledge workflow and with a seemingly similar level of difficulty.”
「前沿」指 AI 当前的能力边界。「锯齿」指这条边界不是一条平滑的曲线,是凹凸不平的。对人类来说感觉难度相似的两个任务,可能一个完全在 AI 能力范围内,另一个完全在外面。
AI 的能力边界不是一堵墙,是一排锯齿。你往前走一步可能还在安全区,往旁边走一步就掉下去了。
大多数公司的 AI 策略只有两档:全油门和全刹车。但这不是策略,这是态度。
分析单位错了
「我们部门要全面引入 AI」这句话,本质上是一个粒度太粗的决策。
AI 策略的分析单位应该是任务,不是部门。说「市场部用 AI」跟说「市场部用电」一样没有信息量。
同一个咨询师,在同一个项目里,可能做十个任务:六个在前沿内,四个在前沿外。「全用」和「全不用」都会在某些任务上犯错。
几个具体例子:
✅ 通常在前沿内(AI 稳定加分):
- 写一段产品介绍文案(有参考信息,输出可评估)
- 把一份 50 页报告总结成 3 页摘要(信息提取,有原文对照)
- 生成一份竞品分析的初稿(框架性任务,人可以验证)
- 把客服问题分类打标签(规则清晰,结果可验证)
- 写一封邮件初稿(有明确的目标和语境)
⚠️ 通常在前沿外(AI 会帮倒忙):
- 判断这个候选人是否适合公司文化(需要理解人,高度情境化)
- 决定这个季度应该优先做哪个产品功能(需要整合市场感知、团队现状、战略方向)
- 判断这个大客户的合同该怎么谈(需要理解关系动态、历史背景)
- 识别一个团队成员是否开始”躺平”(需要长期观察和细微感知)
- 决定是否进入一个新市场(需要整合大量模糊的、非结构化的信息)
每类任务回答三个问题:
- 输出可以验证吗? 有标准答案或可对照检验的 → 通常在前沿内
- 需要整合模糊上下文来做判断吗? 需要 → 可能在前沿外
- 错误代价是什么? 代价高、容错率低 → 更需要谨慎
这不是一次性的分类工作,是组织需要持续维护的「任务地图」。
培训了一半的技能
实验里有个值得注意的细节:接受了 prompt engineering 培训的第三组,在前沿外任务上的表现和没有培训的第二组差不多。
培训没有帮助他们识别该不该用 AI。
Prompt engineering 是如何给 AI 写有效指令的技能。这是一项真实有用的技能——但它解决的是「怎么用 AI」,不是「什么时候不该用 AI」。
Prompt 是操作技能,知道什么时候关掉 AI 是认知技能。前者一天能学会,后者需要领域知识。
真正需要培养的是对自己使用 AI 的行为进行评估的能力。在开始用 AI 之前,先问自己:
- 这个任务的 AI 输出,我能验证吗? 如果不能,我有没有足够的领域知识来感知它是否合理?
- 我是在用 AI 加速自己的判断,还是在用 AI 替代自己的判断? 前者是辅助,后者是外包。
- 如果 AI 的输出是错的,我会看出来吗? 如果不会,这是高风险场景。
举个例子:一个市场经理用 AI 写竞品分析报告。AI 输出看起来完整、有条理、格式漂亮。但竞品的某个关键数据是错的——AI 产生了幻觉(hallucination,即 AI 自信地给出了不存在的信息)。
有领域知识的经理会在读的过程中感觉「这个数字不对」,去核实,发现错误。没有这个背景知识的人,直接把报告交了出去,团队基于错误报告做了决策。
这种能力的培养方式和 prompt 培训完全不同,更像是批判性思维的训练。
最危险的不是错误,是不知道自己错了
前沿外任务上,AI 给出的答案通常「看起来合理」。这是最大的风险。
AI 最危险的输出不是错误答案,是看起来正确的错误答案。
实验里犯错的咨询师不是乱猜,是拿到了一个有说服力的错误答案,然后接受了。AI 给的答案语言流畅、逻辑自洽、格式规整——一切看起来都像对的。
放到组织层面,这个风险会被进一步放大:
虚假共识
一个团队的三个人同时用 AI 分析同一个问题,分别得到了高度相似的答案(因为 prompt 类似,AI 的训练数据也是共同的)。三个人把各自的结论一汇总,发现「大家都这样认为」,于是更加确信。
虚假共识比错误答案更贵。错误你会去验证,共识你直接执行。
这在战略讨论中尤其危险。几个人用 AI 研究新市场,都得出「有机会」的结论,决策层拍板。但 AI 的训练数据对市场最新变化反应滞后,而那些滞后的部分恰好是最重要的。
两种失败模式
新手的风险是看不见错误,老手的风险是不相信自己会看不见错误。
新人领域知识不够,感知不到 AI 输出的偏差。
有经验的人有另一种风险:对 AI 越熟悉,越容易高估自己判断前沿的能力。他们知道「AI 擅长 A、不擅长 B」,觉得自己能判断。但 AI 的能力在不断进化,新的盲区也在形成。两年前建立的「AI 能力地图」,今天已经有大量失效的部分。
前沿在移动
GPT-4 时代画的那条边界线,今天已经大幅移动了。
两年前,「写一段有说服力的法律意见书初稿」对 AI 来说是前沿外的任务。今天,o1、Claude 3.7 这些推理模型出来之后,大量律所已经开始用 AI 生成初稿,律师审核。这个任务从前沿外移到了前沿内。
类似的迁移还在发生:代码审查、医学影像分析、财务预测模型搭建……这些两年前 AI 只能做到「参考」水平的任务,今天已经在某些场景下达到「可信赖」的水平。
但前沿向外扩张的同时,新的前沿外区域也在形成。随着 AI 越来越强,人们把更复杂的任务交给它——有些任务其实还没到「可以放心交」的水平,只是看起来像了。
每次模型升级,锯齿就移动一次。你上个月画的前沿线,这个月已经是错的。
AI 风险管理不是一次性的评估,是需要随着模型升级持续更新的工作。每次有重大模型发布,值得重新问:
- 之前认为在前沿外的任务,现在可以安全使用 AI 了吗?
- 正在用 AI 做的任务里,有没有哪些已经悄悄落到了新的前沿外?
结语:AI 队友的正确定位
Lucius 是我们做的 AI 社群运营工具。一开始我们在想:Lucius 应该能做多少事情?Jagged Frontier 的框架让我们换了一个问法:Lucius 不应该做哪些事?
社群管理里,前沿内任务很多:写欢迎语、回答常见问题、汇总活跃数据、生成内容初稿。这些 Lucius 可以稳定处理。
前沿外任务也有:判断两个成员之间的摩擦是否会演变成冲突、决定是否移除边界行为的成员、和关键 KOL 维护关系、判断社区健康度是否需要战略调整。这些 Lucius 可以提供信息,但不应该独立决策。
工具是你指哪打哪。队友是你指错了方向,它会拍你肩膀。
一个好的 AI 队友,不是能做最多的那个,而是知道自己边界在哪里的那个。
试着打开你团队上周的任务列表,逐条标注:这个在 AI 前沿内还是前沿外。标完你就知道策略该怎么改了。
参考文献
Dell’Acqua, F., McFowland III, E., Mollick, E., Lifshitz-Assaf, H., Lakhani, K., Kambhampati, S., Nowak, M., & Aral, S. (2025). Navigating the Jagged Technological Frontier: Field Experimental Evidence of the Effects of Artificial Intelligence on Knowledge Worker Productivity and Quality. Organization Science. https://doi.org/10.1287/orsc.2025.21838