A 社画的饼，正在变成企业的账单

老板问："我们 AI 自动化测试做得怎么样了？"会议室里没人说话。一个月前，有人提醒过：AI 不可靠，自动化测试不能这么搞，测试系统最怕的不是不会做，而是不稳定。但那个时候，这句话听起来很像借口——站在老板的位置，也很难判断，到底是 AI 不可靠，还是你人不行？

烧了上百万美元，团队终于得出一个结论：AI 在自动化测试这件事上不行，最后还得靠人，靠自动化脚本。什么？！裤子都脱了，你告诉我这个？这事最魔幻的地方，不是 AI 没有替代测试，而是企业花了成百上千万美元，才重新发现了一件十年前就知道的事：软件质量靠工程纪律，靠稳定接口，靠确定性反馈，靠一遍遍枯燥但可靠的自动化脚本。A 社当然不会这么讲——它会讲 Agent，讲 reasoning，讲"未来每个公司都会拥有一支数字员工队伍"，翻译成人话就是：你先买单，成不成算未来的。

A 社最厉害的地方，不是模型，是叙事

先说清楚，A 社的模型不弱。

它能写代码，能读文档，能分析日志，能生成测试用例，能在某些受控场景下把任务跑通。很多能力是真的，不是假的。

问题不在能力，问题在包装。

A 社最厉害的地方，不是把模型做得多强，而是把"模型能做一次"包装成"企业可以长期依赖"。

这中间差了十万八千里。

Demo 里，Agent 成功一次就够了。生产里，系统要稳定一万次。Demo 里，失败了可以重录。生产里，失败了要有人背锅。Demo 里，环境是干净的，路径是设计好的，数据是准备好的，用户是配合的。生产里，环境是脏的，路径是混乱的，数据是历史遗留的，用户是不会按剧本走的。

A 社当然知道这些区别。但它不会把这些区别放在 PPT 首页。它会把最顺滑的路径剪出来，把最聪明的瞬间放大，把最像未来的片段讲成必然趋势。至于中间那些权限、上下文、误报、复核、成本、集成、治理、责任边界，统统变成一句轻飘飘的：

"这些都可以随着模型能力提升解决。"

妙啊。所有当下解决不了的问题，都被打包寄给未来。

A 社卖的不是确定性，而是把不确定性包装成确定性的能力。这才是企业最容易中招的地方。不是因为老板傻，不是因为工程师不懂，而是因为整个故事太完整了。它刚好击中企业最想听的东西：少招人、少写脚本、少管流程、少做苦活，让 Agent 自动完成一切。

谁不想信？

那个时候，谁都没法说自己一定对

一个月前，工程师说"AI 不可靠"。

这句话本身没问题。但放到当时的语境里，它听起来就很复杂。

你怎么知道这是技术事实，还是团队在抗拒变化？你怎么知道是 AI 真不行，还是这帮人不会用？你怎么知道是方向错了，还是执行不到位？你怎么知道是模型能力不够，还是 prompt 没写好、上下文没给够、工具链没接顺？

这不是老板蠢。这是所有新技术落地时都会出现的灰区。尤其在 AI 这件事上，灰区被 A 社们放大了十倍。外面所有人都在讲 Agent，所有 demo 都在展示"端到端自动完成任务"，所有投资人、媒体、vendor 都在说企业软件要被重写。你坐在那个位置，很难不问一句：

别人都在搞，我们不搞，是不是要落后？

所以当工程师说"AI 不可靠"的时候，这句话在会议室里会自动变味。它原本是一句技术判断，听起来却像一句防守姿态。像是不想改流程，像是不想碰新东西，像是在保护自己的舒适区，像是在给执行失败提前找借口。

AI 狂热期里，最难的不是判断模型边界，而是判断谁在说真话。

工程师可能是对的。老板的怀疑也不是完全没道理。过去二十年，太多"技术上不可能"最后都被证明只是"当时那批人不会做"。云计算刚出来，有人说不安全；移动互联网刚起来，有人说只是玩具；低代码、Serverless、DevOps、Kubernetes，每一轮新东西出来，都会有人说"不靠谱"。老板听多了，自然会形成一个本能反应：

你说不行，到底是它不行，还是你不行？

这句话不好听，但它很真实。

问题在于，AI 自动化测试最后证明的是另一件事：这一次，说"不可靠"的人不是保守，他只是把测试系统最基本的约束说了出来。测试不是 demo，测试不是魔法，测试不是让一个聪明东西去自由发挥，测试是把"什么叫对"写成确定性的契约。

这件事，一个月前讲，像借口。一个月后讲，叫复盘。中间差的不是认知，是上百万美元。

AI 最擅长的地方，恰好不是测试最需要的地方

LLM 很强。它能读懂一段需求，猜出用户想干什么；它能根据代码补测试；它能把错误日志翻译成人话；它甚至能在某些简单场景里，像一个 junior QA 一样点点页面，找出明显 bug。这些能力都是真的。

这也是 A 社叙事最聪明的地方。它不需要完全撒谎，它只需要拿一个真实能力，往前多推半步。模型能生成测试用例，于是它暗示未来可以自动完成测试。模型能操作浏览器，于是它暗示未来可以替代人工回归。模型能理解页面，于是它暗示未来可以判断业务正确性。模型能跑通一个 demo，于是它暗示企业可以把质量体系交给 Agent。

每一步看起来都不离谱。但连起来就很离谱。

因为自动化测试要的不是"有时候看起来挺聪明"。自动化测试要的是重复、稳定、可解释、可回放。今天跑 100 次，99 次结果一致；失败了能定位到哪一层；误报率低到团队愿意相信它；成本低到能放进 CI 里天天跑。

AI 恰好反过来。它每次都像在重新理解世界。上下文换一点，判断变一点；页面抖一下，结果变一点；需求没写清楚，它开始脑补；按钮文案改一下，它像新入职的同事一样重新适应。

测试系统最怕的，不是笨，而是不稳定。

一个笨脚本，只要稳定，就能创造价值。一个聪明 Agent，只要不稳定，就会制造噪音。工程团队不怕工具能力有限，怕的是它每次失败的方式都不一样。

脚本失败，通常会留下明确痕迹：selector 变了，接口挂了，数据不对，环境异常。修一次，下次就少一个坑。Agent 失败不一样。它可能是理解错了页面，可能是漏了一个业务规则，可能是上下文塞太多注意力飘了，可能是模型这次抽风，可能是 prompt 里某句话权重不对，也可能什么都没错，它只是这次做了一个和上次不一样的判断。

这类失败最要命。它不是 bug，它像情绪。工程系统能处理 bug，很难处理情绪。因为 bug 可以复现，情绪只能安抚。

Demo 里的 Agent 是员工，生产里的 Agent 是实习生

AI 自动化测试的 demo 通常很迷人。你给它一个登录页，它能自己输入账号密码；你让它检查购物车，它能一路点到 checkout；你给它一段需求，它能生成测试步骤。配上一句"未来 QA 只需要 review AI 生成的结果"，听起来很合理——这不就是人效提升吗？

但真实系统不是 demo。

真实系统有灰度环境，有脏数据，有权限隔离，有 A/B 实验，有弹窗，有风控，有 flaky network，有历史债，有埋在角落里的业务规则。更要命的是，真实系统每天都在变。

Agent 进来以后，第一件事不是测试，而是迷路。它不知道哪个账号有权限；不知道这个按钮为什么在某些用户下不展示；不知道错误 toast 是预期还是 bug；不知道页面慢是环境问题还是性能问题；不知道某个失败 case 到底该重跑、跳过、上报，还是找人。

于是团队开始给它补上下文。补账号体系，补环境说明，补页面结构，补业务规则，补异常处理，补 prompt，补 eval，补 tracing，补人工 review。补着补着，大家发现不对劲：

这玩意儿不是替人干活，这是多了一个永远需要解释世界、永远需要复核结果、永远不承担责任的实习生。

Agent 最大的问题不是不会做事，而是它不知道什么时候自己做错了。测试偏偏不能接受这个。因为测试不是写作文——写错了可以改。测试错了，会让团队误判质量。一个误报会浪费工程师时间，一个漏报会把 bug 放进生产，一个不稳定的测试系统，最后会被所有人无视。

更糟的是，团队会为了让 Agent 看起来能工作，反过来改造自己的工作流。本来一个 Playwright 脚本能解决的问题，现在要写 prompt；本来一个 mock server 能解决的问题，现在要给 Agent 解释数据状态；本来一个 assert 能解决的问题，现在要让模型判断"页面看起来是否正确"。

你以为你在自动化测试，其实你在自动化地伺候 AI。

A 社会把这叫"human-in-the-loop"。这词听起来很高级。但很多时候，它的真实意思是：AI 干不完的，你来兜底；AI 判断不准的，你来复核；AI 迷路的，你来导航；AI 搞砸的，你来解释。最后账单还是它的，责任还是你的。

企业真正买到的，是一张更贵的账单

过去买 SaaS，至少还有个确定性。买 Jira，流程被固化；买 GitHub，代码协作被固化；买 CI，构建和发布被固化。它们不一定让组织变聪明，但会把某些动作标准化。

AI 不一样。很多 AI 项目卖的不是确定性，而是可能性。

"它可能帮你省掉 50% QA。""它可能自动发现线上问题。""它可能让研发效率翻倍。"

注意，关键词是"可能"。这也是 A 社叙事最鸡贼的地方。说得太满，容易被打脸；说得太虚，没人买单。所以最好的话术，就是把所有结果都停在"可能"上——可能替代，可能提升，可能重构，可能颠覆。然后让企业用确定的钱，为不确定的未来买单。

于是 Token 费、平台费、集成费、咨询费、PoC 费、内部人力，全都算进去，账单飞起来。Dashboard 上，调用量很漂亮，Token burn rate 很性感，汇报里也终于有了 AI transformation。

可到了最后，真正能回答 ROI 的问题只有三个：这件事原来谁做？现在这个人少做了多少？省下来的时间有没有变成收入、利润，或者更强的组织能力？

大部分 AI 自动化测试项目死在第二个问题。人没少，脚本没少，review 没少，只是中间多了一个模型调用环节。

Token 不是生产力，Token 只是成本单位。把测试流程里每一步都接上 LLM，并不等于自动化。很多时候，它只是把原来便宜、确定、可控的工程问题，改造成了昂贵、不确定、难 debug 的 AI 问题。

以前脚本失败，工程师看日志。现在 Agent 失败，工程师先猜它为什么这么想。这叫把确定性债务换成认知债务。技术债至少能定位，认知债连边界都没有。所有问题最后都会变成一句话：再试试，再调调，再加点上下文，再换个模型，再买点额度。听起来像迭代，实际上像赌博。只不过赌场换了个名字，叫 AI transformation。

自动化测试的本质，从来不是"像人一样点页面"

很多人对自动化测试有个误解：以为它的目标是模拟人。所以 Agent 很有诱惑力——人会看页面，Agent 也会看；人会点按钮，Agent 也会点；人会判断结果对不对，Agent 好像也会。

A 社最喜欢的就是这个错觉。因为只要你相信测试是在"像人一样操作系统"，你就会自然相信一个更聪明的 Agent 可以替代人。

但测试的本质不是模拟人。测试的本质是把质量判断变成机器可执行的契约。

一个好的测试，不是"像人一样聪明"，而是把"什么叫对"写死。接口返回什么，状态怎么变化，数据库应该有什么，事件有没有发出，权限边界怎么生效，性能阈值是多少。这些东西越明确，测试越有价值。

AI 恰恰喜欢模糊。它擅长在模糊里给出一个看似合理的答案。但测试要做的是消灭模糊。这就是根本冲突。

你可以让 AI 辅助写测试，帮你生成 skeleton，帮你补边界 case，帮你解释失败原因，帮你从日志里聚类问题。这些都很有价值。但你不能指望 AI 替你决定系统是不是对的。因为"对"不是模型涌现出来的，"对"来自业务规则，来自接口契约，来自工程师和 QA 对系统的共同理解。

测试不是让机器自由发挥，测试是不给机器自由发挥。越关键的系统，越不能靠感觉。支付不能靠感觉，权限不能靠感觉，账务不能靠感觉，发布不能靠感觉。

这也是为什么很多 AI 测试项目最后都会回到 Playwright、Cypress、JUnit、pytest、mock、fixture、CI、coverage、contract test 这些老东西上。不是因为这些东西性感，是因为它们可靠。工程世界里，可靠经常比聪明值钱。

最贵的不是账单，是优先级被带偏

花上百万美元验证 AI 不适合接管自动化测试，账单当然肉疼。但更贵的是优先级被带偏。

这件事不能简单归因到老板不懂技术，也不能简单归因到团队执行不行。更准确地说，是 A 社们在过去两年制造了一种错觉：只要模型继续变强，很多基础工程就可以跳过去。

于是该补测试基础设施的时候，大家会先想能不能买 Agent；该清理测试数据的时候，大家会先想能不能调 prompt；该建设稳定环境的时候，大家会先想能不能用多模态理解页面；该定义质量标准的时候，大家会先想能不能让模型自己判断。

这就像地基没打好，先研究智能装修。不是装修没价值，是房子会塌。

AI 项目失败以后，组织也很容易把原因归到"模型还不够强"。这句话最省事，因为它把问题推给未来。今年模型不够强，明年再试；明年上下文不够长，后年再试；后年 Agent 不够稳定，再等等。

这套逻辑对谁最有利？当然是 A 社。因为每一次失败，都不会证明它的叙事有问题，只会证明你还应该买下一代模型。当前模型不够强？升级。上下文不够长？升级。工具调用不够稳？升级。成本太高？等下一代。效果不好？再做一轮 PoC。

你看，所有路都通向账单。

AI 能放大工程能力，但不能替代工程能力。 一个没有稳定测试体系的团队，上 AI 只会更乱。一个没有清晰质量标准的组织，上 Agent 只会更贵。AI 不会自动补齐组织缺的那一课，它只会把缺口照得更亮。

真正有用的 AI 测试，不长得像 demo

不是说 AI 在测试里没用。恰恰相反，AI 很有用。但它最有用的地方，不是替你端到端接管测试，而是嵌进已有工程体系里，做那些低风险、高重复、可验证的事。

比如从代码 diff 里推荐需要补的测试；比如根据接口 schema 生成边界 case；比如分析 flaky test 的失败模式；比如把线上错误日志聚类，归因到可能的模块；比如帮 QA 把自然语言场景转成 Playwright skeleton；比如在 PR 里提醒：你改了权限判断，但没有补对应测试。

这些场景有个共同点：AI 不负责最终判断。它负责提案，人负责确认；它负责生成，脚本负责验证；它负责解释，工程系统负责裁决。

AI 最适合做副驾驶，不适合做安全带。 安全带必须确定，副驾驶可以聪明。这两个位置不能搞反。

如果一个 AI 测试工具的价值主张是"让你不用写测试"，那大概率是坑。如果它的价值主张是"让你更快写出可靠测试"，那才可能有戏。前者在卖幻想，后者在卖工具。

A 社当然更喜欢卖前者。因为幻想的 TAM 最大。卖"帮你更快写 Playwright 脚本"，听起来只是一个工具；卖"未来测试团队会被 Agent 重写"，听起来才像下一代平台。资本市场爱听后者，老板汇报爱听后者，媒体标题爱听后者。只是最后落到团队手里，前者能省时间，后者会烧预算。

这场实验真正证明了什么

从结果看，上百万美元买来的结论很简单：AI 不能独立接管自动化测试。

但这不是全部。它还证明了几件更难听的事。

它证明了很多企业没有能力区分 demo 和生产力。它证明了很多人分不清"模型能做一次"和"系统能长期稳定运行"。它证明了很多 AI 项目的 ROI，从第一天开始就没人敢认真算。它也证明了，在叙事足够热的时候，工程常识会被暂时打成保守。

一个月前，那个说"AI 不可靠"的人，可能还在被质疑。一个月后，账单证明他是对的。这件事听起来爽吗？不爽。因为组织已经付过学费了。

真正成熟的组织，不应该靠上百万美元的账单来证明常识。它应该允许团队在项目开始前，就把难听的话说完。它应该允许有人问：这个 Agent 失败了谁负责？这个结果怎么验证？这个流程省掉了哪个人？这个系统如何进入 CI？这个方案跟现有脚本相比，成本低在哪里？

如果这些问题问不清楚，项目就不该立项。不是因为反 AI，是因为尊重钱。

A 社不会替你问这些问题，它的销售也不会。它们最希望你问的是："什么时候接入？""要买多少额度？""能不能支持我们的场景？"但企业真正该问的是："如果这个东西失败了，我们能不能解释为什么？"很多 AI 项目回答不了这个问题。回答不了，就不是工程系统，只是一个昂贵的愿望机。

A 社画的饼，正在变成企业的账单

过去两年，AI 公司讲了一个很漂亮的故事：Agent 会接管白领工作，软件会自己写自己，测试会自己跑自己。企业只要接入模型，就能获得一支不会睡觉、无限扩容、随叫随到的数字员工队伍。

这个故事太诱人了，诱人到很多人忘了问一句：它到底替我们省了什么？

如果一个 AI 项目花了上百万美元，最后只是证明"测试还得靠人、靠自动化脚本"，那它当然也有价值——它完成了一次昂贵的组织教育。它告诉老板，AI 不是魔法；告诉团队，工程纪律不会过时；告诉财务，Token burn 不等于 transformation；告诉所有人，demo 里的未来不能直接折现成生产力。

只是这个学费太贵了。

真正的问题不是 A 社有没有能力。A 社当然有能力。问题是它把能力边界讲得太轻，把落地成本讲得太少，把未来收益讲得太满。它把 demo 里的顺滑，包装成生产里的必然；把模型偶尔展现出的聪明，包装成组织可以采购的生产力；把企业对降本增效的焦虑，包装成一张张越来越厚的 Token 账单。

销售当然会画饼，创业公司当然会讲未来，模型公司当然希望你相信"下一代会解决一切"。问题是企业为什么这么容易相信？因为"AI 替代人"这个故事，比"回去把自动化测试体系补好"性感太多。前者像未来，后者像苦活。

可软件工程大部分有价值的东西，本来就是苦活。写脚本是苦活，补 case 是苦活，清数据是苦活，稳定 CI 是苦活，定义质量标准是苦活。这些东西不会因为 Agent 出现就消失，它们只会换一种方式回来找你要账。

有些账，可以付给工程师；有些账，可以付给 QA；有些账，可以付给基础设施；也可以付给模型公司。区别在于，前三种账付完以后，组织会长出能力。最后一种账付完以后，通常只会长出下一张账单。

下一次有人拿着 AI 自动化测试 demo 走进会议室，先问一句：

这个东西到底是在替我们提高质量，还是只是在替 A 社提高收入？