Token Efficiency 的出路在哪里?
想象一下这个场景:工程师把一次 Agent 任务从 10 万 Token 压到 4 万,仪表盘绿了六成。月底账单到了,云成本一分钱没少。公司租了 8 张 GPU,包月。模型少说了 6 万 Token,机器照样开着,合同照样付钱。
工程师优化出一大片空闲算力,财务却找不到一美元 Savings。Token Efficiency 的问题就这样暴露了:它从来不是一个孤立的技术指标,计费方式一变,财务含义就跟着变。
想象一下这个场景:工程师把一次 Agent 任务从 10 万 Token 压到 4 万,仪表盘绿了六成。月底账单到了,云成本一分钱没少。公司租了 8 张 GPU,包月。模型少说了 6 万 Token,机器照样开着,合同照样付钱。
工程师优化出一大片空闲算力,财务却找不到一美元 Savings。Token Efficiency 的问题就这样暴露了:它从来不是一个孤立的技术指标,计费方式一变,财务含义就跟着变。
前几天,国内一个朋友拿我开涮:“你们韩国现在是不是人均资产都翻了三倍?”他当然在开玩笑,但这个玩笑在韩国已经有了一整套民间叙事。
最出名的叫“传说中的海力士员工”。2008 年前后,公司里的人觉得买自家股票是疯了,他却拿 4,446 万韩元,以 7,800 韩元买下 5,700 股。如果一直没卖,到 2026 年 1 月已经值 41 亿韩元。
5 月底,Windows、NVIDIA 和 Arm 几乎同时喊出一句话:"A new era of PC." 我已经用两篇文章拆过这句话:《Wintel 时代结束了》讲 PC 为什么重新变成算力资产,《当 AI PC 成为新的风口,真正的机会在哪里?》讲 local runtime、context layer 和 cost-aware execution。
那两篇关心的是一台 PC 如何接住从云端下沉的智能。一周多后,苹果在 WWDC 2026 发布新一代 Siri AI,强调 personal context understanding、on-screen awareness、app actions 和 across apps,还把同一段对话接进 iPhone、iPad、Mac、Apple Watch 和 Vision Pro。
早上 9:35,你买了一张当天到期的 SPY 末日期权。理由很清楚:开盘强,成交量跟上,指数站上关键位。十分钟后,价格掉头,原来的突破失效。按进场计划,这时候该走了。可手指放到平仓按钮上,大脑突然开始工作:美国经济还行,AI Capex 还在增长,Microsoft 有定价权,长期看大盘总会回来。
于是,一笔计划持有十几分钟的交易,瞬间拥有了十年投资逻辑。再跌一点,你开始研究市场是不是错杀;反弹一点,又觉得 Soros 说得对,市场具有反身性。你下单时是 Livermore,亏损后变成 Buffett,扛不住时再请 Burry 出来证明市场有问题。
这不叫融会贯通,叫没有交易计划。
如果你最近刷 X 或中文投资圈,应该已经见过 Serenity 这个名字。白发头像,半导体供应链,冷门小盘股,动不动几百 percent 的收益截图,还有一堆人把他称为“AI 供应链侦探”“瓶颈猎人”“白毛女股神”。如果你没见过,也没关系。你只需要知道一件事:这是一个靠研究 AI 基础设施最上游瓶颈,在短时间内被市场封神的人。
这几个月,很多工程师还沉浸在 Agentic Coding 的兴奋里。它是真的有用:读 repo、改代码、跑测试、解释错误、做 migration、清理技术债,过去很多懒得动的活,现在终于可以动了。
AI 现在有点像鸡肋:不用不行,用了看到账单又肉疼。
但真正危险的不是贵,而是它越有用,大家越会用;大家越用,账单越不像工具费,越像税。这才是上一篇《Wintel 时代结束了》没说完的部分。
过去两天,几家巨头几乎同时发了一句话:"A new era of PC." NVIDIA 发了。Windows 发了。Arm 也跟了。后面还带着一串坐标,指向台北。科技公司天天喊新时代,这没什么稀奇。稀奇的是,它们很少一起喊。更稀奇的是,这一次大家都在谈 PC。
一个被 mobile 抢走十几年光环的老东西,突然又回到了牌桌中央。
这几天美股软件板块很热闹。
Snowflake 财报一出,市场像突然松了一口气。不是那种“AI 要颠覆一切”的亢奋,而是另一种更现实的情绪:原来 SaaS 还没死,原来软件公司还能在 AI 时代继续增长,原来投资人还愿意为确定的收入、利润率和现金流买单。
过去半年,SaaS 股一直被一个问题压着:如果 AI 能直接完成工作,传统软件还有没有价值?更狠一点说,如果 Agent 变成新的入口,SaaS 会不会从操作系统退化成数据库?Snowflake 这次给市场续了一口命。Product revenue 继续高增长,全年指引上调,AI 需求没有把它的商业模型拖垮,反而让市场重新相信 data infrastructure 仍然是 AI 时代的核心资产。
老板问:"我们 AI 自动化测试做得怎么样了?"会议室里没人说话。一个月前,有人提醒过:AI 不可靠,自动化测试不能这么搞,测试系统最怕的不是不会做,而是不稳定。但那个时候,这句话听起来很像借口——站在老板的位置,也很难判断,到底是 AI 不可靠,还是你人不行?
最近有篇论文,标题很炸:Useful Memories Become Faulty When Continuously Updated by LLMs。
翻译成人话就是:LLM Agent 的长期记忆,不是越更新越聪明,而是可能越更新越蠢。
论文里有个实验很刺眼:GPT-5.4 原本能 100% 解出一组 ARC-AGI 题。研究人员给它正确答案,让它把成功经验总结成长期记忆。连续更新 10 轮之后,准确率掉到 52.6%。它不是"没学会",而是"本来会,被自己的记忆教坏了"。
很多神话故事里,转世都要过奈何桥,喝孟婆汤。以前看这类设定,总觉得它只是为了制造戏剧冲突:忘了前世,才有今生的爱恨情仇。现在再看,反而像一种系统设计。前世记忆不是外挂,很多时候是污染源。那些经验是在上一组约束里长出来的——上一具身体、上一套关系、上一种秩序、上一轮恐惧和欲望。换了环境,还把它们当成真理带进来,不是开局优势,而是路径依赖。长期记忆最危险的地方,不是忘记,而是把一个过早的抽象硬编码进未来。