Serenity,瓶颈猎人
如果你最近刷 X 或中文投资圈,应该已经见过 Serenity 这个名字。白发头像,半导体供应链,冷门小盘股,动不动几百 percent 的收益截图,还有一堆人把他称为“AI 供应链侦探”“瓶颈猎人”“白毛女股神”。如果你没见过,也没关系。你只需要知道一件事:这是一个靠研究 AI 基础设施最上游瓶颈,在短时间内被市场封神的人。
如果你最近刷 X 或中文投资圈,应该已经见过 Serenity 这个名字。白发头像,半导体供应链,冷门小盘股,动不动几百 percent 的收益截图,还有一堆人把他称为“AI 供应链侦探”“瓶颈猎人”“白毛女股神”。如果你没见过,也没关系。你只需要知道一件事:这是一个靠研究 AI 基础设施最上游瓶颈,在短时间内被市场封神的人。
这几个月,很多工程师还沉浸在 Agentic Coding 的兴奋里。它是真的有用:读 repo、改代码、跑测试、解释错误、做 migration、清理技术债,过去很多懒得动的活,现在终于可以动了。
AI 现在有点像鸡肋:不用不行,用了看到账单又肉疼。
但真正危险的不是贵,而是它越有用,大家越会用;大家越用,账单越不像工具费,越像税。这才是上一篇《Wintel 时代结束了》没说完的部分。
过去两天,几家巨头几乎同时发了一句话:"A new era of PC." NVIDIA 发了。Windows 发了。Arm 也跟了。后面还带着一串坐标,指向台北。科技公司天天喊新时代,这没什么稀奇。稀奇的是,它们很少一起喊。更稀奇的是,这一次大家都在谈 PC。
一个被 mobile 抢走十几年光环的老东西,突然又回到了牌桌中央。
这几天美股软件板块很热闹。
Snowflake 财报一出,市场像突然松了一口气。不是那种“AI 要颠覆一切”的亢奋,而是另一种更现实的情绪:原来 SaaS 还没死,原来软件公司还能在 AI 时代继续增长,原来投资人还愿意为确定的收入、利润率和现金流买单。
过去半年,SaaS 股一直被一个问题压着:如果 AI 能直接完成工作,传统软件还有没有价值?更狠一点说,如果 Agent 变成新的入口,SaaS 会不会从操作系统退化成数据库?Snowflake 这次给市场续了一口命。Product revenue 继续高增长,全年指引上调,AI 需求没有把它的商业模型拖垮,反而让市场重新相信 data infrastructure 仍然是 AI 时代的核心资产。
老板问:"我们 AI 自动化测试做得怎么样了?"会议室里没人说话。一个月前,有人提醒过:AI 不可靠,自动化测试不能这么搞,测试系统最怕的不是不会做,而是不稳定。但那个时候,这句话听起来很像借口——站在老板的位置,也很难判断,到底是 AI 不可靠,还是你人不行?
最近有篇论文,标题很炸:Useful Memories Become Faulty When Continuously Updated by LLMs。
翻译成人话就是:LLM Agent 的长期记忆,不是越更新越聪明,而是可能越更新越蠢。
论文里有个实验很刺眼:GPT-5.4 原本能 100% 解出一组 ARC-AGI 题。研究人员给它正确答案,让它把成功经验总结成长期记忆。连续更新 10 轮之后,准确率掉到 52.6%。它不是"没学会",而是"本来会,被自己的记忆教坏了"。
很多神话故事里,转世都要过奈何桥,喝孟婆汤。以前看这类设定,总觉得它只是为了制造戏剧冲突:忘了前世,才有今生的爱恨情仇。现在再看,反而像一种系统设计。前世记忆不是外挂,很多时候是污染源。那些经验是在上一组约束里长出来的——上一具身体、上一套关系、上一种秩序、上一轮恐惧和欲望。换了环境,还把它们当成真理带进来,不是开局优势,而是路径依赖。长期记忆最危险的地方,不是忘记,而是把一个过早的抽象硬编码进未来。
最近我看到一个很有意思的现象。
有人给 Agent 加了一堆 SKILL,接上各种 Knowledge base,工作流满天飞,prompt 里塞满了注意事项、反例、few-shot,然后很认真地说:我们现在也在做 harness engineering。
我的第一反应是:这连门儿都还没摸着,离真正的 Harness Engineering 还远着呢。
SKILL、KB、structured prompt 当然有价值。它们能让模型更懂上下文,更容易按你的预期行动,也能显著降低低级错误。但如果你把这些东西叫 harness,那就把整件事想浅了。
KB/SKILL 不是 harness,它们最多只是 harness 的输入约束层。
很多人以为,让 Agent 理解代码,就是给它更多源码:更大的 context window,更好的 embedding,更聪明的 RAG,更细的 AST index。我以前也差点信了。
直到我让 Agent 清理 AB 实验代码:它很快扫出一堆调用点,然后说“清完了”。真正的问题不是 Agent 能不能读代码,而是我怎么证明它没有漏掉第 201 个调用点。对 Agent 来说,context 不应该只是源码文本;Code 本身就应该成为 Agent 可以查询、验证、推理的上下文。 Graphite 就是为这个问题做的。
五一假期,从首尔飞上海,距离上一次踏上这片土地,整整十二年。
到了酒店,把孩子们安顿好,晚上带夫人去了 The Stage 玉兰观景台,三百多米的高度,俯瞰整个陆家嘴和黄浦江。出舱门的那一刻,满地的灯光像潮水一样在脚下铺开。
回想起十二年前,我也曾在这片土地上。只不过那时候,我是站在江对面,仰望着这边的塔尖。
最近 Agent 写的代码,review 时要改的东西越来越多。硬编码、魔法数字、抛异常时不给用户友好提示、catch 了又吞掉、内存悄悄上涨、循环里塞着循环——以前偶尔出现,现在几乎每个 PR 都能看到。
Agent 写代码快,但快得没有 engineering excellence。