AI 第二幕：为什么现在必须押宝 Agent

图01: 罗福莉

最近我花了一个半小时，一口气把一个 3.5 小时专访的全文稿读完了。

受访者叫罗福莉——福气的福，茉莉的莉。你可能没听过她的名字，但她参与开发的模型你一定听过：DeepSeek V2 和 V3，那两个把整个 AI 行业搅得天翻地覆的开源模型，她是最核心的研究人员之一。去年她离开 DeepSeek，加入小米，带着一个不到 100 人的团队，在半年内做出了 MiniMo 系列——目前行业评测里排名靠前的一批模型。

这类人在中国 AI 领域属于金字塔尖。她能看到的东西，和我们大多数人能看到的，不在同一个层次。所以当她在这个访谈里说出某些判断的时候，我觉得值得认真对待。

今天这篇文章，就是我从这个访谈里提炼出来的几个核心判断。结论我先说——AI 已经进入第二幕，主角换了，规则也换了。如果你还在用第一幕的眼光看这件事，可能已经在走弯路了。

AI 的第一幕结束了

从 2022 年底 ChatGPT 发布，到 2025 年——这三年，AI 竞争的主线是什么？说白了，就是让模型更会"说话"。谁的问答更流畅，谁的推理更准确，谁的知识面更广。我们评估一个模型好不好，看的是它能不能回答你的问题。

这是第一幕。罗福莉说了一句话：

"之前讲的 Agent，在我的定义里都算不上真正的 Agent，只能算是上下文比较复杂一点点的东西。"

她的意思是，那些所谓的 Agent，本质上只是包了更复杂 System Prompt 的聊天机器人。真正的 Agent 时代，从 2026 年开始。

第一，算力配比变了。 过去训练一个大模型，预训练和后训练的算力投入大概是 5:1，甚至更悬殊——大部分资源都在预训练阶段。现在顶尖团队的配比已经到了 1:1。后训练的重要性，被拉升到和预训练同等的位置。这不是微调，这是整个训练范式的调整。

第二，上下文需求变了。 日常对话用 256K 的上下文窗口已经非常宽裕。但跑 Agent 任务不一样——一个长程任务、多步骤执行、跨越几十轮对话的工作流，需要的是 1M 甚至 10M 级别的上下文窗口。这不是量变，是用法的根本改变。

第三，训练数据来源变了。 Chat 时代的训练数据主要靠互联网文本和人工标注。但 Agent 时代需要的是"高质量的长程任务执行数据"——人在实际操作中怎么分解任务、怎么处理中间错误、怎么跨多步完成复杂工作——这类数据，只有通过 Agent 本身在真实场景里跑出来才能获得。

为什么这次加速是真实的

"Agent 元年"已经喊了好几年了，每次都说这次不一样——凭什么相信这次真的不一样？

罗福莉自己也有过一段时间的怀疑。她说 1 月份第一次看到 OpenClaw，以为就是"Claude Code 加了个更好看的 UI"，非常排斥。然后春节，她在家装上了它。

从凌晨两点开始用，一直到天亮，睡不着。第一天感受到它的"自主性"——它会记得提醒你去睡觉，这种细节。第二天，她开始把团队管理上的问题交给它讨论，发现深入程度出乎意料。第三天，她把一个研究任务交给它做——怎么构建一个好的 User Agent，用于 Agent 框架的多轮交互训练。

她以为这件事至少要一两周。结果一两个小时之后，一个可用的 User Agent 就出来了。

她后来复盘说：以前验证一个研究想法，从想到、到写代码、到设计评估，最快也要一两天，慢的一两周。现在一两个小时就能做完。 研究效率被大幅压缩，不是 30%、50%，是数量级的变化。

这背后是一个飞轮：Agent 跑得好，就会产出更多高质量的长程任务数据。数据喂进去，模型更强。模型更强，Agent 跑得更好。这个循环一旦转起来，很难停。

还有一个信号值得注意。我问过很多人"你觉得 AGI 还要多久"，大部分人给的是一个模糊的"好几年"。罗福莉两个月前的判断是"两年以上"。这次访谈，她改了："我感觉两年内应该能实现。"

这是她自己在训模型的人说的。不是分析师，不是媒体，是每天在做这件事的人，而且她的判断在缩短。

最后，她对这次加速的描述和之前每次的感受不一样：

"R1 可能就是那一阵……那一刻过后，你没有感觉它有持续性。但 Agent 这件事上，你会觉得它一直在持续。这种持续性是完全不一样的感受。"

过去每一次 AI 大事件，都有一个高峰，然后回落到常态。但这次不一样——它没有停下来的迹象。

全新起跑线，对我们意味着什么

Agent 时代有一个结构性变化，是很多人没有意识到的：所有模型公司重新站回了同一起跑线。

第一幕积累的那些优势——谁的预训练数据更多、谁的参数量更大、谁的评测分更高——在第二幕的语境下，没有意义了。现在的核心竞争力是：谁能更快地产出高质量的 Agent 长程任务数据，谁的后训练迭代速度更快。

Claude（Anthropic）已经在这条路上走了至少两年，领先。但国内顶尖团队——罗福莉判断——代差大概只有 2-3 个月。而且这个代差在缩小。

这个"重新起跑"对我们普通用户意味着什么？

罗福莉在访谈里提到了一件事，我觉得对我们很有参考价值。她们把自己一个只有 3B 参数的端侧小模型，接进了 OpenClaw 这套复杂的 Agent 框架里。按常识，3B 参数的模型能做什么？通常大家会觉得能力很有限。结果她发现，它能完成以前完全想不到的任务。

这才是对我们最有用的那个信号——框架的价值，不输于模型本身。你不需要等更好的模型，你需要的是更好地用现有的框架。

第一幕，人和人的差距在于用没用上好模型、会不会写提示词。这些优势浅，会被快速拉平。第二幕拼的是别的东西——你有没有一套成熟的 Agent 工作流。

这是不容易被快速复制的东西。因为工作流不是看会的，是跑出来的——你要在真实任务里踩坑、调整、沉淀，它才会变成你的东西。而这个过程，本身就在产生数据，在强化这套工作流。这就是个人层面的飞轮。

停止追热点，深耕一个工作流

过去一段时间，我一直在跟着热点走——OpenClaw 出来了，试一下；新模型发布了，对比一下；新功能上线了，体验一下。每件事都试一点，但没有一件事跑深过。

这是第一幕的思维惯性。在第一幕，追热点是有价值的，因为每次迭代都是对话体验的提升，你多试就多懂。但在第二幕，模型迭代的速度会越来越快，你追不完。而且追热点的边际收益越来越低。

真正值得做的事，只有一件：选一个你日常重复最多的工作任务，用 Agent 把它跑通，然后持续优化这个工作流。

不需要很宏大。你的工作流可以只是"每天早上整理 5 条行业新闻并给出判断"，也可以是"把客户需求转化成产品规格文档"，也可以是"自动生成每周汇报初稿"。任何一个真实的、重复的任务，都可以是起点。

用 Claude Code 或者 OpenClaw，把这个任务的流程跑通，记录下来哪里顺、哪里卡，逐步改进。两个月之后，你会发现这个工作流的完成度和稳定性，已经远超你最初的预期。

罗福莉在访谈最后说了一句话，是她自己的心法。她说现在的信息来源，基本上就是"自己跟自己交流，跟团队里做同样实验的人交流"。她不再追论文，不再追热点。

"到了这个阶段，最有价值的知识不在互联网上，在于你自己做出来的东西。"

这句话放在 Agent 时代里，我理解为：看懂别人的 10 篇分析，不如自己跑通 1 个工作流。

AI 第二幕已经开始了。不是谁先看懂谁赢，是谁先跑通赢。