AI 第二幕:为什么现在必须押宝 Agent

AIAgent大模型智能体AGI

图01: 罗福莉 图01: 罗福莉

最近我花了一个半小时,一口气把一个 3.5 小时专访的全文稿读完了。

受访者叫罗福莉——福气的福,茉莉的莉。你可能没听过她的名字,但她参与开发的模型你一定听过:DeepSeek V2 和 V3,那两个把整个 AI 行业搅得天翻地覆的开源模型,她是最核心的研究人员之一。去年她离开 DeepSeek,加入小米,带着一个不到 100 人的团队,在半年内做出了 MiniMo 系列——目前行业评测里排名靠前的一批模型。

这类人在中国 AI 领域属于金字塔尖。她能看到的东西,和我们大多数人能看到的,不在同一个层次。所以当她在这个访谈里说出某些判断的时候,我觉得值得认真对待。

今天这篇文章,就是我从这个访谈里提炼出来的几个核心判断。结论我先说——AI 已经进入第二幕,主角换了,规则也换了。如果你还在用第一幕的眼光看这件事,可能已经在走弯路了。

AI 的第一幕结束了

从 2022 年底 ChatGPT 发布,到 2025 年——这三年,AI 竞争的主线是什么?说白了,就是让模型更会"说话"。谁的问答更流畅,谁的推理更准确,谁的知识面更广。我们评估一个模型好不好,看的是它能不能回答你的问题。

这是第一幕。罗福莉说了一句话:

"之前讲的 Agent,在我的定义里都算不上真正的 Agent,只能算是上下文比较复杂一点点的东西。"

她的意思是,那些所谓的 Agent,本质上只是包了更复杂 System Prompt 的聊天机器人。真正的 Agent 时代,从 2026 年开始。

第一,算力配比变了。 过去训练一个大模型,预训练和后训练的算力投入大概是 5:1,甚至更悬殊——大部分资源都在预训练阶段。现在顶尖团队的配比已经到了 1:1。后训练的重要性,被拉升到和预训练同等的位置。这不是微调,这是整个训练范式的调整。

第二,上下文需求变了。 日常对话用 256K 的上下文窗口已经非常宽裕。但跑 Agent 任务不一样——一个长程任务、多步骤执行、跨越几十轮对话的工作流,需要的是 1M 甚至 10M 级别的上下文窗口。这不是量变,是用法的根本改变。

第三,训练数据来源变了。 Chat 时代的训练数据主要靠互联网文本和人工标注。但 Agent 时代需要的是"高质量的长程任务执行数据"——人在实际操作中怎么分解任务、怎么处理中间错误、怎么跨多步完成复杂工作——这类数据,只有通过 Agent 本身在真实场景里跑出来才能获得。

为什么这次加速是真实的

"Agent 元年"已经喊了好几年了,每次都说这次不一样——凭什么相信这次真的不一样?

罗福莉自己也有过一段时间的怀疑。她说 1 月份第一次看到 OpenClaw,以为就是"Claude Code 加了个更好看的 UI",非常排斥。然后春节,她在家装上了它。

从凌晨两点开始用,一直到天亮,睡不着。第一天感受到它的"自主性"——它会记得提醒你去睡觉,这种细节。第二天,她开始把团队管理上的问题交给它讨论,发现深入程度出乎意料。第三天,她把一个研究任务交给它做——怎么构建一个好的 User Agent,用于 Agent 框架的多轮交互训练。

她以为这件事至少要一两周。结果一两个小时之后,一个可用的 User Agent 就出来了。

她后来复盘说:以前验证一个研究想法,从想到、到写代码、到设计评估,最快也要一两天,慢的一两周。现在一两个小时就能做完。 研究效率被大幅压缩,不是 30%、50%,是数量级的变化。

这背后是一个飞轮:Agent 跑得好,就会产出更多高质量的长程任务数据。数据喂进去,模型更强。模型更强,Agent 跑得更好。这个循环一旦转起来,很难停。

还有一个信号值得注意。我问过很多人"你觉得 AGI 还要多久",大部分人给的是一个模糊的"好几年"。罗福莉两个月前的判断是"两年以上"。这次访谈,她改了:"我感觉两年内应该能实现。"

这是她自己在训模型的人说的。不是分析师,不是媒体,是每天在做这件事的人,而且她的判断在缩短。

最后,她对这次加速的描述和之前每次的感受不一样:

"R1 可能就是那一阵……那一刻过后,你没有感觉它有持续性。但 Agent 这件事上,你会觉得它一直在持续。这种持续性是完全不一样的感受。"

过去每一次 AI 大事件,都有一个高峰,然后回落到常态。但这次不一样——它没有停下来的迹象。

全新起跑线,对我们意味着什么

Agent 时代有一个结构性变化,是很多人没有意识到的:所有模型公司重新站回了同一起跑线。

第一幕积累的那些优势——谁的预训练数据更多、谁的参数量更大、谁的评测分更高——在第二幕的语境下,没有意义了。现在的核心竞争力是:谁能更快地产出高质量的 Agent 长程任务数据,谁的后训练迭代速度更快。

Claude(Anthropic)已经在这条路上走了至少两年,领先。但国内顶尖团队——罗福莉判断——代差大概只有 2-3 个月。而且这个代差在缩小。

这个"重新起跑"对我们普通用户意味着什么?

罗福莉在访谈里提到了一件事,我觉得对我们很有参考价值。她们把自己一个只有 3B 参数的端侧小模型,接进了 OpenClaw 这套复杂的 Agent 框架里。按常识,3B 参数的模型能做什么?通常大家会觉得能力很有限。结果她发现,它能完成以前完全想不到的任务。

这才是对我们最有用的那个信号——框架的价值,不输于模型本身。你不需要等更好的模型,你需要的是更好地用现有的框架。

第一幕,人和人的差距在于用没用上好模型、会不会写提示词。这些优势浅,会被快速拉平。第二幕拼的是别的东西——你有没有一套成熟的 Agent 工作流。

这是不容易被快速复制的东西。因为工作流不是看会的,是跑出来的——你要在真实任务里踩坑、调整、沉淀,它才会变成你的东西。而这个过程,本身就在产生数据,在强化这套工作流。这就是个人层面的飞轮。

停止追热点,深耕一个工作流

过去一段时间,我一直在跟着热点走——OpenClaw 出来了,试一下;新模型发布了,对比一下;新功能上线了,体验一下。每件事都试一点,但没有一件事跑深过。

这是第一幕的思维惯性。在第一幕,追热点是有价值的,因为每次迭代都是对话体验的提升,你多试就多懂。但在第二幕,模型迭代的速度会越来越快,你追不完。而且追热点的边际收益越来越低。

真正值得做的事,只有一件:选一个你日常重复最多的工作任务,用 Agent 把它跑通,然后持续优化这个工作流。

不需要很宏大。你的工作流可以只是"每天早上整理 5 条行业新闻并给出判断",也可以是"把客户需求转化成产品规格文档",也可以是"自动生成每周汇报初稿"。任何一个真实的、重复的任务,都可以是起点。

用 Claude Code 或者 OpenClaw,把这个任务的流程跑通,记录下来哪里顺、哪里卡,逐步改进。两个月之后,你会发现这个工作流的完成度和稳定性,已经远超你最初的预期。

罗福莉在访谈最后说了一句话,是她自己的心法。她说现在的信息来源,基本上就是"自己跟自己交流,跟团队里做同样实验的人交流"。她不再追论文,不再追热点。

"到了这个阶段,最有价值的知识不在互联网上,在于你自己做出来的东西。"

这句话放在 Agent 时代里,我理解为:看懂别人的 10 篇分析,不如自己跑通 1 个工作流。

AI 第二幕已经开始了。不是谁先看懂谁赢,是谁先跑通赢。