星宸资讯

如何让智能体进行复杂推理与工具调用？传统方法主要有两类：训练单一的大语言模型，使其同时承担思考与工具调用的任务；要么依赖静态提示词驱动的 training-free 智能体系统。

然而，前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定，缺乏可扩展性（scalability）；后者则缺少学习与适应能力，难以应对复杂场景。

为此，斯坦福大学联合德州农工大学（Texas A&M）、加州大学圣地亚哥分校（UC San Diego）和 Lambda 的研究团队提出了 AgentFlow 框架，通过多个独立 Agent 模块协作，并且提出 Flow-GRPO 算法用于训练。在评测中，AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升，即便是 3B 模型，也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

该方法创新性地将智能体协作推理与强化学习融为一体，提出流中强化学习机制，让智能体系统在推理流中协同演化，形成「动态共振」效应。使其在长期规划能力、工具调用效率和动态推理深度上实现大幅提升，并在搜索、数学、科学及智能体任务等多个领域展现优秀的泛化能力。

项目主页：https://agentflow.stanford.edu/
论文链接：https://huggingface.co/papers/2510.05592
开源代码：https://github.com/lupantech/AgentFlow
开源模型：https://huggingface.co/AgentFlow
在线 Demo：https://huggingface.co/spaces/AgentFlow/agentflow
YouTube 视频：https://www.youtube.com/watch?v=kIQbCQIH1SI

该工作目前不仅在X 上收获了超高的关注度，同时荣登Huggingface Paper 日榜第二名！

https://x.com/lupantech/status/1976016000345919803

https://huggingface.co/papers/date/2025-10-08

研究动机：

从「单兵作战」到「团队协作」

目前，让语言模型学会使用工具进行复杂任务推理主要有两种思路：一种是训练一个「全能型」模型，让它既要思考又要调用工具，所有操作都在一个完整的上下文中交织进行；另一种是采用「智能体系统」，将任务分解给多个专门化的智能体模块协同完成。

第一种方法在简单场景中表现良好，但在面对长链推理、多样化工具调用以及动态环境反馈时，训练过程往往不稳定，难以实现良好的可扩展性。第二种方法虽然具备更高的灵活性，但多数系统依赖人工设计的提示词与逻辑，缺乏从经验中自我学习与优化的能力。

这使得研究团队思考：能否让智能体系统也具备「边做边学」的能力，使其能够在交互中不断进化？

AgentFlow：

在流中学习的智能体系统

为了解决以上挑战，研究团队提出了AgentFlow—— 一个可训练的、工具集成的智能体系统，旨在突破现有方法在可扩展性与泛化能力上的限制。AgentFlow 采用了模块化的智能体结构，由四个具备记忆能力的专门化智能体协同配合，共同完成复杂推理，从而实现「即时学习」：

规划器（Action Planner）：分析任务、制定策略并选择最合适的工具
执行器（Tool Executor）：调用工具集并整合工具执行结果
验证器（Verifier）：基于系统维护的累积记忆评估中间结果是否满足目标与约束
生成器（Generator）：整合所有信息与验证反馈，生成最终答案或行动建议

AgentFlow 的关键创新在于：规划器（Planner）并非固定不变，而是能够在智能体交互的「流」（flow）中实时进行 on-policy 优化，使决策过程随着环境变化及其他智能体的反馈不断自适应进化。通过这一机制，各模块在推理流中协同演化，使整个智能体系统在复杂环境下实现自适应推理（adaptive reasoning）与鲁棒工具调用（robust tool-calling）

Flow-GRPO：

流中强化学习优化算法

实现智能体流中强化学习训练的核心挑战在于多轮信用分配（multi-turn credit assignment）：即如何在长时跨度（long-horizon）奖励稀疏（sparse reward）的条件下，稳定且高效地训练。为此团队提出动作级别的（Action Level）的多轮推理优化目标：

通过将轨迹最终结果的成功或失败信号（outcome reward）广播至每一步，将原本复杂的多轮强化学习问题转化为一系列可处理的单轮策略更新。该方法不仅缓解了奖励稀疏问题，还显著提升了训练效率，为智能体在复杂多轮推理中的稳定学习提供了基础。

实验结果：

AgentFlow 全面基准测试

为了充分评估 AgentFlow 的泛化能力与高效性，研究团队在 10 个跨各个领域的基准测试上进行了系统评测，涵盖知识检索、智能体任务、数学推理和科学推理四大类。以 Qwen-2.5-7B-Instruct 为基座模型的 AgentFlow 在各项基准上均超越现有领先方法：

知识检索（Search）：提升 +14.9%
智能体推理（Agentic Reasoning）：提升 +14.0%
数学推理（Math）：提升 +14.5%
科学推理（Science）：提升 +4.1%

值得注意的是，AgentFlow 的表现甚至超过了大规模的专有模型，如 GPT-4o（~200B）。

实验发现：

小模型的「大智慧」

研究团队在 10 个基准测试上进行了评估，涵盖知识检索、智能体任务、数学推理和科学推理四大类。一些有趣的发现：

模型规模不是唯一答案

使用 7B 参数的 AgentFlow 在多个任务上超过了约 200B 参数的 GPT-4o，Llama3.1-405B，在搜索任务上领先 8.2%，在智能体任务上领先 15.8%。这再一次展现了，合理的系统设计和训练方法可能比单纯堆砌参数训练 All in one 的大模型更有效。

「在流中学习」至关重要

对比实验显示，若采用离线监督学习（SFT）方式训练规划器，性能反而显著下降，平均降低 19%。这表明，智能体在真实交互环境「流」中进行在线学习是实现高效推理的必要条件。此外，尽管 AgentFlow 的推理流本身能够利用其强大的任务分解能力带来显著性能提升，但仍可能出现循环错误或卡顿问题。通过在真实环境中的训练，智能体系统展现出快速修正错误的工具调用、更精细的子任务规划，以及全局任务解决性能的提升。

这些结果进一步证明了模块协作机制以及流中强化学习在提升多轮智能体系统稳定性与效率方面的显著作用。

自主发现新的解决路径

有意思的是，经过 Flow-GRPO 的强化训练规划器，系统学会了根据任务特点选择合适的工具组合；同时，经过训练的系统会自发探索出新的工具使用模式，比如组合使用维基百科搜索（Wikipedia Search）和特定网页增强搜索（Web Search）的连招，通过工具链获得更加深入地信息挖掘，而这些模式几乎没有在未训练的推理流中出现。

动态推理深度与性能提升

对于相同的数据集下的不同难度任务：譬如说多跳搜索（Multihop Search），智能体任务中的密集长链推理任务，AgentFlow 在经过 Flow-GRPO 训练后能够随着最大限制推理步数的上升稳步提升性能，同时又不会大幅提升平均推理步数——这表示对于长难任务会增加有效的推理步数来提升正确率，而不会一味地所有任务都随着最大轮数限制而延长推理步数。

结语

AgentFlow 为智能体训练提供了一种全新的思路：与其追求一个功能完备的单一大语言模型或「一次性完美」的智能体系统，不如让智能体在系统中自我适应与持续学习。通过将群体智能与「边做边学」的范式相结合，AgentFlow 使智能体系统能够在协同演化中不断优化，从而高效应对复杂任务。

尽管从研究探索到实际应用仍有较长的距离，但这样的工作让我们看到：Agentic AI 依然蕴藏着巨大的潜力与想象空间。

智能体系统如何「边做边学」？斯坦福团队探索在线优化的新范式

美最新两种无...

美防长住进I...

限时补贴价2...

追梦：去年休...

李凯尔：我是...

阴雨天气频繁...

新中式，才是属于我们的时尚与生活

避雷手册丨开局生猛！申万菱信乐道2026年8个交易日盈利44%

推广 || 断舍离N次也不会断了它，买过最值的冬日单品之一

东风本田10月销量28896台 1-10月累计终端销量255073台

杰伦-格林近5战场均30.4分7板3.8助三项命中率51/36/94%

寻找AI无法替代的最后一公里丨去现场做原创

一个镜头性张力拉满，他重新定义男神

别羡慕自由职业者了

张彬彬红毯帮毛晓彤提裙子，被导演打手

售出39000台小米汽车公布2026年1月销量

全明星正赛东部大胜西部：唐斯50分利拉德39+6首夺MVP 引名嘴吐槽

丹麦国防部称格陵兰岛军事演习将持续到年底

蚂蚁集团首席执行官韩歆毅：以“数智普惠”惠及每一位老百姓

冲破十万大关的乐道，能否成为蔚来的“翻身之牌”？

13年来A股最大IPO，之前IPO被终止，今年可以顺利上市？值得关注

周冬雨不穿内衣真空露面胸部平坦被嘲“背对观众”

一边收监管“黄牌”，一边夺A股成交额冠军！北方稀土股价新高背后，关联交易存隐忧

陈行甲已到新东方报到！此前俞敏洪宣布年薪150万聘请其为总顾问，并称加入恒晖基金会

时尚守艺人 | 以木为纸，雕出万千世界

白色灵动岛：消息称努比亚手机也将“上岛”，可自行选择开关

凯斯因病退赛，小米辣放弃泼天富贵，压力娃登场即可稳拿百万巨奖

环球：董军在＂香会＂最后一天演讲主办方安排有深意

“罗小黑”热度不减中文在线尚未跑通IP

千禾味业董事及高管计划减持合计48.41万股股份