Agent RL 与多轮对话强化学习

相关理论文档：[RL 算法对比](../bd/Tech/Tech—RL 算法对比.md)、强化学习方法 相关实践文档：回复模型强化学习、[多轮对话 RL](../bd/work/多轮对话 RL.md)

这个领域在 2024-2026 年快速迭代，从早期的 Agent 探索进化到系统化的 RL 框架。

核心问题与演进方向

Agent 需要什么

长序列规划：在多步交互中做出最优决策
探索与利用平衡：不能只跟随已有数据
动态反馈：实时调整策略而非离线学习

从 Agent 到 RL 的转变

早期：Agent 主要是 “prompt + tool use” 的组合
当前：引入强化学习来优化路径选择和奖励信号

重要框架与技术

基础框架

框架	特点	适用场景
veRL	分布式 RL 框架	大规模模型训练
ROLL	在线 RL	实时反馈场景
SkyRL	高效计算	资源受限环保

关键论文梳理

2024-2025 Agent RL 热点

RAGEN / RAGEN-2（检索增强 Agent RL）
- 核心：将检索融入 Agent 的决策过程
- 特色：Turn-level rewards（每轮对话级别的奖励）
- Repo: https://github.com/RAGEN-AI/RAGEN
Agent-R1（推理优化的 Agent）
- 吸收了 OpenAI o1 的思想
- 强化学习中的长链条推理
- Repo: https://github.com/AgentR1/Agent-R1
AgentRL / AgentGym-RL（系统化 RL 训练）
- 清华开源的系统框架
- 包含多环境基准（ALFWorld、WebShop 等）
- Repo: https://github.com/THUDM/AgentRL
SkillRL（经验蒸馏的进化学习）
- 创新点：不存储原始轨迹，而是提炼为”技能”
- 成功轨迹 → 演示性技能
- 失败轨迹 → 反事实知识（包含失败原因和正确做法）
- 实现 10-20 倍的 token 压缩
多模态 Agent（视觉 + 推理）
- Persona Simulator RL：用模拟用户进行交互训练
- SimulatorArena：多 Agent 竞争环境

经验与教训

GRPO（Group Relative Policy Optimization）的性能

是当前多轮对话 RL 的标杆算法
相比纯 SFT：性能提升 10-30%
最耗时的阶段：rollout 采样（生成轨迹）和价值网络训练

DPO 与 DAPO 的对比

DPO：直接偏好优化，简单但有局限
DAPO（Dynamic APO）的创新：
- clip-higher：动态裁剪机制
- Dynamic Sampling：根据实时困难度调整采样策略
- Token 级别优势计算（不仅是序列级）

工程踩坑

veRL 框架为什么需要重新 forward 计算 log_probs？
- 答：因为在 rollout 后需要重新评估策略的概率分布
- 解决方案：使用 kv_cache 加速重复计算

推理优化 ≠ 训练优化

很多候选生说”用 DeepSpeed 优化”，但 RAGEN/Agent-RL 主要优化的是推理时的采样效率
真正的瓶颈：采样（rollout）> 前向传播 >> 反向传播

多轮对话评估的困境

奖励信号的问题

自动评估不可靠（LLM 评分偏差大）
人工标注成本高且不一致
解决思路：
- 使用 LLM-as-judge + 多数投票降低单一模型偏差
- Turn-level rewards 代替 trajectory-level rewards（更细粒度反馈）
- Process-based 奖励（评价推理过程，不仅是答案）

Agent 在长序列任务上的挑战

WebShop 任务：涉及多步决策和状态管理
SkillRL 在 WebShop 达到 72.7% 成功率（相比 GRPO 的 ~50%）
关键在于技能库的递归进化机制

当前趋势与未来方向

短期（2026 年预期）

多模态 Agent RL 普遍化（VL-LLM + 在线 RL）
开源框架成熟：veRL、AgentRL 等框架的广泛应用
混合 RL：DPO + PPO / GRPO 的最佳组合

长期方向

递归学习：Agent 自己生成训练数据（如 SkillRL 的技能库动态扩展）
跨任务泛化：通用技能库的构建
分布式推理：多 Agent 协作完成复杂任务

关键资源速查

论文

检索增强Agent: RAGEN, MUA-RL, UGST, SAGE
推理优化: Agent-R1, τ2-bench, AgentGym-RL
经验蒸馏: SkillRL, Goal Alignment
环境基准: ALFWorld, WebShop, ColBench

开源框架对比

veRL：最完整的分布式框架
AgentRL：最系统的基准+框架结合
ROLL：在线 RL 的轻量级选项

面试重点

GRPO vs DPO：各自的适用场景
Rollout 采样：为什么是 Agent RL 的瓶颈
技能库设计：如何权衡知识压缩和召回效率
奖励设计：多轮对话中的 reward hacking 防护

Quartz 4

Explorer

02-Agent-RL-与多轮对话