研究资源与论文导航
快速索引,帮助追踪 Agent RL、LLM 优化、以及工程框架的最新进展。
Agent RL 论文地图
第一梯队:系统化框架(2024-2025)
| 框架 | 核心贡献 | 链接 | 适用 |
|---|---|---|---|
| AgentRL | 系统 benchmark + 完整框架 | https://github.com/THUDM/AgentRL | 学术/工业 |
| veRL | 分布式 RL 训练框架 | https://github.com/volcengine/verl | 大规模训练 |
| ROLL | 在线 RL with memory | https://github.com/alibaba/ROLL | 实时反馈 |
| SkyRL | 高效推理优化 | https://sky.cs.berkeley.edu/project/skyrl/ | 资源受限 |
第二梯队:创新方法
检索增强 Agent
- RAGEN (2024): https://arxiv.org/abs/2504.20073
- RAGEN-2 (2026): https://arxiv.org/abs/2604.06268
- MUA-RL (2025): https://arxiv.org/abs/2508.18669
推理与规划
- Agent-R1 (推理优化): https://arxiv.org/abs/2511.14460 | https://github.com/AgentR1/Agent-R1
- UGST (目标对齐): https://arxiv.org/abs/2507.20152
- Goal Alignment: https://arxiv.org/abs/2507.20152
评估与基准
- AgentGym-RL: https://arxiv.org/abs/2509.08755 | https://AgentGym-RL.github.io
- τ2-bench: https://arxiv.org/abs/2506.07982
- ColBench (对话基准): https://arxiv.org/abs/2503.15478
经验蒸馏 & 记忆
- SkillRL (经验→技能): https://arxiv.org/abs/2511.14460
- Persona Simulator: https://arxiv.org/abs/2511.00222
第三梯队:特定问题解决
多轮对话的奖励设计
- Turn-Level Rewards: https://arxiv.org/abs/2505.11821
- SWEET-RL: https://arxiv.org/abs/2503.15478
交互环境
- SimulatorArena: https://arxiv.org/abs/2510.05444
- LOOP (长horizon): https://arxiv.org/abs/2502.01600
- SAGE: https://arxiv.org/abs/2510.11997
工程优化
- ProRL Agent: https://arxiv.org/abs/2603.18815
- TSR: https://arxiv.org/abs/2602.11767
我的笔记链接
核心概念
系统设计案例
推荐阅读顺序
新手入门(1-2 周)
- Read: SkillRL (理解经验蒸馏的思想)
- Run: AgentRL 的 demo
- Read: 我的 Agent-RL 笔记
进阶(3-4 周)
- Read: RAGEN 系列(检索 + agent)
- Understand: veRL 框架(分布式训练)
- Read: 智能汽车问答系统(实战案例)
深度研究(1-2 月)
- Implement: 复现 GRPO / DAPO
- Read: Agent-R1 (推理优化)
- Design: 自己的 Agent RL 系统
常用工具链
| 工具 | 用途 | 文档 |
|---|---|---|
| Hugging Face | 模型+数据集 | https://huggingface.co |
| Papers with Code | 论文代码导航 | https://paperswithcode.com |
| Arxiv Daily | 最新论文 | https://arxiv.org |
| GitHub Collections | 精选代码 | https://github.com |
相关技术栈
LLM 推理框架
- vLLM:快速推理
- TensorRT-LLM:优化推理
- SGLang:结构化生成
RL 训练框架
- veRL:分布式 RL
- TRL (Hugging Face):轻量级 RL
- DeepRLHF:强化学习基础
数据 & 评估
- LLM-as-Judge:自动评估
- MTEB:多任务文本嵌入基准
- ArenaLLM:对话评估
面试重点速查
问题:How do you optimize Agent RL training? 答题框架:
- Explain bottlenecks (rollout > forward > backward)
- Mention veRL / GRPO / DAPO
- Compare with supervised learning
- Give specific metrics
问题:What’s the difference between RAGEN and traditional RAG? 答题框架:
- Traditional: retrieve → generate
- RAGEN: agent decides what to retrieve
- Advantage: dynamic retrieval planning
- Metric improvement: accuracy +X%