研究资源与论文导航

快速索引，帮助追踪 Agent RL、LLM 优化、以及工程框架的最新进展。

Agent RL 论文地图

第一梯队：系统化框架（2024-2025）

框架	核心贡献	链接	适用
AgentRL	系统 benchmark + 完整框架	https://github.com/THUDM/AgentRL	学术/工业
veRL	分布式 RL 训练框架	https://github.com/volcengine/verl	大规模训练
ROLL	在线 RL with memory	https://github.com/alibaba/ROLL	实时反馈
SkyRL	高效推理优化	https://sky.cs.berkeley.edu/project/skyrl/	资源受限

第二梯队：创新方法

检索增强 Agent

RAGEN (2024): https://arxiv.org/abs/2504.20073
RAGEN-2 (2026): https://arxiv.org/abs/2604.06268
MUA-RL (2025): https://arxiv.org/abs/2508.18669

推理与规划

Agent-R1 (推理优化): https://arxiv.org/abs/2511.14460 | https://github.com/AgentR1/Agent-R1
UGST (目标对齐): https://arxiv.org/abs/2507.20152
Goal Alignment: https://arxiv.org/abs/2507.20152

评估与基准

AgentGym-RL: https://arxiv.org/abs/2509.08755 | https://AgentGym-RL.github.io
τ2-bench: https://arxiv.org/abs/2506.07982
ColBench (对话基准): https://arxiv.org/abs/2503.15478

经验蒸馏 & 记忆

SkillRL (经验→技能): https://arxiv.org/abs/2511.14460
Persona Simulator: https://arxiv.org/abs/2511.00222

第三梯队：特定问题解决

多轮对话的奖励设计

Turn-Level Rewards: https://arxiv.org/abs/2505.11821
SWEET-RL: https://arxiv.org/abs/2503.15478

交互环境

SimulatorArena: https://arxiv.org/abs/2510.05444
LOOP (长horizon): https://arxiv.org/abs/2502.01600
SAGE: https://arxiv.org/abs/2510.11997

工程优化

ProRL Agent: https://arxiv.org/abs/2603.18815
TSR: https://arxiv.org/abs/2602.11767

我的笔记链接

核心概念

系统设计案例

推荐阅读顺序

新手入门（1-2 周）

Read: SkillRL (理解经验蒸馏的思想)
Run: AgentRL 的 demo
Read: 我的 Agent-RL 笔记

进阶（3-4 周）

Read: RAGEN 系列（检索 + agent）
Understand: veRL 框架（分布式训练）
Read: 智能汽车问答系统（实战案例）

深度研究（1-2 月）

Implement: 复现 GRPO / DAPO
Read: Agent-R1 (推理优化)
Design: 自己的 Agent RL 系统

常用工具链

工具	用途	文档
Hugging Face	模型+数据集	https://huggingface.co
Papers with Code	论文代码导航	https://paperswithcode.com
Arxiv Daily	最新论文	https://arxiv.org
GitHub Collections	精选代码	https://github.com

相关技术栈

LLM 推理框架

vLLM：快速推理
TensorRT-LLM：优化推理
SGLang：结构化生成

RL 训练框架

veRL：分布式 RL
TRL (Hugging Face)：轻量级 RL
DeepRLHF：强化学习基础

数据 & 评估

LLM-as-Judge：自动评估
MTEB：多任务文本嵌入基准
ArenaLLM：对话评估

面试重点速查

问题：How do you optimize Agent RL training? 答题框架：

Explain bottlenecks (rollout > forward > backward)
Mention veRL / GRPO / DAPO
Compare with supervised learning
Give specific metrics

问题：What’s the difference between RAGEN and traditional RAG? 答题框架：

Traditional: retrieve → generate
RAGEN: agent decides what to retrieve
Advantage: dynamic retrieval planning
Metric improvement: accuracy +X%