研究资源与论文导航

快速索引,帮助追踪 Agent RL、LLM 优化、以及工程框架的最新进展。

Agent RL 论文地图

第一梯队:系统化框架(2024-2025)

框架核心贡献链接适用
AgentRL系统 benchmark + 完整框架https://github.com/THUDM/AgentRL学术/工业
veRL分布式 RL 训练框架https://github.com/volcengine/verl大规模训练
ROLL在线 RL with memoryhttps://github.com/alibaba/ROLL实时反馈
SkyRL高效推理优化https://sky.cs.berkeley.edu/project/skyrl/资源受限

第二梯队:创新方法

检索增强 Agent

推理与规划

评估与基准

经验蒸馏 & 记忆

第三梯队:特定问题解决

多轮对话的奖励设计

交互环境

工程优化

我的笔记链接

核心概念

系统设计案例

推荐阅读顺序

新手入门(1-2 周)

  1. Read: SkillRL (理解经验蒸馏的思想)
  2. Run: AgentRL 的 demo
  3. Read: 我的 Agent-RL 笔记

进阶(3-4 周)

  1. Read: RAGEN 系列(检索 + agent)
  2. Understand: veRL 框架(分布式训练)
  3. Read: 智能汽车问答系统(实战案例)

深度研究(1-2 月)

  1. Implement: 复现 GRPO / DAPO
  2. Read: Agent-R1 (推理优化)
  3. Design: 自己的 Agent RL 系统

常用工具链

工具用途文档
Hugging Face模型+数据集https://huggingface.co
Papers with Code论文代码导航https://paperswithcode.com
Arxiv Daily最新论文https://arxiv.org
GitHub Collections精选代码https://github.com

相关技术栈

LLM 推理框架

  • vLLM:快速推理
  • TensorRT-LLM:优化推理
  • SGLang:结构化生成

RL 训练框架

  • veRL:分布式 RL
  • TRL (Hugging Face):轻量级 RL
  • DeepRLHF:强化学习基础

数据 & 评估

  • LLM-as-Judge:自动评估
  • MTEB:多任务文本嵌入基准
  • ArenaLLM:对话评估

面试重点速查

问题:How do you optimize Agent RL training? 答题框架

  1. Explain bottlenecks (rollout > forward > backward)
  2. Mention veRL / GRPO / DAPO
  3. Compare with supervised learning
  4. Give specific metrics

问题:What’s the difference between RAGEN and traditional RAG? 答题框架

  1. Traditional: retrieve → generate
  2. RAGEN: agent decides what to retrieve
  3. Advantage: dynamic retrieval planning
  4. Metric improvement: accuracy +X%