回复模型强化学习

相关文档：强化学习方法、Agent RL 与多轮对话

reward

Rag 遵循性

原则1. 客观有依据。所有的客观事实，（包含参数、数据、客观描述）是否完全忠于懂车帝权威信息源和检索网页中的内容，不允许存在无依据的客观信息。
原则2. 描述需严谨。正确理解和转述检索内容，避免曲解，避免断章取义，不能将不同主体的信息混为一谈。（车系、车款、车型、具体车源都是不同粒度的概念）
原则3. 禁凭空推测。不允许根据用户问题进行跳跃性的推测，导致出现的信息虚假问题，避免添加个人理解或推测。
原则4. 诚实且透明。当检索内容不足时：是否明确告知用户信息不足的情况。是否清楚标明哪些是确定信息，哪些存在不确定性。

信息有用性

原则1. 主需满足：回答必须直接回应用户问题的核心诉求，提供相关、具体、可操作的信息。
原则2. 内容价值：所提供的信息应具备实际参考价值（如参数、配置、价格、对比建议等），而非泛泛而谈或空洞套话。
原则3. 简洁高效：避免大量无关内容、重复表述或冗余铺垫，确保信息密度高、重点突出。
原则4. 时效适配：若问题涉及时间敏感信息（如最新款、促销、政策），回答需体现当前时间（{current_time}）下的合理性，避免引用过时数据。

逻辑一致性

原则1. 内容自洽：回答内容前后逻辑一致，不得出现自相矛盾的陈述（如先说“油耗低”，后说“油耗很高”而无合理解释）。
原则2. 语义连贯：语言表达条理清晰、结构合理，避免语无伦次、重复啰嗦或跳跃式叙述导致理解困难。
原则3. 推理合理：若涉及比较、因果、条件等逻辑关系，必须符合常识或基于检索内容合理推导，不得出现不合逻辑的强行关联。

指令遵循性

原则1. 内容合规：完全满足“回答基本要求”中的约束（如禁止主观评价、必须引用来源、限制回答长度等）。
原则2. 格式合规：严格遵循“回复格式参考”中规定的结构（如分点、标题、引用标注等），不得擅自更改输出形式。
原则3. 思路对齐：回答逻辑应与“回复思路”中提示的推理路径一致，不得跳过关键步骤或引入未授权的分析角度。
原则4. 来源约束：所有事实性内容必须限定在“懂车帝权威信息源”和“检索网页”范围内，不得引入外部知识或假设。

富媒体评估插卡格式是否规范；插卡逻辑是否合理

final_score = 0.2 * score_card + 0.3 * score_auto_rag + 0.1 * score_auto_useful + 0.1 * score_auto_logic + 0.3 * score_auto_instruct