回复模型强化学习
相关文档:强化学习方法、Agent RL 与多轮对话
reward
- Rag 遵循性
原则1. 客观有依据。所有的客观事实,(包含参数、数据、客观描述)是否完全忠于懂车帝权威信息源和检索网页中的内容,不允许存在无依据的客观信息。
原则2. 描述需严谨。正确理解和转述检索内容,避免曲解,避免断章取义,不能将不同主体的信息混为一谈。(车系、车款、车型、具体车源都是不同粒度的概念)
原则3. 禁凭空推测。不允许根据用户问题进行跳跃性的推测,导致出现的信息虚假问题,避免添加个人理解或推测。
原则4. 诚实且透明。当检索内容不足时:是否明确告知用户信息不足的情况。是否清楚标明哪些是确定信息,哪些存在不确定性。- 信息有用性
原则1. 主需满足:回答必须直接回应用户问题的核心诉求,提供相关、具体、可操作的信息。
原则2. 内容价值:所提供的信息应具备实际参考价值(如参数、配置、价格、对比建议等),而非泛泛而谈或空洞套话。
原则3. 简洁高效:避免大量无关内容、重复表述或冗余铺垫,确保信息密度高、重点突出。
原则4. 时效适配:若问题涉及时间敏感信息(如最新款、促销、政策),回答需体现当前时间({current_time})下的合理性,避免引用过时数据。- 逻辑一致性
原则1. 内容自洽:回答内容前后逻辑一致,不得出现自相矛盾的陈述(如先说“油耗低”,后说“油耗很高”而无合理解释)。
原则2. 语义连贯:语言表达条理清晰、结构合理,避免语无伦次、重复啰嗦或跳跃式叙述导致理解困难。
原则3. 推理合理:若涉及比较、因果、条件等逻辑关系,必须符合常识或基于检索内容合理推导,不得出现不合逻辑的强行关联。- 指令遵循性
原则1. 内容合规:完全满足“回答基本要求”中的约束(如禁止主观评价、必须引用来源、限制回答长度等)。
原则2. 格式合规:严格遵循“回复格式参考”中规定的结构(如分点、标题、引用标注等),不得擅自更改输出形式。
原则3. 思路对齐:回答逻辑应与“回复思路”中提示的推理路径一致,不得跳过关键步骤或引入未授权的分析角度。
原则4. 来源约束:所有事实性内容必须限定在“懂车帝权威信息源”和“检索网页”范围内,不得引入外部知识或假设。- 富媒体 评估插卡格式是否规范;插卡逻辑是否合理
final_score = 0.2 * score_card + 0.3 * score_auto_rag + 0.1 * score_auto_useful + 0.1 * score_auto_logic + 0.3 * score_auto_instruct