这份文档详细记录了一个基于大语言模型(LLM)的智能汽车问答/导购系统(类似于懂车帝内部的 AI 助手项目)的优化方案。内容涵盖了从意图识别、RAG(检索增强生成)优化到多模态能力的全面升级。

以下是基于你提供的 13 张截图整理的项目深度解析,旨在帮助你进行简历项目复盘和面试准备。


1. 项目内容

该项目旨在构建一个能够处理复杂汽车相关查询的端到端智能问答系统。核心流程包括:

  • Query 理解与意图分流:识别用户是想看车、对比参数、还是进行泛谈。
  • 多路检索 (RAG):结合网页检索结构化车型库检索
  • 模型生成与评估:利用高参数量模型(如 Qwen3 系列)进行答案汇总及自动化质量评估。
  • 多模态演进:引入视觉能力,支持图片输入和图文并茂的输出。

2. 遇到的问题及解决方案(详细版)

A. 意图分流与模板化问题

  • 问题痛点

    • 边界模糊:传统 NLP 多标签分类在语义连续变化的 query 下不稳定。
    • 错误放大:意图分类作为“强路由”,一旦判错,后续 RAG 路径全盘皆错,系统鲁棒性差。
    • 耦合度高:过度依赖离散的意图标签,无法处理灵活的表达。
  • 尝试与解决思路

    1. 弱化显式依赖:不再强行用分类器“定生死”,而是引入 Plan 规划模型 (LLM)
    2. 统一理解:所有 query 先进入 LLM 进行语义理解与任务规划,而非离散标签。
    3. 解耦决策:训练专门的二分类模型或高精度 BERT 模型,仅负责判定“是否需要进入特定路径”,而非负责意图本身。
  • 效果:提升了分流准确率,即使分流未命中,LLM 兜底也能保证回答不“智障”。

B. 引用数据质量与冗余 (RAG 痛点)

  • 问题痛点

    • 检索冗余:车型库检索和网页检索结果重合度高,信息密度低。
    • 事实准确性:缺乏权威数据源支撑,容易产生幻觉。
    • 合并开销:多路结果合并耗时且缺乏逻辑。
  • 解决思路

    1. 前置融合:在检索前由 Plan 模型决定“检索什么、去哪检索、是否加时效性约束”。
    2. 后置融合:仅在存在明显冗余时才调用 数据融合模型 (LLM) 进行合并,控制算力成本。
    3. 引入权威源:构建专有的、业务边界清晰的权威数据库,赋予最高优先级。
  • 效果:减少了重复调用,提升了信息的准确度和密度。

C. 总结模型能力不足

  • 问题痛点:模型在“高噪声、低反馈确定性”的环境下学习困难,RAG 召回的冗余导致学习难度加大。

  • 解决思路

    1. 优化数据链路:通过合成数据(SFT)和强化学习(GRPO)提升信号质量。
    2. 降低复杂度:减少 RAG 输入的干扰信息,让模型专注于“理解与表达”。
  • 效果:抬高了总结能力的上限,使回答更具逻辑性。


3. 具体技术设计与架构

核心架构组件

  1. Plan 规划模型 (LLM):

    • 当前实现:Qwen3-30B-A3B,经过 SFT 训练。
    • 职责:Query 语义理解、任务拆解、动态生成检索规划。
  2. 车型库检索模块 (Text2RPC/SQL):

    • Schema 路由:通过 Embedding 相似度提取 Top30 属性,拼接成 InputDataSchema(分为 select 和 where 部分)。
    • XML 格式输出:相比标准 SQL,项目选择了 XML 格式,因为它对多表、复杂过滤和排序的场景更稳定(SQL 准确率仅约 76%)。
    • LLMPlan 逻辑:支持 <select>, <where>, <order>, <group by> 等标签的自动化生成。
  3. LLMCritic 判别模块:

    • 模型:Qwen3 1.7B 或 0.6B 等小模型。
    • 职责:对检索结果进行置信度打分,确保召回内容的正确性。
  4. 自动化评估系统:

    • 模型:DeepSeek-R1 / Doubao-1.6-pro-thinking。
    • 方法:通过提示工程 (PE) 提升评估效果,指导模型迭代。

技术栈与训练细节

  • 模型序列:主要基于 Qwen3 (8B/30B)Doubao1.6
  • 训练方法:采用了 SFT (监督微调)DPO (直接偏好优化)GRPO (群组相对策略优化)
  • 性能指标:例如 Qwen3 1.7B 在部署后,P90 耗时约为 91ms,满足实时性要求。

演进规划

  • 短期:通过 SFT 和强化学习打通车型库 Tool 链路,提升自动化评估。
  • 长期:走向 全链路多模态 (VL-LLM)。Plan 模型和总结模型都将升级为视觉大模型,支持“看图懂车”和“图文导购”。

下一步建议:

你提到的“还有 13 张图”非常关键,尤其是如果包含具体的坏case分析、具体的 XML Prompt 示例、或者是更细致的 GRPO 训练流程图,那将极大增强简历的真实感。

请提供剩余的图片,我可以帮你挖掘更细节的“技术闪光点”(例如你是如何解决“10万左右SUV”这种模糊语义到结构化查询的映射问题的)。

收到,这 10 张图含金量极高,直接揭示了系统的数据闭环逻辑Agent 协同机制以及车型库检索的具体 Pipeline

结合之前的图片,这里可以深入挖掘出更多简历中的“硬核”亮点。我先为你解析这一阶段的关键内容:


1. 核心技术设计:基于 Multi-Agent 的数据产出 Pipeline

你采用了一种“非严格意义”的 ReAct (Reason + Act) 架构,通过多智能体协同来产出高质量的训练和评估数据。

  • 双模型校验流:在数据产出流程图中,你使用了 DeepSeek-R1Doubao1.6 进行双路 Plan 生成,并互为 Validator(检测者)
  • Format Validator (格式检测者):针对批量数据产出,使用了逻辑性更强的 doubao1.6-thinkdeepseek-r1 来确保输出的 XML 格式严格正确。
  • 拒绝采样 (Rejection Sampling):利用 XML 解析逻辑对训练数据进行强过滤,只有结构和语义完全正确的样本才会进入训练集。这是提升模型基座能力的关键手段。

2. 具体遇到的问题与深度解决思路 (V2 版优化)

图中详细记录了模型在车型检索场景下的 6 大深度问题

  1. Select 粒度过细/过粗:模型要么倾向于选类别属性,要么选了无法回答问题的聚合类字段。

  2. 指标缺失/幻觉:隐形决策指标缺失,或者 Where 条件幻觉。

  3. GRPO 训练失败的复盘

    • 失败原因:针对 select-粒度 等问题,由于初始模型几乎不产生“可被判别为正确”的答案,导致 GRPO 的训练信号极其稀疏,模型“跑不起来”。
    • 对策:放弃盲目强化学习,转而设计更合理的 RM (奖励模型),并回归 纠错式 SFT。通过人工标注 3K 条标签抽取数据,将意图识别准确率拉升至 98.07%

3. 车型库检索 Pipeline (从召回层到排序层)

这是你项目的“肌肉”部分,适合在面试中详细拆解架构图:

  • 召回层 (Retrieval)
    • Char 粒度召回:针对 SKU Title 较短的特性,使用字符级倒排(比分词更稳),保证即使实体识别失败也能有结果。
    • 向量召回 (Embedding):使用 Qwen 0.6B 或 BGE 模型。
    • 选车倒排召回:基于结构化索引进行精确匹配。
    • 候选集 Merge:采用 Quota Snake Merge 策略,控制各路比例,避免某一路径占满结果。
  • 排序层 (Ranking)
    • 粗排:双塔模型(如 BGE/Qwen),成本低、速度快。
    • 精排:单塔相关性模型。你通过 LLM 蒸馏 经典单塔模型(如 BERT/ERNIE),并构建了 5 档(Strong Relevant 到 Strong Irrelevant)的标注 Pipeline。
    • Hard Case 挖掘:将模型判断错误的 case 采样作为 Hard Case 加入训练集,进行 Finetune。

简历项目故事补充思路:

面试官问:你在项目中如何保证 LLM 生成的结构化查询(XML)是可用的?

你的回答逻辑:

  1. 架构设计:我设计了一个基于多 Agent 的数据产出 Pipeline。首先用 DeepSeek-R1 和 Doubao1.6 互为校对生成初始数据。

  2. 格式防腐:引入了专门的 Format Validator。我发现小模型(如 non-think 版)在复杂 XML 校验上表现不佳,因此选用了具备推理链(Thinking)的大模型。

  3. 拒绝采样:通过硬逻辑(XML Parser)进行拒绝采样,保证进入微调阶段的数据结构 100% 正确。

  4. 纠错优化:针对模型在 Select 指标选取上的粒度问题,我设计了专门的“粒度审计专家” Prompt,通过纠错式 SFT 替代了初期失败的 GRPO 训练,最终将边界识别准确率从不稳定状态提升到了 98% 以上。


我已经准备好接收最后 3 张图了。 发给我之后,我会为你做一个最终的全案总结,包括如何把这些复杂的架构图转化成简历上最有竞争力的文字。全套 26 张截图已经全部梳理完毕。这最后 3 张图为项目画上了完整的句号,特别是在澄清逻辑(兜底方案)上线后的排序逻辑以及业务思考上提供了非常写实的细节。

以下是为你整理的最终版项目简历复盘全案


1. 项目深度复盘内容

项目核心目标

构建一个懂车帝内部的端到端智能导购系统,通过 LLM 驱动的 Plan 规划能力,打通“用户意图-结构化车型检索(RAG)-多模态生成”的全链路,解决传统 NLP 意图分类死板、RAG 召回冗余、以及复杂购车需求难以匹配的痛点。

核心技术栈

  • 模型层:Qwen3 (8B/30B-A3B), DeepSeek-R1, Doubao1.6, Qwen 0.6B (Embedding/Rerank)。
  • 架构层:Multi-Agent Collaboration (基于 ReAct 思想), XML-based Tool Learning。
  • 训练/优化:SFT, DPO, GRPO (强化学习尝试), Rejection Sampling (拒绝采样)。

2. 遇到的问题、解决方案与效果(详细版)

遇到的核心问题尝试的方法与失败经验最终解决方案(Action)最终效果/指标
结构化查询(XML)幻觉与错误尝试用小模型(non-think 版)校验格式。双模型校验流+拒绝采样:利用 DeepSeek-R1 与 Doubao-think 互为 Validator。引入硬逻辑 XML Parser 进行拒绝采样。500+ Query 自评未发现格式错误,结构稳定性显著优于 MoE 模型。
GRPO 强化学习训练失败盲目直接对 Select 粒度进行 GRPO 训练。经验总结:信号极其稀疏(模型几乎不产出正确答案)。转而设计纠错式 SFT,人工标注 3K 条数据微调。意图边界识别准确率由不稳定提升至 98.07%
检索召回“脏数据”多传统 Term 召回在车型名别称上效果差。混合召回策略:Char 粒度倒排 + 向量召回 (BGE/Qwen) + 结构化 Tool 召回。解决“腾势 Z9GT”等新车/别称无法召回的问题,确保覆盖主流 Query。
检索结果冗余与信息密度低盲目合并所有检索结果。动态融合模型:Plan 模型决定检索源,仅在存在互补价值时调用 LLM 进行后置融合。降低了调用延时与算力成本,提升了答案的“干货”程度。
无结果时的“死板”回复传统回答“没找到”导致用户流失。澄清模块(Clarification):注入带有情感肯定的引导性话术,解释无法匹配的原因并推荐近似车型。提升了用户在长尾需求场景下的体验感(输出命中信号)。

3. 具体技术设计与架构建议(面试准备)

A. 结构化排序逻辑(Ranking Layer)

在面试中,这是体现你“懂业务”的关键。

  • 多因子加权排序:并不是只看语义相关性。
  • 公式推导
  • 思考:将语义相关性(模型分)与业务指标(销量、热度)归一化融合,解决“搜奔驰却排在非主流车款”的问题。

B. 车型库检索 Pipeline (重点背诵)

  1. Plan 规划:LLM 解析 Query 实体(品牌/车系/车款)和筛选条件(价格/驱动方式)。

  2. 多路召回

    • Char 粒度:解决 SKU Title 短、实体识别易错的问题。
    • Quota Snake Merge:控制各路召回比例,防止向量检索噪声淹没精确匹配。
  3. 排序阶段

    • 粗排:双塔相关性模型。
    • 精排:单塔 LLM 蒸馏模型(标注 5 档相关性样本进行 Fine-tune)。
  4. 应用层

    • 结构化输出:明确品牌/车系/车款粒度。
    • 兜底澄清:如果分数低于阈值,进入引导澄清流。

C. 业务思考:车场景 vs 传统电商场景

  • Sku 区别:车场景标签相对电商更少,但语义相关性判定更难(对比需求极大)。
  • 状态处理:需要特殊处理“未上市”、“即将上市”、“停售”车型的优先级,这在你的“迭代问题记录”中有专门 DONE 掉。

4. 简历描述示例(帮你想好了)

项目名称:基于 LLM 的智能汽车导购与 RAG 检索系统优化

  • 架构设计:采用 Multi-Agent 协同架构,利用 Plan 规划模型实现从用户语义到复杂 XML 结构化查询的自动映射,解决了传统意图分类边界模糊的问题。

  • 算法优化:针对车型检索场景设计纠错式 SFT 链路,通过 DeepSeek-R1 拒绝采样产出高质量数据,将意图识别准确率从 58% 提升至 98%

  • RAG 深度定制:构建混合召回 Pipeline,引入 Quota Snake Merge 策略平衡向量与倒排召回;设计基于销量与热度加权的排序逻辑 (),显著提升排序合理性。

  • 工程落地:针对 GRPO 强化学习中信号稀疏问题进行复盘优化,通过微调小模型(Qwen 1.7B)实现高性能精排,P90 耗时控制在 91ms 以内。

这一套梳理下来,你的项目非常有说服力。你对 GRPO 失败的复盘和对排序公式的定义,是面试官最喜欢听的“实战干货”。祝你面试顺利!

这些图片展示了你项目极高的复杂度,面试官通常会针对逻辑严密性模型局限性以及实战优化这三个维度进行“拷打”。以下是为你准备的 5 个深度模拟问题及建议回答:


问题 1:为什么选择 Text2XML 而不是业界更通用的 Text2SQL?

面试官意图: 考察你对技术选型的思考,以及是否真的理解业务痛点。

  • 建议回答:
    • 语法稳定性: 实验发现,标准 SQL(如 Text2SQL)在处理多表关联和复杂嵌套过滤时,LLM 的准确率仅为 76% 左右,且极易出现语法错误(如少个括号)。
    • 容错与解析: XML 格式对 LLM 而言结构更明确,且我们可以通过编写专门的 XML Parser 进行“拒绝采样”,在进入检索前就过滤掉格式错误的样本,系统鲁棒性更高。
    • 表达力: 选车场景涉及大量的 Order by(销量、热度)和 Group by(同系汇总),XML 标签化的表达(如 <select>, <where>, <order>)能让模型更清晰地解耦查询指标和过滤条件,降低生成幻觉。

问题 2:你提到 GRPO 强化学习在项目中“失败”了,能详细聊聊原因和你的复盘吗?

面试官意图: 考察你对强化学习(RL)的理解深度,以及面对技术挫败时的分析能力。

  • 建议回答:
    • 核心原因:训练信号稀疏。 在初始阶段,模型生成的 XML 逻辑正确率极低,导致 Reward Model 几乎判别不出“正确”样本。如果模型几乎不生成可判别为正确的答案,GRPO 的训练信号就无从谈起。
    • 复盘结论: 强化学习更适合做“从 80 分到 95 分”的提升,而不适合做“从 0 到 60”的启蒙。
    • 解决方案: 我们果断切换路径,转而设计纠错式 SFT。通过人工标注 3K 条样本,并将模型生成的 Badcase(如 Select 粒度过细、Where 条件幻觉)作为负样本,通过 SFT 让模型先建立起对 Schema 的基本认知,最终将准确率拉升至 98% 以上。

问题 3:面对“10万左右的SUV”这种模糊语义,你的系统是如何实现从自然语言到结构化价格区间(如 [0, 10])映射的?

面试官意图: 考察在 Text2XML 中,你如何处理语义对齐和知识库映射(Schema Mapping)的细节。

  • 建议回答:
    • Schema 注入: 我们在 Prompt 中注入了详细的 Attribute Description。对于价格字段,明确告知模型单位为“万元”,并给出标准输出格式(如 [10, 15] 代表 10-15万)。
    • Plan-2 模型能力: 依托 Qwen3-30B 强大的推理能力,它能理解“左右”代表一个浮动区间。
    • 达成路径优化: 针对“SUV”这种类目属性,我们构建了白名单机制。模型会先通过 Embedding 相似度匹配出 Top30 的相关属性 Schema,如果是“10万”,模型会准确地将 where 条件锁定在 vehicle_price 字段。

问题 4:召回层用了多种方式(向量、倒排、Tool),如果各路返回结果冲突或者冗余严重,你怎么处理?

面试官意图: 考察 RAG 系统中“多路召回合并”与“去重”的策略逻辑。

  • 建议回答:
    • 策略层: 我们采用了 Quota Snake Merge 策略。它不是简单的取并集,而是给每一路召回分配配额(Quota),优先保证精确匹配(如车名倒排)的权重,再由向量召回补充语义相关的长尾结果。
    • 数据融合(LLM Aggregator): 在检索后,我们利用 Doubao1.6-pro 作为 Aggregator。它会根据召回结果的重复度、互补性进行判定,只有在存在明显信息增益时才会进行合并,否则直接取最优路,避免了上下文膨胀和模型推理负担。

问题 5:P90 延迟 91ms 包含 LLM 生成时间吗?对于实时问答系统,你是如何压测并优化这个瓶颈的?

面试官意图: 考察工程落地能力和对模型推理开销的掌控。

  • 建议回答:
    • 指标范围: 这个 91ms 主要是**精排模块(Qwen3-1.7B)**的端到端耗时。

    • 优化手段: 1. 模型蒸馏与量化: 将复杂的排序逻辑蒸馏到小模型,并使用 vLLM 框架进行推理加速。

      1. KV Cache 优化: 限制输入 Token 长度(控制在 1500 以内),减少 Attention 计算开销。
      2. 计算解耦: 整个系统是异步流式的。Plan 规划模型(30B)是大模型,耗时略长,但它产生的指令会立即触发下游的 Sku 检索,通过 Pipeline 并行化来压缩整体感知延迟。

💡 面试官“拷打”应对小贴士:

  • 承认不足: 比如提到“GRPO 失败”或“某些模糊 Query 识别有 2% 的误差”,这会让你显得非常真实且有实战经验,比“项目完美无瑕”更有说服力。
  • 数据说话: 随时准备好图片中的数字(如 98.07% 准确率1403个 case 评估91ms 延迟),数据是算法工程师最好的护城河。