1 流程一定要标准化
业务算法的流程
- 送标一波数据(构造一批可以代表问题空间的数据)
- 固定一个能力集 评测标准,便于后续迭代
一开始就要有一个稳定的评测集和评测方法,这个东西是整个迭代的锚点。后面无论加 recall、改 reward、换模型,全部都要在这个集合上可比。
- 评估每个模块 加的每个功能,带来的增益 (因果隔离, 每次改动要尽量做到单变量)
- 在能力集达到一定的分数,就可以 送评一波
- 上线进行 AB 实验,主要看:
- 端到端有无提升
- 分析我们的模块带来的 diff(好的,坏的,哪些样本,挑 diff 样本来看)(显著性)—归因
- 一些客户指标有无提高
2 明天
- 改一下 usbl 脚本(有些还是 val 能对齐但是 field 不同就识别不出,打算做一个整行层面的相似度)
- 后面—车型库的相似度模型可以把车系现在用的普适相似度模型替换掉
- 深入分析一波 bad case 总结
- 统计错误类型(schema 错、召回错、排序错、生成错)
- 每一类占比多少
- 哪一类最影响指标
- GRPO 的 reward 设计
- 车型库召回
- 格式(+有无 schema 外的)
- validator 输出一些分方面的指标—精调 validator
- reply model 的训练(为了对齐 plan 部分模型,一起上线开实验, 所以周三前要把数据做出)
3 未来
尽量自己预估一个时间,和自己干出来的时间进行对比,尽量对齐
建立任务复杂度的内隐模型
要有记录习惯 迭代效果的记录(这一次的也要补上),以及复用代码的方法的记录
实验 ID | 修改点 | 核心指标变动 | Bad Case 变化趋势 | 下一步计划
多思考,主人翁的意识,学习的心态。
把每一次迭代写成:
- 改了什么
- 为什么改
- offline 结果
- online 结果
- 失败归因