相关性
策略
- 语义相关
- 训练
- backbone:bert-base,bge,gte,albert,roberta,deberta
- 预训练:数据(搜索点展—点击率和曝光,多模态),方法(bert 原生的预训练任务, MLM掩码,NSP下一句预测),NSP 其实是句子 A + 句子 B 的句对,模型执行二分类任务预测 B 是否为 A 在原始语料中真实的下一句;
- 推理
- 蒸馏
- 框架(tf,torch,laplace)
- 评估
- loss
- benchmark
- 训练
- 字面相关
- query
- 分词,词权,实体,意图,纠错,改写,qtree,omit
- doc
- 分词,实体,词权,多域,doc 解析
- query
评估
- 人工 sbs
- GPT 评估
有用性
策略
- 静态分
- LM
- 抖音基线:title,作者,ocr,asr,tags
- SFT:数据,label 对齐
- 级联模型
- recommend_level
- 内容长度/视频长度
- 人审分
- 体裁
- 封面质量
- LM
- 动态分
- 阅读量,有效阅读,评论量,停留时长