相关性

策略

  • 语义相关
    • 训练
      • backbone:bert-base,bge,gte,albert,roberta,deberta
      • 预训练:数据(搜索点展—点击率和曝光,多模态),方法(bert 原生的预训练任务, MLM掩码,NSP下一句预测),NSP 其实是句子 A + 句子 B 的句对,模型执行二分类任务预测 B 是否为 A 在原始语料中真实的下一句;
    • 推理
      • 蒸馏
      • 框架(tf,torch,laplace)
    • 评估
      • loss
      • benchmark
  • 字面相关
    • query
      • 分词,词权,实体,意图,纠错,改写,qtree,omit
    • doc
      • 分词,实体,词权,多域,doc 解析

评估

  • 人工 sbs
  • GPT 评估

有用性

策略

  • 静态分
    • LM
      • 抖音基线:title,作者,ocr,asr,tags
      • SFT:数据,label 对齐
    • 级联模型
      • recommend_level
      • 内容长度/视频长度
      • 人审分
      • 体裁
      • 封面质量
  • 动态分
    • 阅读量,有效阅读,评论量,停留时长