术语表
记录本数字花园中常用的核心概念,主要与 AI/ML 和算法相关。
RAG 相关
RAG (Retrieval-Augmented Generation) 检索增强生成。一种结合外部知识库检索和大语言模型生成的技术架构。相关文档:RAG 技术演进、企业级 RAG 系统设计
Naive RAG 朴素 RAG。最基础的 RAG 实现,固定流程:向量化→检索→生成。
Advanced RAG 高级 RAG。在 Naive RAG 基础上增加查询重写、重排序、混合检索等优化。
Modular RAG 模块化 RAG。将 RAG 系统分解为独立可互换的功能模块,支持路由和动态组合。
Agentic RAG Agent 驱动的 RAG。LLM 作为编排者自主决定检索策略,多步规划和工具使用。
Context Engineering 上下文工程。比 Prompt Engineering 更宏大的框架,核心问题是”模型在每一步应该看到什么信息”。
HyDE (Hypothetical Document Embeddings) 假设性文档嵌入。先让 LLM 生成一份假设性回答文档,再用该文档的嵌入向量去检索。
BM25 最佳匹配 25。一种经典的稀疏检索算法,基于词频和逆文档频率。
Chunk 块。将长文档切分成的较小文本单元,是 RAG 检索的基本单位。
强化学习相关
RLHF (Reinforcement Learning from Human Feedback) 基于人类反馈的强化学习。用人类偏好来训练奖励模型,再用 RL 优化模型。
PPO (Proximal Policy Optimization) 近端策略优化。一种经典的强化学习算法,通过限制策略更新步长保证稳定性。相关文档:[RL 算法对比](../bd/Tech/Tech—RL 算法对比.md)
DPO (Direct Preference Optimization) 直接偏好优化。无需奖励模型,直接用偏好对训练,简化了 RLHF 流程。
GRPO (Group Relative Policy Optimization) 群组相对策略优化。DeepSeek 提出,去掉 Value Model,用多个采样输出的相对奖励优化。
DAPO (Dynamic APO) 动态 APO。DPO 的改进,有动态裁剪和动态采样机制。
GSPO (Group Sequence Policy Optimization) 群组序列策略优化。专门为 MoE 模型设计的 RL 算法,避免路由波动问题。
Advantage Function
优势函数。衡量某个动作比平均动作好多少,
GAE (Generalized Advantage Estimation) 广义优势估计。一种优势函数计算方法,平衡偏差和方差。
KL Divergence KL 散度。衡量两个概率分布的差异,在 RL 中用于限制策略更新幅度。
Reward Hacking 奖励作弊。模型找到奖励信号的漏洞,获得高奖励但实际表现不好。
大模型推理相关
Temperature 温度参数。控制模型输出的随机性,0 表示贪心解码(最确定)。相关文档:推理阶段的非确定性
Greedy Decoding 贪心解码。每次选择概率最高的 token,理论上确定但实际中仍有非确定性。
MoE (Mixture of Experts) 专家混合。一种模型架构,由多个专家子网络组成,动态路由每个 token。
vLLM 一个高效的大模型推理框架,优化了内存使用和吞吐量。
TensorRT-LLM NVIDIA 的大模型推理优化库。
算法相关
DFS (Depth-First Search) 深度优先搜索。一种图/树遍历算法,一条路走到底再回溯。
BFS (Breadth-First Search) 广度优先搜索。一种图/树遍历算法,按层遍历。
DP (Dynamic Programming) 动态规划。一种通过分解子问题来求解的算法范式。
Backtracking 回溯法。一种通过试探和回退来搜索所有可能解的算法。相关文档:算法面试速查
LCA (Lowest Common Ancestor) 最近公共祖先。树中两个节点的最深公共祖先。
模型训练与架构
BN (Batch Normalization) 批归一化。按 batch 维度对数据进行归一化,加速训练、允许更大学习率、轻微正则化。相关文档:面试题八股
LN (Layer Normalization) 层归一化。按序列维度对数据进行归一化,LLM 中常用。
RMSNorm 均方根归一化。LayerNorm 的简化版,去掉了减去均值的部分,效率更高。
MHA (Multi-Head Attention) 多头注意力。Transformer 核心组件,多个 head 并行计算,从不同表示子空间学习信息。
PreNorm 前置归一化。在 Transformer 层前做归一化,更容易训练。
PostNorm 后置归一化。在 Transformer 层后做归一化,微调效果通常更好。
梯度累积 (Gradient Accumulation) 把大 batch 拆成多个 micro-batch,每次反传但不更新,攒够步数再统一更新。相关文档:面试题八股
激活检查点 (Activation Checkpointing) 前向时不保存所有中间激活,只保存少数检查点,反向时重算前向,用计算换显存。
MSE (Mean Squared Error) 均方误差。回归任务常用损失函数。
CE (Cross-Entropy) 交叉熵。分类任务常用损失函数。
Agent 相关
Agent 智能体。能感知环境、做出决策并执行动作的系统。相关文档:Agent RL 与多轮对话
Rollout 采样。Agent 在环境中执行策略生成轨迹的过程。
Turn-Level Rewards 轮级奖励。在多轮对话中,每轮对话给出的奖励,而非整个轨迹结束后才给。
统计相关
无偏性 (Unbiasedness) 估计量的期望等于真实参数值。相关文档:统计方差为什么除以 n−1
总体方差
总体真值 μ 已知时,
样本方差
μ 未知时,用样本均值
自由度
独立变量的个数。n 个残差里有 n−1 个独立,因为受
Bessel’s Correction 贝塞尔校正。除以 n−1 而不是 n,用于修正样本方差的系统性低估。