你好,我是 DXD
计算机科学背景,吉林大学硕士在读,目前在阿里通义实验室做 AI infra,主要做 Agent 容器调度相关的工作。
我是个不给自己设限的人——之前在字节做过懂车帝的 AI 搜索,在 UCloud 搞过分布式训练,现在又在做之前完全没接触过的容器调度。陌生让我兴奋,人生的意义大概就在于有限的时间里尽量有丰富的体验吧。当然,我也知道广度必定影响深度——体验多了,总有些地方只是浅尝辄止,这是 trade-off,也是我一直在平衡的事情。
这里有什么
这是我的数字花园,记录各种笔记、踩坑、还有一些没写完的想法。不是什么精心整理的教程,就是个工作台。
如果你在找”5 分钟学会 RLHF”这种东西,这里没有。
快速导航
这里有一些整理得相对清楚的笔记,按场景分的:
AI/LLM 核心概念
- 推理阶段的非确定性 - temperature=0 为什么还不确定?
- Agent RL 与多轮对话 - GRPO、DPO 这些东西
系统设计
- 智能汽车问答系统 - 我在懂车帝做的项目
- 企业级 RAG 系统设计 - RAG 从选型到部署
算法与面试
其他
我的经历
教育背景
吉林大学,计算机科学与技术,硕士在读(推免)
2024.09 - 至今
- 研究方向:大语言模型数据优化、高效微调、图神经网络
吉林大学,软件工程,本科
2020.09 - 2024.06
工作与项目经历
阿里通义实验室,AI infra工程师
2026.05 - 至今
- 主要做 Agent 容器调度相关工作
- 之前完全没接触过这个方向,陌生让我兴奋,从零开始学习
字节跳动-懂车帝,LLM 算法工程师 - AI 搜索
2026.02 - 至今
- 参与自然语言选车核心链路建设,构建从意图识别 → 约束结构化 → 车型召回 → LLM 回复的 AI 搜索流程,支撑复杂汽车参数条件下的高精度需求匹配
- 设计并落地基于 LLM 规划的结构化检索框架,将用户 Query 转化为符合业务 Schema 的 XML 查询指令,并通过多阶段校验提升结构化结果稳定性,降低幻觉风险
- 优化检索与排序链路,引入 Hard Case 负采样 Finetune,将意图边界识别准确率由 58% 提升至 98.07%;设计纠错式 SFT 缓解结构化约束偏差问题,并将核心模块 P90 耗时控制在 91ms
优刻得科技股份有限公司 (UCloud),算法工程师 - LLM 训练优化 & RAG 系统
2023.07 - 2024.04
- 大模型分布式训练监管平台:面向大规模客户提供分布式训练服务,需统一调度同构/异构计算集群。调研国产显卡软件栈并适配 ChatGLM、LLaMA 等主流模型
- “识问”内部知识问答机器人:针对公司内部文档学习路径冗长的痛点,构建企业级 RAG 系统。
LLM 动态推理由分类开发,核心开发者 / LLM CoT 优化
2025.06 - 2025.09
- 当前 LLM 在文本分类中存在”推理盲区”,依赖表面词汇捷径而非深层逻辑;盲目对所有样本使用 CoT 开销冗余。受认知双过程理论启发,设计并实现 RICO 动态推理路由框架
- 构建 System 1(直接预测)与 System 2(CoT+ 多投票)双轨架构,基于置信度、Margin、熵进行加权动态路由;使用强教师 LLM 生成的 CoT 数据蒸馏微调目标模型
- 在 6 个长短文本分类基准上实现最优精度-效率权衡,小参数模型性能全面反超更大参数量的 Vanilla LLM
专业技能
- 框架与语言:PyTorch, DeepSpeed, vLLM, Transformers, VeRL, C/C++, Go
- 系统与计算:CUDA Programming, 分布式训练, GPU 显存优化, Docker, K8s
- 算法与微调:SFT Data Mining, PEFT, Prompt Engineering, RAG, CoT, Agent
- 英语水平:CET4 643 分, CET6 563 分
核心科研成果
ASPIRE: Hard Sample Mining for Supervised Fine-Tuning in LLMs
学生一作 · Frontiers of Computer Science · CCF-B期刊 · 在投
- 提出双策略困难样本挖掘框架:ASPIRE-S 基于 Reward Model 分差 ΔS 进行课程化排序,ASPIRE-D 基于跨 Epoch 训练 Loss 动态加权量化样本难度
- 在 Dolly/Alpaca/Wizard 上微调 LLaMA-2 与 Gemma-2,超越全量微调基线,并在 108M 轻量 RM 下保持高鲁棒性
SimSFT: A Simple Data Augmentation for SFT in LLMs
学生一作 · SIGIR · CCF-A · 在投
- 面向 LLM “逆向诅咒” 问题,提出零成本数据增强方法:交换 Instruction 与 Response 并加入逆向 Prompt,构建双向推理训练数据
- 在 Gemma2-2B 和 LLaMA-2 上验证,GSM8K、HumanEval 等 6 个基准显著优于全量微调及其他增强基线
HOLA: Hyperbolic Low-Rank Adaptation for Graph Transfer Learning
学生一作 · NeurIPS · CCF-A · 在投
- 针对 LoRA 与双曲流形不兼容的问题,在切空间执行低秩更新,并引入时间重构算子修复双曲几何自洽性,结合 MMD 损失实现跨域特征对齐
- 以低于 1% 的参数量持续超越欧氏空间 SOTA 基线,显著缓解拓扑偏差引起的负迁移
联系方式
- GitHub: https://github.com/daixd5520
- Email: daixd5520@gmail.com
这个站会一直改,未完成才是常态。
(如果你读到这里,说明我的写作还没烂到让人关掉页面的程度。)