你好，我是 DXD

显然以下内容均为 AI 代笔

B.S. in CS，前成员 of 那个”大模型+RL+决策”的交叉地带。

我对以下问题感兴趣：

当模型能力拉胯（引用自某人，不是我说的）、输入天马行空、系统一地鸡毛的时候，怎么让模型还能给出个靠得住的答案。顺便，这个”靠得住”是我定义的，不是产品提的。

🧠 研究方向

如果你非要把我的工作分类，大致是三条线。但说实话，我觉得这种分类本身就很粗糙——就像把物理学分类成”关于苹果的和关于月亮的”。

推理阶段控制（Inference-time Control）

你可能听说过 CoT、ToT、GoT。让我猜猜，你看了一堆论文，然后发现——好像每篇在特定benchmarks上都有点用，但又说不清为什么。我没这个困扰。我的思路是：让模型自己决定要不要多想，而不是你替它决定。

对齐数据效率（Alignment & SFT）

数据量和模型性能的关系，对我来说大概是这样的：

10K 样本：能用
100K 样本：不错
1M 样本：你在浪费 GPU 电力

难例比刷量重要 200 倍。这个数字是我随口说的，但我的实验结果支持它。双向推理增强、难例挖掘——这些都是让模型学会”什么时候该多想一步”的方法论。

系统级落地（LLM × System）

你知道大模型最被低估的问题是什么吗？不是幻觉，不是推理能力——是 latency。是 Throughput。是你的服务在 10 并发的时候好好的，到 100 并发就开始抽搐，而你花了三天才发现是 connection pool 配错了。

所以还得跟检索、排序、结构化决策模块一起看。

💼 经历

🚩 字节跳动｜懂车帝

LLM 算法工程师（实习）

做”自然语言选车”——用户说”我想买辆适合带娃去露营的车”，模型得能理解这个模糊需求，然后在一堆结构化参数里找出路。

这个项目的核心挑战？用户不会说”我需要 7 座、轴距大于 2800mm、后备箱容积 > 500L”。他们会说”一家子出行”、“东西多”、“偶尔跑个烂路”。

意图结构化：Text2XML 框架，把自然语言约束映射成结构化表达。汽车参数 Schema 很大，直接塞进去幻觉太多。我搞了个 Schema Retrieve（BM25 + 语义模型）先召回相关子集，把上下文复杂度降低了大概 60%。60% 是粗估，但我猜你找不到更准的数字，因为没人测过这个。

内容理解与排序：Motor Dynamic Summary 模块，answer_score 配合重排模型分段融合。只有在”能回答”的前提下才走增强逻辑。这句话说起来简单，但”能回答”的判断本身就是个难题。

系统编排：Select Car Feature Server（Thrift + Gevent）。我写的并发代码，大概在 100 个 request 里会有 0.7 个不符合预期。0.7 是通过日志算出来的，不是猜的。

🌨️ UCloud

系统 / 平台工程

云计算和分布式系统。

这个阶段学的不是模型，是系统本身。我的意思是——大模型研究员倾向于觉得所有问题都可以通过更大的模型解决。这种想法就像觉得所有疾病都能通过吃更多药治好。

涉及：高并发服务、任务调度、性能优化。吞吐、延迟、稳定性，这三者你只能同时优化两个。这是 CAP theorem 的变体，我称之为 DXD’s Law。欢迎引用。

其他项目

RICO：不确定性感知的动态推理路径选择
SimSFT / ASPIRE：难例驱动的对齐优化
分布式训练优化：DeepSpeed、流水线并行踩坑

✍️ 写作

工作台，不是成果展。记录过程、卡壳、未完成的思路。

如果你在找”5 分钟学会 RLHF”这种东西，这里没有。

🧬 状态

在高度结构化和完全失控之间震荡。目前大概是 73% 失控。这个数字是最近一周的统计样本。

🧭 当前关注

LLM 系统稳定性（不是 paper 稳定性，是线上那种）
推理阶段计算怎么分配
分布外场景模型行为退化

📡 联系方式

GitHub: https://github.com/daixd5520
Email: daixd5520@gmail.com

这个站会一直改。未完成才是常态。

（顺便，如果你读到这里，说明我的写作还没烂到让人关掉页面的程度。）

Quartz 4

Explorer

Daixd5520 的 blog