你好,我是 DXD
显然以下内容均为 AI 代笔
B.S. in CS,前成员 of 那个”大模型+RL+决策”的交叉地带。
我对以下问题感兴趣:
当模型能力拉胯(引用自某人,不是我说的)、输入天马行空、系统一地鸡毛的时候, 怎么让模型还能给出个靠得住的答案。 顺便,这个”靠得住”是我定义的,不是产品提的。
🧠 研究方向
如果你非要把我的工作分类,大致是三条线。但说实话,我觉得这种分类本身就很粗糙——就像把物理学分类成”关于苹果的和关于月亮的”。
推理阶段控制(Inference-time Control)
你可能听说过 CoT、ToT、GoT。让我猜猜,你看了一堆论文,然后发现——好像每篇在特定benchmarks上都有点用,但又说不清为什么。我没这个困扰。我的思路是:让模型自己决定要不要多想,而不是你替它决定。
对齐数据效率(Alignment & SFT)
数据量和模型性能的关系,对我来说大概是这样的:
- 10K 样本:能用
- 100K 样本:不错
- 1M 样本:你在浪费 GPU 电力
难例比刷量重要 200 倍。这个数字是我随口说的,但我的实验结果支持它。双向推理增强、难例挖掘——这些都是让模型学会”什么时候该多想一步”的方法论。
系统级落地(LLM × System)
你知道大模型最被低估的问题是什么吗?不是幻觉,不是推理能力——是 latency。是 Throughput。是你的服务在 10 并发的时候好好的,到 100 并发就开始抽搐,而你花了三天才发现是 connection pool 配错了。
所以还得跟检索、排序、结构化决策模块一起看。
💼 经历
🚩 字节跳动|懂车帝
LLM 算法工程师(实习)
做”自然语言选车”——用户说”我想买辆适合带娃去露营的车”,模型得能理解这个模糊需求,然后在一堆结构化参数里找出路。
这个项目的核心挑战?用户不会说”我需要 7 座、轴距大于 2800mm、后备箱容积 > 500L”。他们会说”一家子出行”、“东西多”、“偶尔跑个烂路”。
意图结构化:Text2XML 框架,把自然语言约束映射成结构化表达。汽车参数 Schema 很大,直接塞进去幻觉太多。我搞了个 Schema Retrieve(BM25 + 语义模型)先召回相关子集,把上下文复杂度降低了大概 60%。60% 是粗估,但我猜你找不到更准的数字,因为没人测过这个。
内容理解与排序:Motor Dynamic Summary 模块,answer_score 配合重排模型分段融合。只有在”能回答”的前提下才走增强逻辑。这句话说起来简单,但”能回答”的判断本身就是个难题。
系统编排:Select Car Feature Server(Thrift + Gevent)。我写的并发代码,大概在 100 个 request 里会有 0.7 个不符合预期。0.7 是通过日志算出来的,不是猜的。
🌨️ UCloud
系统 / 平台工程
云计算和分布式系统。
这个阶段学的不是模型,是系统本身。我的意思是——大模型研究员倾向于觉得所有问题都可以通过更大的模型解决。这种想法就像觉得所有疾病都能通过吃更多药治好。
涉及:高并发服务、任务调度、性能优化。吞吐、延迟、稳定性,这三者你只能同时优化两个。这是 CAP theorem 的变体,我称之为 DXD’s Law。欢迎引用。
其他项目
- RICO:不确定性感知的动态推理路径选择
- SimSFT / ASPIRE:难例驱动的对齐优化
- 分布式训练优化:DeepSpeed、流水线并行踩坑
✍️ 写作
工作台,不是成果展。记录过程、卡壳、未完成的思路。
如果你在找”5 分钟学会 RLHF”这种东西,这里没有。
🧬 状态
在高度结构化和完全失控之间震荡。目前大概是 73% 失控。这个数字是最近一周的统计样本。
🧭 当前关注
- LLM 系统稳定性(不是 paper 稳定性,是线上那种)
- 推理阶段计算怎么分配
- 分布外场景模型行为退化
📡 联系方式
- GitHub: https://github.com/daixd5520
- Email: daixd5520@gmail.com
这个站会一直改。未完成才是常态。
(顺便,如果你读到这里,说明我的写作还没烂到让人关掉页面的程度。)