~

Now

我现在在做什么、读什么、下一步打算干什么。updated 2026-05

灵感来自 /now movement,每月手动刷新一次。

正在做 / Shipping

  • 夸克搜索场景下的多模态 SFT 数据管线 v2:清洗 → 打标 → 质量审计 → 训练样本
  • Reward model 在搜索答案生成上的失败模式分析,准备写成博文
  • TODO: 第三件正在做的事

正在读 / Reading

  • TODO: 一篇你正在读的 paper
  • TODO: 一本书或一份长文
  • TODO: 一个工程上让你印象深刻的 repo

下一步 / Next

  • M1 deep post: Reward model failure modes I keep running into
  • M1 short notes: 两篇近期 RLHF paper 笔记
  • M1 project: 把评测管线(content/projects/)补成完整 case study