Now
我现在在做什么、读什么、下一步打算干什么。updated 2026-05
灵感来自 /now movement,每月手动刷新一次。
正在做 / Shipping
- 夸克搜索场景下的多模态 SFT 数据管线 v2:清洗 → 打标 → 质量审计 → 训练样本
- Reward model 在搜索答案生成上的失败模式分析,准备写成博文
- TODO: 第三件正在做的事
正在读 / Reading
- TODO: 一篇你正在读的 paper
- TODO: 一本书或一份长文
- TODO: 一个工程上让你印象深刻的 repo
下一步 / Next
- M1 deep post: Reward model failure modes I keep running into
- M1 short notes: 两篇近期 RLHF paper 笔记
- M1 project: 把评测管线(content/projects/)补成完整 case study