~
online · 2026

嗨,我是昱泽 · Yu Ze

LLM post-training · SFT × RLHF

阿里巴巴 · 千问团队 · LLM 后训练(SFT、RLHF,文本与多模态)。 此前在字节跳动做多模态 LLM 预训练。 这里写的是工业级后训练管线里的真实踩坑、设计权衡与判断。

Now · 2026-05搭夸克搜索的多模态后训练管线;写一篇 reward model 失败模式分析。/now →

精选项目

我做过、还在做、或许会做的东西

全部 →

最新文章

后训练踩坑、技术判断、复盘

全部 →

最新报告

评测报告、可视化分析、模型 demo

全部 →