YZ
做 LLM 后训练。文本和多模态模型的 SFT 与 RLHF, 覆盖数据管线、训练、评测、上线全链路。当前在 阿里巴巴夸克搜索,把后训练能力落到搜索场景。 此前在 字节跳动 做多模态 LLM 预训练。
这个站点是我的工作笔记 + 项目档案 + 技术判断的合集。 想要快速结构化版本,直接去 CV;想看我现在在折腾什么,去 /now。
经历 / Experience
- 2024 — 至今Alibaba · 阿里巴巴· 夸克搜索 / QuarkLLM 后训练工程师
- 负责夸克搜索场景下的纯文本与多模态模型后训练(SFT + RLHF)。
- TODO: 自己加一句具体的、带数字的 ownership —— e.g. "owner of 7B/72B SFT 数据管线,月产 ~Xk 高质量样本,下游模型在 X benchmark 上 +Y pp"。
- TODO: 一句搜索/排序业务侧的指标改善,能匿名就匿名。
- 2022 — 2024ByteDance · 字节跳动· 多模态大模型多模态 LLM 预训练
- 参与多模态大模型的预训练阶段:数据管线、训练策略、scaling 行为分析。
- TODO: 一句关于规模的事实 —— e.g. "训练数据 >Xb tokens / >Y 张 A100·小时 / 模型参数量 X-Y B"。
- TODO: 一句你独立 own 的子系统 —— e.g. "图文对清洗管线 / vision encoder 训练 / 损失实验"。
- 2015 — 2019北京航空航天大学 · BUAA· 本科TODO: 学院 / 专业
- TODO: 一句你愿意公开的方向 —— e.g. "计算机学院 · GPA 排名 / 竞赛 / 论文"。
现在在折腾什么 / Now
- 搭夸克搜索场景下的多模态后训练管线,SFT + RLHF 全栈。
- 攒博客内容:reward model 失败模式、SFT 数据质量框架、vLLM 在线服务调优。
- TODO: 第三件正在做的事。
技术栈 / Stack
Python · PyTorchTransformers · TRLMegatron-LM / DeepSpeedvLLM · SGLangRLHF (PPO / DPO / GRPO)SFT 数据管线评测管线 · LLM-as-judge多模态对齐
联系 / Contact
- EmailTODO@example.com
- GitHubgithub.com/houpanpan
- LinkedInlinkedin.com/in/TODO