昱泽 · Yu Ze

LLM 后训练工程师 · 阿里巴巴夸克搜索

Hangzhou / Beijing · 中国 · English version →

做 LLM 后训练。文本和多模态模型的 SFT 与 RLHF，覆盖数据管线、训练、评测、上线全链路。当前在 阿里巴巴夸克搜索，把后训练能力落到搜索场景。此前在 字节跳动 做多模态 LLM 预训练。

这个站点是我的工作笔记 + 项目档案 + 技术判断的合集。想要快速结构化版本，直接去 CV；想看我现在在折腾什么，去 /now。

经历 / Experience

2024 — 至今
Alibaba · 阿里巴巴· 夸克搜索 / Quark
LLM 后训练工程师
- 负责夸克搜索场景下的纯文本与多模态模型后训练（SFT + RLHF）。
- TODO: 自己加一句具体的、带数字的 ownership —— e.g. "owner of 7B/72B SFT 数据管线，月产 ~Xk 高质量样本，下游模型在 X benchmark 上 +Y pp"。
- TODO: 一句搜索/排序业务侧的指标改善，能匿名就匿名。
2022 — 2024
ByteDance · 字节跳动· 多模态大模型
多模态 LLM 预训练
- 参与多模态大模型的预训练阶段：数据管线、训练策略、scaling 行为分析。
- TODO: 一句关于规模的事实 —— e.g. "训练数据 >Xb tokens / >Y 张 A100·小时 / 模型参数量 X-Y B"。
- TODO: 一句你独立 own 的子系统 —— e.g. "图文对清洗管线 / vision encoder 训练 / 损失实验"。
2015 — 2019
北京航空航天大学 · BUAA· 本科
TODO: 学院 / 专业
- TODO: 一句你愿意公开的方向 —— e.g. "计算机学院 · GPA 排名 / 竞赛 / 论文"。

Python · PyTorchTransformers · TRLMegatron-LM / DeepSpeedvLLM · SGLangRLHF (PPO / DPO / GRPO)SFT 数据管线评测管线 · LLM-as-judge多模态对齐