推荐:⌘P 打印 / 存为 PDFEnglish version →
昱泽 · Yu Ze
LLM 后训练工程师 · 阿里巴巴夸克搜索
📧 TODO@example.com🌐 yuze.dev💻 github.com/houpanpan🔗 linkedin.com/in/TODO
Summary
7 年 AI 算法工程经验,专注大语言模型后训练(SFT、RLHF)与多模态对齐。当前在阿里巴巴夸克搜索负责后训练管线,从数据生产、训练策略、评测体系到上线服务全链路。曾在字节跳动参与多模态 LLM 预训练,对 scaling、训练稳定性与数据质量有体感。
Experience
阿里巴巴 · Alibaba · 夸克搜索 · Quark
2024.XX — 至今
LLM 后训练工程师 · Senior
- Owner of 搜索场景下文本与多模态模型的 SFT × RLHF 全链路:数据 → 训练 → 评测 → 上线。
- TODO: 一句关于 scale —— "训练参数规模 X-YB / 月产 Zk SFT 样本 / DAU 数量级"。
- TODO: 一句关于业务影响 —— "rerank / 答案生成在 X 指标上 +Y pp(匿名化)"。
- TODO: 一句关于工程影响 —— "重构后训练管线,迭代周期从 N 天缩到 M 天"。
- TODO: 一句跨团队协作 —— 数据 / 推理 / 算法对齐之类。
字节跳动 · ByteDance · 多模态大模型
2022.XX — 2024.XX
多模态 LLM 预训练算法工程师
- 参与多模态大模型预训练阶段:图文对清洗、训练策略、scaling 行为分析。
- TODO: 一句关于子系统 —— 你独立 own 的部分。
- TODO: 一句关于规模 —— tokens / GPU·小时 / 模型参数。
- TODO: 一句结果 —— 在某个 benchmark 或下游任务上的提升。
TODO(如果有空缺期或前一份工作可以放这里)
2019.XX — 2022.XX
- TODO: 如不需要可以删掉这一段。
Selected Projects
- yuze.dev— 本站。Next.js 16 + MDX + Tailwind v4,静态导出到 GitHub Pages。
Skills
- 语言 / 框架
- Python · PyTorch · Transformers · TRL · TypeScript(偶尔)
- 训练
- Megatron-LM · DeepSpeed · 内部训练框架 · FSDP
- 推理 / 服务
- vLLM · SGLang · TensorRT-LLM
- 后训练方法
- SFT · PPO · DPO · GRPO · KTO · Reward Modeling
- 数据 / 评测
- LLM-as-judge · 自研评测管线 · pandas / numpy · 数据清洗 / 去重
Education
北京航空航天大学 · Beihang University (BUAA) · TODO 学院 / 专业 / 学位
2015 — 2019