推荐：⌘P 打印 / 存为 PDFEnglish version →

昱泽 · Yu Ze

LLM 后训练工程师 · 阿里巴巴夸克搜索

📧 TODO@example.com🌐 yuze.dev💻 github.com/houpanpan🔗 linkedin.com/in/TODO

Summary

7 年 AI 算法工程经验，专注大语言模型后训练（SFT、RLHF）与多模态对齐。当前在阿里巴巴夸克搜索负责后训练管线，从数据生产、训练策略、评测体系到上线服务全链路。曾在字节跳动参与多模态 LLM 预训练，对 scaling、训练稳定性与数据质量有体感。

Experience

阿里巴巴 · Alibaba · 夸克搜索 · Quark

2024.XX — 至今

LLM 后训练工程师 · Senior

Owner of 搜索场景下文本与多模态模型的 SFT × RLHF 全链路：数据 → 训练 → 评测 → 上线。
TODO: 一句关于 scale —— "训练参数规模 X-YB / 月产 Zk SFT 样本 / DAU 数量级"。
TODO: 一句关于业务影响 —— "rerank / 答案生成在 X 指标上 +Y pp（匿名化）"。
TODO: 一句关于工程影响 —— "重构后训练管线，迭代周期从 N 天缩到 M 天"。
TODO: 一句跨团队协作 —— 数据 / 推理 / 算法对齐之类。

字节跳动 · ByteDance · 多模态大模型

2022.XX — 2024.XX

多模态 LLM 预训练算法工程师

参与多模态大模型预训练阶段：图文对清洗、训练策略、scaling 行为分析。
TODO: 一句关于子系统 —— 你独立 own 的部分。
TODO: 一句关于规模 —— tokens / GPU·小时 / 模型参数。
TODO: 一句结果 —— 在某个 benchmark 或下游任务上的提升。

TODO（如果有空缺期或前一份工作可以放这里）

2019.XX — 2022.XX

TODO: 如不需要可以删掉这一段。

Selected Projects

yuze.dev— 本站。Next.js 16 + MDX + Tailwind v4，静态导出到 GitHub Pages。

Skills

语言 / 框架: Python · PyTorch · Transformers · TRL · TypeScript（偶尔）
训练: Megatron-LM · DeepSpeed · 内部训练框架 · FSDP
推理 / 服务: vLLM · SGLang · TensorRT-LLM
后训练方法: SFT · PPO · DPO · GRPO · KTO · Reward Modeling
数据 / 评测: LLM-as-judge · 自研评测管线 · pandas / numpy · 数据清洗 / 去重

Education

北京航空航天大学 · Beihang University (BUAA) · TODO 学院 / 专业 / 学位

2015 — 2019