~
YZ

昱泽 · Yu Ze

LLM 后训练工程师 · 阿里巴巴夸克搜索

Hangzhou / Beijing · 中国 · English version →

做 LLM 后训练。文本和多模态模型的 SFTRLHF, 覆盖数据管线、训练、评测、上线全链路。当前在 阿里巴巴夸克搜索,把后训练能力落到搜索场景。 此前在 字节跳动 做多模态 LLM 预训练。

这个站点是我的工作笔记 + 项目档案 + 技术判断的合集。 想要快速结构化版本,直接去 CV;想看我现在在折腾什么,去 /now

经历 / Experience

  1. 2024 — 至今
    Alibaba · 阿里巴巴· 夸克搜索 / Quark
    LLM 后训练工程师
    • 负责夸克搜索场景下的纯文本与多模态模型后训练(SFT + RLHF)。
    • TODO: 自己加一句具体的、带数字的 ownership —— e.g. "owner of 7B/72B SFT 数据管线,月产 ~Xk 高质量样本,下游模型在 X benchmark 上 +Y pp"。
    • TODO: 一句搜索/排序业务侧的指标改善,能匿名就匿名。
  2. 2022 — 2024
    ByteDance · 字节跳动· 多模态大模型
    多模态 LLM 预训练
    • 参与多模态大模型的预训练阶段:数据管线、训练策略、scaling 行为分析。
    • TODO: 一句关于规模的事实 —— e.g. "训练数据 >Xb tokens / >Y 张 A100·小时 / 模型参数量 X-Y B"。
    • TODO: 一句你独立 own 的子系统 —— e.g. "图文对清洗管线 / vision encoder 训练 / 损失实验"。
  3. 2015 — 2019
    北京航空航天大学 · BUAA· 本科
    TODO: 学院 / 专业
    • TODO: 一句你愿意公开的方向 —— e.g. "计算机学院 · GPA 排名 / 竞赛 / 论文"。

现在在折腾什么 / Now

  • 搭夸克搜索场景下的多模态后训练管线,SFT + RLHF 全栈。
  • 攒博客内容:reward model 失败模式、SFT 数据质量框架、vLLM 在线服务调优。
  • TODO: 第三件正在做的事。

技术栈 / Stack

Python · PyTorchTransformers · TRLMegatron-LM / DeepSpeedvLLM · SGLangRLHF (PPO / DPO / GRPO)SFT 数据管线评测管线 · LLM-as-judge多模态对齐

联系 / Contact