online · 2026

嗨，我是昱泽 · Yu Ze

LLM post-training · SFT × RLHF

阿里巴巴 · 千问团队 · LLM 后训练（SFT、RLHF，文本与多模态）。此前在字节跳动做多模态 LLM 预训练。这里写的是工业级后训练管线里的真实踩坑、设计权衡与判断。

阅读博客→CV / 简历关于我

Now · 2026-05搭夸克搜索的多模态后训练管线；写一篇 reward model 失败模式分析。/now →

精选项目

我做过、还在做、或许会做的东西

yuze.dev

你正在看的这个站点本身。Next.js 16 + MDX + Tailwind v4，部署在 GitHub Pages。

最新文章

后训练踩坑、技术判断、复盘

技术·2026年5月17日·2 min

Hello, World — 这个站点的由来与技术选型

一个 AI 工程师为什么要写自己的博客，以及这个站点用 Next.js + MDX 是怎么搭起来的。

#meta#nextjs#mdx

技术·2026年5月15日·2 min

搭一条能扛日常迭代的大模型评测管线

评测管线最容易踩的坑不是评测算法本身，而是被忽略的工程边界条件。

#llm#eval#infra

最新报告

评测报告、可视化分析、模型 demo

2026年5月17日

评测管线 v1 周度报告（示例）

用占位数据演示一份典型的周度评测报告 —— 顶部是嵌入的 HTML 看板，下面是文字解读。

2026年5月13日

E1-045 平台推理 Tools 分布报告

按 session / turn / tool call / A 类意图四个层次整理一次平台推理跑批中的 tool call 分布，并和 role=tool 返回数做一致性校验。