阿里巴巴 · 千问团队 · LLM 后训练(SFT、RLHF,文本与多模态)。 此前在字节跳动做多模态 LLM 预训练。 这里写的是工业级后训练管线里的真实踩坑、设计权衡与判断。
我做过、还在做、或许会做的东西
你正在看的这个站点本身。Next.js 16 + MDX + Tailwind v4,部署在 GitHub Pages。
后训练踩坑、技术判断、复盘
一个 AI 工程师为什么要写自己的博客,以及这个站点用 Next.js + MDX 是怎么搭起来的。
评测管线最容易踩的坑不是评测算法本身,而是被忽略的工程边界条件。
评测报告、可视化分析、模型 demo
用占位数据演示一份典型的周度评测报告 —— 顶部是嵌入的 HTML 看板,下面是文字解读。
按 session / turn / tool call / A 类意图四个层次整理一次平台推理跑批中的 tool call 分布,并和 role=tool 返回数做一致性校验。