评测管线 v1 周度报告(示例)
用占位数据演示一份典型的周度评测报告 —— 顶部是嵌入的 HTML 看板,下面是文字解读。
#llm#eval#demo
看什么
这份报告把上周一次完整评测跑出的指标拍平到一张静态看板里。 顶部 iframe 是看板本身,下面这段文字解释怎么读和接下来该看哪里。
读图三步
- 总览四格:通过率 / 时延 / token 量级,先确认没有数量级层面的退化。
- 分类目柱状图:哪个类目掉了 5pp 以上就值得单独下钻。
- 页脚 run_id:所有结论都对得上某次具体的 run,不是平均出来的玄学数字。
这一周值得看的
long-ctx通过率 69%,是全场最低,可能跟新一版 context 截断策略有关。math提升到 78%,对得上上周合并的 system prompt 改动。- 平均时延 +0.08s,量小,但要盯着别再涨。
下一步
下钻到 long-ctx 的具体 bad case(在评测产物的 failures.jsonl 里),
按 prompt 长度分桶看是不是某个长度段集中翻车。