← 返回报告

报告·2026年5月17日·全屏打开 ↗

评测管线 v1 周度报告（示例）

用占位数据演示一份典型的周度评测报告 —— 顶部是嵌入的 HTML 看板，下面是文字解读。

#llm#eval#demo

看什么

这份报告把上周一次完整评测跑出的指标拍平到一张静态看板里。顶部 iframe 是看板本身，下面这段文字解释怎么读和接下来该看哪里。

读图三步

总览四格：通过率 / 时延 / token 量级，先确认没有数量级层面的退化。
分类目柱状图：哪个类目掉了 5pp 以上就值得单独下钻。
页脚 run_id：所有结论都对得上某次具体的 run，不是平均出来的玄学数字。

这一周值得看的

long-ctx 通过率 69%，是全场最低，可能跟新一版 context 截断策略有关。
math 提升到 78%，对得上上周合并的 system prompt 改动。
平均时延 +0.08s，量小，但要盯着别再涨。

下一步

下钻到 long-ctx 的具体 bad case（在评测产物的 failures.jsonl 里），按 prompt 长度分桶看是不是某个长度段集中翻车。