~
← 返回报告
报告··全屏打开 ↗

评测管线 v1 周度报告(示例)

用占位数据演示一份典型的周度评测报告 —— 顶部是嵌入的 HTML 看板,下面是文字解读。

#llm#eval#demo

看什么

这份报告把上周一次完整评测跑出的指标拍平到一张静态看板里。 顶部 iframe 是看板本身,下面这段文字解释怎么读接下来该看哪里

读图三步

  1. 总览四格:通过率 / 时延 / token 量级,先确认没有数量级层面的退化。
  2. 分类目柱状图:哪个类目掉了 5pp 以上就值得单独下钻。
  3. 页脚 run_id:所有结论都对得上某次具体的 run,不是平均出来的玄学数字。

这一周值得看的

  • long-ctx 通过率 69%,是全场最低,可能跟新一版 context 截断策略有关。
  • math 提升到 78%,对得上上周合并的 system prompt 改动。
  • 平均时延 +0.08s,量小,但要盯着别再涨。

下一步

下钻到 long-ctx 的具体 bad case(在评测产物的 failures.jsonl 里), 按 prompt 长度分桶看是不是某个长度段集中翻车。