评测管线示例报告
Mock 数据 / 仅作样式占位
总样本
2,048
通过率
87.3%
+2.1
平均时延
1.42s
+0.08
Token / 样本
682
分类目通过率
code
91%
math
78%
qa
88%
tool-use
84%
long-ctx
69%