评测管线示例报告

Mock 数据 / 仅作样式占位

总样本
2,048
通过率
87.3%+2.1
平均时延
1.42s+0.08
Token / 样本
682

分类目通过率

code
91%
math
78%
qa
88%
tool-use
84%
long-ctx
69%