E1-045 平台推理 Tools 分布报告
按 session / turn / tool call / A 类意图四个层次整理一次平台推理跑批中的 tool call 分布,并和 role=tool 返回数做一致性校验。
#llm#tool-use#eval
这份报告在看什么
一份针对 E1-045 平台推理(非量化)跑批的离线分析。
统计对象是 assistant 消息中的 tool_calls[],并把它和后续 role=tool 返回数做一致性校验,
找出实际被调起来的工具与意图标签之间的对应关系。
怎么读上面的看板
- 摘要四格:A 类 / BC 类各自的 session、turn、tool call 总量与单 turn 调用密度。
- 总体分布 + 不同 Tool 分布:先看 tool turn 占比,再看每个工具的命中次数。
参数解析失败为 0,说明所有
function.arguments都能正常 JSON 解析。 - A 类不同意图下 Tools 分布:意图标签是从
reasoning_content里按A-数字抽出来的, 多标签 turn 同时计入多个意图桶,没有显式标签的 turn 归为"未标注"。
一眼可看出的两件事
- A 类链路里
gaokao_volunteer_form占到 28.2%,是志愿方案链路的标志工具。 - BC 类近乎稳定走
gaokao_sc_tool_batch -> gaokao_search_tool的双调用模式,几乎不碰志愿表工具。
剩下的下钻细节都在看板里。