当前进度

1渠道
2模型
3准入
4标准
5交付
正在判断当前下一步...
渠道健康📡
0 个渠道
最近评测结论🎯
0 份报告
待办
0

最近报告

全部报告 →

第 3 步 · 准入评测模型准入评测

先判断这个渠道是否值得继续测试。它会检查连通、结构化输出、标称一致性、工具调用、流式结构、基础编程和行为一致性,生成准入等级和报告。

查看准入等级说明
A / B 可以继续复测

基础结构和行为正常,可以进入稳定性、编程场景和成本测试。

C 需要观察

可用但存在结构、工具调用或耗时问题,建议先复核配置再测。

D / E / F / X 暂不开放

存在明显错误、疑似协议不匹配、上游波动或不可用,需要先排查。

执行前预估

选择参数后会显示大概会消耗多少额度。
批量准入对比

用于一次性对比多个候选渠道。它会按同一测试包逐个执行准入评测,适合接入前筛选 2-5 个同模型渠道。

选择 API 后会显示大概会消耗多少额度。
批量准入完成后会生成汇总报告,并进入报告中心排行榜。

准入结果

等待评测。

第 4 步 · 标准评测标准评测

推荐优先使用这一页。它是一键流程,会自动执行快速测试、稳定性测试和少量复杂场景测试。单独的稳定性/场景测试属于高级复测。

查看本页说明
第 1 步 快速测试

先确认 URL、Key、模型名和协议能正常请求。

第 2 步 3 轮稳定性

用低成本方式观察是否有超时、空响应或上游错误。

第 3 步 少量复杂场景

只跑 2 个轻量场景,快速判断是否值得进入深度复测。

标准评测进度

1 快速测试 等待开始。
2 稳定性测试 等待开始。
3 复杂场景 等待开始。

标准评测结果

人话结论 等待评测

完成标准评测后,这里会先给出能否继续使用、主要原因和下一步建议。

查看技术详情
等待评测。

第 1 步 · API 配置配置要评测的渠道

普通用户只填必填项,点“保存并测试配置”。Key 只存本机,不进报告/导出。

普通用户只填这里

必填信息

如果你只是拿到一个 API 地址和 Key 来测试,填完下面几项后直接点“保存并测试配置”。

高级设置,一般不用改
填写配置后,这里会提示明显风险。

已配置渠道

渠道管理配置上游渠道(超管)

渠道 = 连接信息(Base URL + Key + 协议)。Key 只存本机、不进报告/导出、管理员看不到。一个渠道下可挂多个模型,去“模型管理”里选用。

模型管理配置要测的模型(管理员)

选一个渠道 + 填一个模型名 = 一个测试目标。看不到也不需要 Key。运行测试时从这里选目标。

高级 · 快速连通快速连通测试

成本最低的一步。只确认 URL、Key、模型名和协议是否能正常请求。

⚡ 一键快检 · 真伪 / token 虚报 / 真实消耗

少量探针、输出封顶,成本可控。一次性给出渠道真伪、token 是否虚报、以及本次真实消耗。

等待快检。
查看测试说明
什么时候用 每次新增或修改 API 后先跑它

快速测试失败时,不要继续跑稳定性或场景测试。

怎么判断 看是否成功、请求状态和错误类型

如果失败,优先检查协议、Key、模型名和 Base URL。

测试结果

等待测试。

高级 · 稳定性稳定性测试与报告

用于判断一个渠道是不是稳定。先小轮数筛查,再用 10 或 30 轮复测。

查看轮数说明
3 轮 冒烟测试

刚换 URL、Key、协议或模型名时使用,快速排除明显错误。

10 轮 基础稳定性

日常对比推荐使用,能看到成功率、平均耗时和慢请求。

30 轮 候选复测

更耗 token,适合准备推荐某个渠道前做确认。

执行前预估

选择参数后会显示大概会消耗多少额度。

汇总结论

等待测试。

报告摘要与文件路径

查看测试摘要和报告位置
测试完成后会在这里显示摘要和本地报告文件路径。

批量并发评测

批量并发测试

用于多个模型或渠道横向对比。建议先选 2-3 个 API 小轮数筛查。

选择参数后会显示大概会消耗多少额度。
查看批量测试详情
适合同时对比多个模型或渠道。建议先用 3 轮快速筛查,再跑 10 轮正式对比。

高级 · 场景能力复杂场景测试

用于观察模型在编程、长上下文、JSON、推理、写作等真实任务里的表现。

查看场景测试说明
成本提醒 复杂场景最耗额度

第一次不要全量多模型多重复,先少量 API、少量场景试跑。

质量分说明 当前是规则化快速筛查

质量分可用来粗筛,正式结论还需要人工抽查输出内容。

适合场景 最终候选模型复核

当稳定性已经过关,再用复杂场景确认真实任务能力。

执行前预估

选择参数后会显示大概会消耗多少额度。

场景测试摘要与文件路径

查看场景测试摘要和报告位置
等待测试。

高级 · 趋势稳定性趋势与基线回归

同一供应商 / 同一渠道的历次测试随时间的变化。掉级会与历史基线对比并告警,方便观察稳定性。

成功率趋势

选择测试目标后显示历次测试曲线。

历次测试

回归告警

第 5 步 · 报告中心所有结论、排行与日志

先看极简结论,再看结论卡片、排行榜和记录。给负责人汇报时优先用交付模板。

先看这里

极简结论

完成测试后这里会显示推荐、观察或不推荐。

最新结论

报告结论卡片

还没有可分析的测试报告。

横向对比

模型 / 渠道排行榜

完成标准评测或高级复测后会生成排行榜。

同模型对比

多渠道对比矩阵

同一模型有多个候选或可信基线时,这里会显示对比矩阵。

最近测试报告

真实客户端日志分析

把 Claude Code、Codex、Gemini CLI 等本地代理日志粘贴进来,生成脱敏分析报告。适合复盘 524、504、client_gone、Content block not found 等真实使用问题。

粘贴日志后生成报告,报告会进入“最近测试报告”。

单条请求回放

用当前 API 配置复现一条真实客户端请求

会真实消耗额度。请只粘贴脱敏后的单条请求 JSON,工具会使用所选 API 当前保存的 Key 发起请求,不会使用日志里的 Key。

回放会真实请求 API,请确认成本和内容后再执行。
最近任务状态

用于判断上次测试是否完成、失败、取消或因程序关闭而中断。

最近请求记录

第 6 步 · 测试交付测试交付模板

本次测试信息

这一步不是必填。填写后会自动带入交付模板,方便负责人知道这次测的是谁、哪一批、为什么测。

当前交付结论

还没有测试结果。请先完成标准评测。

交付前检查清单

可复制交付内容

等待生成交付模板。

中文使用说明使用手册

正在加载使用手册...