兼容模型评测结论（20260601-172211）

一句话结论：qwen3.7-max 综合第一，前沿推理优势明显；GLM-5.1 与 GLM-5 是第二梯队，分数非常接近；kimi-k2.5 事实性和稳定性最好，但推理规划拖后腿；qwen-plus 轻量、低延迟、基础可用，但复杂推理和前沿题较弱。

OpenAI 兼容模型评测结论（20260601-172211）

生成时间：2026-06-01 19:27:23 +0800
评测器版本：1.10.0
网关 Base：https://some.niuwoai.com
本批模型：qwen-plus、kimi-k2.5、qwen3.7-max、glm-5、glm-5.1

本批评测覆盖 5 个模型、50 项模型能力题。主均分是模型能力题的加权平均，不包含 endpoint、performance、observability、reliability、optional、multimodal、embeddings、safety 等工程探针项；端点稳定性单独列出。

排名	模型	主均分	前沿档	事实性/抗幻觉	端点成功率	延迟 p50 / p95	结论
1	qwen3.7-max	0.8917	0.822	0.890	53/54, 0.981	7815ms / 29593ms	综合最强，适合强推理和复杂任务，但延迟高，且有 max_tokens 异常。
2	glm-5.1	0.7615	0.467	0.810	49/54, 0.907	7458ms / 28324ms	主分略高于 GLM-5，前沿档略好，但稳定性仍需观察。
3	glm-5	0.7586	0.444	0.840	48/54, 0.889	12957ms / 24752ms	能力接近 GLM-5.1，但错误和 503/timeout 更多。
4	kimi-k2.5	0.6882	0.511	0.990	54/54, 1.000	1113ms / 10707ms	事实性、抗幻觉和端点稳定性表现突出，推理规划偏弱。
5	qwen-plus	0.6309	0.311	0.720	53/54, 0.981	844ms / 4042ms	低延迟、基础协议稳定，适合轻量任务，不建议承担复杂推理。

qwen3.7-max 是本批唯一接近 0.9 主均分的模型，推理/规划分桶 0.861，前沿档 0.822，明显领先其他模型。
GLM-5.1 与 GLM-5 的主均分差距很小：0.7615 vs 0.7586。单看能力分不足以拉开差距，GLM-5.1 在前沿档和成功率上略优。
kimi-k2.5 的事实性/抗幻觉分桶达到 0.990，端点请求 54/54 全部成功，是本批最稳的模型；主要短板是推理/规划分桶只有 0.522。
qwen-plus 协议/集成分桶满分，p50/p95 延迟最低，适合基础聊天、轻量问答和低成本 smoke；复杂数学、规划、前沿题表现不够。
max_tokens_cap 异常出现在 qwen3.7-max、glm-5、glm-5.1，表现为 completion_tokens 超过测试设定上限，建议后续按网关层和上游层分别复查。
embeddings 对本批聊天模型均为 unsupported，不计入主分；GLM 系出现多次 503/timeout，建议作为上游稳定性或路由策略问题单独排查。

场景	推荐模型	原因
强推理、复杂规划、前沿题	qwen3.7-max	主均分、推理/规划、前沿档均显著领先。
事实性、抗幻觉、稳定响应	kimi-k2.5	事实性/抗幻觉 0.990，端点成功率 100%。
中文综合备选、第二梯队	glm-5.1 / glm-5	能力表现接近，可作为综合备选，但上线前需关注 503/timeout。
轻量问答、低延迟、基础兼容 smoke	qwen-plus	延迟最低，协议/集成稳定，成本和速度更适合基础任务。

这是一组工程向快速探针，不是权威 benchmark。结果会受到网关路由、上游模型版本、请求参数、温度、提示词、网络状态等因素影响。建议把它用于上线前快速验收、横向冒烟和异常定位，不要单独作为最终模型选型依据。