兼容模型评测结论(20260601-172211)
一句话结论:qwen3.7-max 综合第一,前沿推理优势明显;GLM-5.1 与 GLM-5 是第二梯队,分数非常接近;kimi-k2.5 事实性和稳定性最好,但推理规划拖后腿;qwen-plus 轻量、低延迟、基础可用,但复杂推理和前沿题较弱。
OpenAI 兼容模型评测结论(20260601-172211)
生成时间:2026-06-01 19:27:23 +0800
评测器版本:1.10.0
网关 Base:https://some.niuwoai.com
本批模型:qwen-plus、kimi-k2.5、qwen3.7-max、glm-5、glm-5.1
结论摘要
本批评测覆盖 5 个模型、50 项模型能力题。主均分是模型能力题的加权平均,不包含 endpoint、performance、observability、reliability、optional、multimodal、embeddings、safety 等工程探针项;端点稳定性单独列出。
一句话结论:qwen3.7-max 综合第一,前沿推理优势明显;GLM-5.1 与 GLM-5 是第二梯队,分数非常接近;kimi-k2.5 事实性和稳定性最好,但推理规划拖后腿;qwen-plus 轻量、低延迟、基础可用,但复杂推理和前沿题较弱。
排名总表
| 排名 | 模型 | 主均分 | 前沿档 | 事实性/抗幻觉 | 端点成功率 | 延迟 p50 / p95 | 结论 |
|---|---|---|---|---|---|---|---|
| 1 | qwen3.7-max | 0.8917 | 0.822 | 0.890 | 53/54, 0.981 | 7815ms / 29593ms | 综合最强,适合强推理和复杂任务,但延迟高,且有 max_tokens 异常。 |
| 2 | glm-5.1 | 0.7615 | 0.467 | 0.810 | 49/54, 0.907 | 7458ms / 28324ms | 主分略高于 GLM-5,前沿档略好,但稳定性仍需观察。 |
| 3 | glm-5 | 0.7586 | 0.444 | 0.840 | 48/54, 0.889 | 12957ms / 24752ms | 能力接近 GLM-5.1,但错误和 503/timeout 更多。 |
| 4 | kimi-k2.5 | 0.6882 | 0.511 | 0.990 | 54/54, 1.000 | 1113ms / 10707ms | 事实性、抗幻觉和端点稳定性表现突出,推理规划偏弱。 |
| 5 | qwen-plus | 0.6309 | 0.311 | 0.720 | 53/54, 0.981 | 844ms / 4042ms | 低延迟、基础协议稳定,适合轻量任务,不建议承担复杂推理。 |
主要发现
- qwen3.7-max 是本批唯一接近 0.9 主均分的模型,推理/规划分桶 0.861,前沿档 0.822,明显领先其他模型。
- GLM-5.1 与 GLM-5 的主均分差距很小:0.7615 vs 0.7586。单看能力分不足以拉开差距,GLM-5.1 在前沿档和成功率上略优。
- kimi-k2.5 的事实性/抗幻觉分桶达到 0.990,端点请求 54/54 全部成功,是本批最稳的模型;主要短板是推理/规划分桶只有 0.522。
- qwen-plus 协议/集成分桶满分,p50/p95 延迟最低,适合基础聊天、轻量问答和低成本 smoke;复杂数学、规划、前沿题表现不够。
- max_tokens_cap 异常出现在 qwen3.7-max、glm-5、glm-5.1,表现为 completion_tokens 超过测试设定上限,建议后续按网关层和上游层分别复查。
- embeddings 对本批聊天模型均为 unsupported,不计入主分;GLM 系出现多次 503/timeout,建议作为上游稳定性或路由策略问题单独排查。
使用建议
| 场景 | 推荐模型 | 原因 |
|---|---|---|
| 强推理、复杂规划、前沿题 | qwen3.7-max | 主均分、推理/规划、前沿档均显著领先。 |
| 事实性、抗幻觉、稳定响应 | kimi-k2.5 | 事实性/抗幻觉 0.990,端点成功率 100%。 |
| 中文综合备选、第二梯队 | glm-5.1 / glm-5 | 能力表现接近,可作为综合备选,但上线前需关注 503/timeout。 |
| 轻量问答、低延迟、基础兼容 smoke | qwen-plus | 延迟最低,协议/集成稳定,成本和速度更适合基础任务。 |
局限说明
这是一组工程向快速探针,不是权威 benchmark。结果会受到网关路由、上游模型版本、请求参数、温度、提示词、网络状态等因素影响。建议把它用于上线前快速验收、横向冒烟和异常定位,不要单独作为最终模型选型依据。