兼容模型评测结论(20260601-172211)

一句话结论:qwen3.7-max 综合第一,前沿推理优势明显;GLM-5.1 与 GLM-5 是第二梯队,分数非常接近;kimi-k2.5 事实性和稳定性最好,但推理规划拖后腿;qwen-plus 轻量、低延迟、基础可用,但复杂推理和前沿题较弱。

作者 x.com/hg_nohair

OpenAI 兼容模型评测结论(20260601-172211)

生成时间:2026-06-01 19:27:23 +0800
评测器版本:1.10.0
网关 Base:https://some.niuwoai.com
本批模型:qwen-plus、kimi-k2.5、qwen3.7-max、glm-5、glm-5.1

结论摘要

本批评测覆盖 5 个模型、50 项模型能力题。主均分是模型能力题的加权平均,不包含 endpoint、performance、observability、reliability、optional、multimodal、embeddings、safety 等工程探针项;端点稳定性单独列出。

一句话结论:qwen3.7-max 综合第一,前沿推理优势明显;GLM-5.1 与 GLM-5 是第二梯队,分数非常接近;kimi-k2.5 事实性和稳定性最好,但推理规划拖后腿;qwen-plus 轻量、低延迟、基础可用,但复杂推理和前沿题较弱。

排名总表

排名 模型 主均分 前沿档 事实性/抗幻觉 端点成功率 延迟 p50 / p95 结论
1 qwen3.7-max 0.8917 0.822 0.890 53/54, 0.981 7815ms / 29593ms 综合最强,适合强推理和复杂任务,但延迟高,且有 max_tokens 异常。
2 glm-5.1 0.7615 0.467 0.810 49/54, 0.907 7458ms / 28324ms 主分略高于 GLM-5,前沿档略好,但稳定性仍需观察。
3 glm-5 0.7586 0.444 0.840 48/54, 0.889 12957ms / 24752ms 能力接近 GLM-5.1,但错误和 503/timeout 更多。
4 kimi-k2.5 0.6882 0.511 0.990 54/54, 1.000 1113ms / 10707ms 事实性、抗幻觉和端点稳定性表现突出,推理规划偏弱。
5 qwen-plus 0.6309 0.311 0.720 53/54, 0.981 844ms / 4042ms 低延迟、基础协议稳定,适合轻量任务,不建议承担复杂推理。

主要发现

  1. qwen3.7-max 是本批唯一接近 0.9 主均分的模型,推理/规划分桶 0.861,前沿档 0.822,明显领先其他模型。
  2. GLM-5.1 与 GLM-5 的主均分差距很小:0.7615 vs 0.7586。单看能力分不足以拉开差距,GLM-5.1 在前沿档和成功率上略优。
  3. kimi-k2.5 的事实性/抗幻觉分桶达到 0.990,端点请求 54/54 全部成功,是本批最稳的模型;主要短板是推理/规划分桶只有 0.522。
  4. qwen-plus 协议/集成分桶满分,p50/p95 延迟最低,适合基础聊天、轻量问答和低成本 smoke;复杂数学、规划、前沿题表现不够。
  5. max_tokens_cap 异常出现在 qwen3.7-max、glm-5、glm-5.1,表现为 completion_tokens 超过测试设定上限,建议后续按网关层和上游层分别复查。
  6. embeddings 对本批聊天模型均为 unsupported,不计入主分;GLM 系出现多次 503/timeout,建议作为上游稳定性或路由策略问题单独排查。

使用建议

场景 推荐模型 原因
强推理、复杂规划、前沿题 qwen3.7-max 主均分、推理/规划、前沿档均显著领先。
事实性、抗幻觉、稳定响应 kimi-k2.5 事实性/抗幻觉 0.990,端点成功率 100%。
中文综合备选、第二梯队 glm-5.1 / glm-5 能力表现接近,可作为综合备选,但上线前需关注 503/timeout。
轻量问答、低延迟、基础兼容 smoke qwen-plus 延迟最低,协议/集成稳定,成本和速度更适合基础任务。

局限说明

这是一组工程向快速探针,不是权威 benchmark。结果会受到网关路由、上游模型版本、请求参数、温度、提示词、网络状态等因素影响。建议把它用于上线前快速验收、横向冒烟和异常定位,不要单独作为最终模型选型依据。