新口径国产四模型对比报告

deepseek-v4-pro 仍更适合当默认主力,能力和 qwen3.6-max-preview 持平但延迟更轻;qwen3.6-max-preview 本轮抗幻觉最好,5 道幻觉题全过,但慢且有 503;glm-5 能力分最高,不过延迟太重;kimi-k2.6 最快最稳,但复杂推理短板明显。

作者 x.com/hg_nohair

新口径四模型对比报告

  • 生成时间: 2026-05-21 23:45:00 +0800
  • 评测器版本: 1.7.0
  • 网关 Base: https://api.niuwoai.com
  • 对比模型: glm-5, deepseek-v4-pro, qwen3.6-max-preview, kimi-k2.6
  • 口径变化: 模型能力分与端点稳定性分开展示;模型能力分默认不含 endpoint / performance / observability / reliability / optional / multimodal / embeddings / safety,满分仍为 1。
  • 本轮关闭: 多模态、Embeddings。

1. 新排名

排名 模型 模型能力分 计分项 端点成功率 性能 p50 可靠度 p50 主要结论
1 glm-5 0.8400 30 1.000 12517 ms 37271 ms 能力分最高,但端点延迟很重
2 deepseek-v4-pro 0.8283 30 0.944 4245 ms 20232 ms 综合仍稳,但本轮有 503 影响
3 qwen3.6-max-preview 0.8283 30 0.944 7945 ms 22524 ms 幻觉题全过,推理强,但慢且有 503
4 kimi-k2.6 0.7267 30 1.000 2130 ms 1797 ms 端点最稳最快,但复杂推理明显弱

2. 关键变化

新增幻觉题后,事实性画像更清楚:

模型 幻觉题表现
qwen3.6-max-preview 5/5 全过,是本轮事实性探针最稳的模型
deepseek-v4-pro 4/5 通过;虚构大学题遇到 503,按端点错误和能力题失败记录
kimi-k2.6 4/5 通过;虚构诺贝尔门类只得 0.30
glm-5 3/5 高分;虚构诺贝尔门类 0.30,错误名言归因 0.20

拆分端点稳定性后,结论也变了:

  • glm-5 能力分第一,但端点/延迟不适合作为低延迟主链路。
  • qwen3.6-max-preview 幻觉和事实性很好,但仍然慢,并且两道规划题遇到 503。
  • deepseek-v4-pro 能力分和 qwen3.6-max-preview 并列,但延迟更轻;本轮也有 503。
  • kimi-k2.6 虽然能力分低,但端点成功率和延迟最好,适合轻任务。

3. 能力取舍

维度 最好 说明
模型能力分 glm-5 0.8400,略高于 deepseek/qwen
事实性/抗幻觉 qwen3.6-max-preview 新增 5 道幻觉题全部通过
复杂推理 glm-5 / qwen3.6-max-preview / deepseek-v4-pro 三者总体强,但本轮 deepseek/qwen 有 503 扰动
端点稳定 kimi-k2.6 / glm-5 成功率 1.000;但 glm-5 延迟显著更重
低延迟 kimi-k2.6 性能 p50 2130 ms,可靠度 p50 1797 ms
严格 max_tokens kimi-k2.6 只有它通过 max_tokens_cap

4. 最终建议

用途 建议
默认综合主力 deepseek-v4-pro,因为能力接近第一且延迟比 glm-5 / qwen3.6-max-preview 更可控
高事实性/抗幻觉兜底 qwen3.6-max-preview,但建议异步或低频调用
推理备选 glm-5,能力分高,但要接受高延迟
快速轻任务/工具链 kimi-k2.6
严格 token 截断 kimi-k2.6