新口径国产四模型对比报告
deepseek-v4-pro 仍更适合当默认主力,能力和 qwen3.6-max-preview 持平但延迟更轻;qwen3.6-max-preview 本轮抗幻觉最好,5 道幻觉题全过,但慢且有 503;glm-5 能力分最高,不过延迟太重;kimi-k2.6 最快最稳,但复杂推理短板明显。
新口径四模型对比报告
- 生成时间: 2026-05-21 23:45:00 +0800
- 评测器版本: 1.7.0
- 网关 Base:
https://api.niuwoai.com - 对比模型:
glm-5,deepseek-v4-pro,qwen3.6-max-preview,kimi-k2.6 - 口径变化: 模型能力分与端点稳定性分开展示;模型能力分默认不含 endpoint / performance / observability / reliability / optional / multimodal / embeddings / safety,满分仍为 1。
- 本轮关闭: 多模态、Embeddings。
1. 新排名
| 排名 | 模型 | 模型能力分 | 计分项 | 端点成功率 | 性能 p50 | 可靠度 p50 | 主要结论 |
|---|---|---|---|---|---|---|---|
| 1 | glm-5 |
0.8400 | 30 | 1.000 | 12517 ms | 37271 ms | 能力分最高,但端点延迟很重 |
| 2 | deepseek-v4-pro |
0.8283 | 30 | 0.944 | 4245 ms | 20232 ms | 综合仍稳,但本轮有 503 影响 |
| 3 | qwen3.6-max-preview |
0.8283 | 30 | 0.944 | 7945 ms | 22524 ms | 幻觉题全过,推理强,但慢且有 503 |
| 4 | kimi-k2.6 |
0.7267 | 30 | 1.000 | 2130 ms | 1797 ms | 端点最稳最快,但复杂推理明显弱 |
2. 关键变化
新增幻觉题后,事实性画像更清楚:
| 模型 | 幻觉题表现 |
|---|---|
qwen3.6-max-preview |
5/5 全过,是本轮事实性探针最稳的模型 |
deepseek-v4-pro |
4/5 通过;虚构大学题遇到 503,按端点错误和能力题失败记录 |
kimi-k2.6 |
4/5 通过;虚构诺贝尔门类只得 0.30 |
glm-5 |
3/5 高分;虚构诺贝尔门类 0.30,错误名言归因 0.20 |
拆分端点稳定性后,结论也变了:
glm-5能力分第一,但端点/延迟不适合作为低延迟主链路。qwen3.6-max-preview幻觉和事实性很好,但仍然慢,并且两道规划题遇到 503。deepseek-v4-pro能力分和qwen3.6-max-preview并列,但延迟更轻;本轮也有 503。kimi-k2.6虽然能力分低,但端点成功率和延迟最好,适合轻任务。
3. 能力取舍
| 维度 | 最好 | 说明 |
|---|---|---|
| 模型能力分 | glm-5 |
0.8400,略高于 deepseek/qwen |
| 事实性/抗幻觉 | qwen3.6-max-preview |
新增 5 道幻觉题全部通过 |
| 复杂推理 | glm-5 / qwen3.6-max-preview / deepseek-v4-pro |
三者总体强,但本轮 deepseek/qwen 有 503 扰动 |
| 端点稳定 | kimi-k2.6 / glm-5 |
成功率 1.000;但 glm-5 延迟显著更重 |
| 低延迟 | kimi-k2.6 |
性能 p50 2130 ms,可靠度 p50 1797 ms |
严格 max_tokens |
kimi-k2.6 |
只有它通过 max_tokens_cap |
4. 最终建议
| 用途 | 建议 |
|---|---|
| 默认综合主力 | deepseek-v4-pro,因为能力接近第一且延迟比 glm-5 / qwen3.6-max-preview 更可控 |
| 高事实性/抗幻觉兜底 | qwen3.6-max-preview,但建议异步或低频调用 |
| 推理备选 | glm-5,能力分高,但要接受高延迟 |
| 快速轻任务/工具链 | kimi-k2.6 |
| 严格 token 截断 | kimi-k2.6 |