新口径国产四模型对比报告

deepseek-v4-pro 仍更适合当默认主力，能力和 qwen3.6-max-preview 持平但延迟更轻；qwen3.6-max-preview 本轮抗幻觉最好，5 道幻觉题全过，但慢且有 503；glm-5 能力分最高，不过延迟太重；kimi-k2.6 最快最稳，但复杂推理短板明显。

作者 x.com/hg_nohair

新口径四模型对比报告

生成时间: 2026-05-21 23:45:00 +0800
评测器版本: 1.7.0
网关 Base: https://api.niuwoai.com
对比模型: glm-5, deepseek-v4-pro, qwen3.6-max-preview, kimi-k2.6
口径变化: 模型能力分与端点稳定性分开展示；模型能力分默认不含 endpoint / performance / observability / reliability / optional / multimodal / embeddings / safety，满分仍为 1。
本轮关闭: 多模态、Embeddings。

1. 新排名

排名	模型	模型能力分	计分项	端点成功率	性能 p50	可靠度 p50	主要结论
1	`glm-5`	0.8400	30	1.000	12517 ms	37271 ms	能力分最高，但端点延迟很重
2	`deepseek-v4-pro`	0.8283	30	0.944	4245 ms	20232 ms	综合仍稳，但本轮有 503 影响
3	`qwen3.6-max-preview`	0.8283	30	0.944	7945 ms	22524 ms	幻觉题全过，推理强，但慢且有 503
4	`kimi-k2.6`	0.7267	30	1.000	2130 ms	1797 ms	端点最稳最快，但复杂推理明显弱

2. 关键变化

新增幻觉题后，事实性画像更清楚：

模型	幻觉题表现
`qwen3.6-max-preview`	5/5 全过，是本轮事实性探针最稳的模型
`deepseek-v4-pro`	4/5 通过；虚构大学题遇到 503，按端点错误和能力题失败记录
`kimi-k2.6`	4/5 通过；虚构诺贝尔门类只得 0.30
`glm-5`	3/5 高分；虚构诺贝尔门类 0.30，错误名言归因 0.20

拆分端点稳定性后，结论也变了：

glm-5 能力分第一，但端点/延迟不适合作为低延迟主链路。
qwen3.6-max-preview 幻觉和事实性很好，但仍然慢，并且两道规划题遇到 503。
deepseek-v4-pro 能力分和 qwen3.6-max-preview 并列，但延迟更轻；本轮也有 503。
kimi-k2.6 虽然能力分低，但端点成功率和延迟最好，适合轻任务。

3. 能力取舍

维度	最好	说明
模型能力分	`glm-5`	0.8400，略高于 deepseek/qwen
事实性/抗幻觉	`qwen3.6-max-preview`	新增 5 道幻觉题全部通过
复杂推理	`glm-5` / `qwen3.6-max-preview` / `deepseek-v4-pro`	三者总体强，但本轮 deepseek/qwen 有 503 扰动
端点稳定	`kimi-k2.6` / `glm-5`	成功率 1.000；但 `glm-5` 延迟显著更重
低延迟	`kimi-k2.6`	性能 p50 2130 ms，可靠度 p50 1797 ms
严格 `max_tokens`	`kimi-k2.6`	只有它通过 `max_tokens_cap`

4. 最终建议

用途	建议
默认综合主力	`deepseek-v4-pro`，因为能力接近第一且延迟比 `glm-5` / `qwen3.6-max-preview` 更可控
高事实性/抗幻觉兜底	`qwen3.6-max-preview`，但建议异步或低频调用
推理备选	`glm-5`，能力分高，但要接受高延迟
快速轻任务/工具链	`kimi-k2.6`
严格 token 截断	`kimi-k2.6`