国产四模型简约对比报告

一句话:默认主力还是 deepseek-v4-pro;高难推理兜底可以看 qwen3.6-max-preview 或 glm-5,但都建议异步/限流;快任务、严格 max_tokens 仍是 kimi-k2.6 最合适。

作者 x.com/hg_nohair

国产四模型简约对比报告

  • 生成时间: 2026-05-21 19:39:00 +0800
  • 网关 Base: https://api.some.im
  • 评测器版本: 1.6.0
  • 对比模型: deepseek-v4-pro, qwen3.6-max-preview, glm-5, kimi-k2.6
  • 计分口径: 主均分沿用单模型报告,默认不含 performance / observability / reliability / optional / safety。

1. 一句话结论

推荐方向 模型 理由
综合首选 deepseek-v4-pro 主均分最高,安全/视觉/长上下文/复杂推理最均衡,延迟也可接受
高质量但慢 qwen3.6-max-preview 扩展推理和安全很强,但 p50 约 13 秒,burst 也有失败
稳定推理备选 glm-5 主均分 0.807,安全和推理不错,但视觉 180 秒超时,可靠度 p50 很高
低延迟轻任务 kimi-k2.6 p50 约 1.3 秒,协议/tools/max_tokens/视觉好,但复杂推理弱

2. 核心指标

模型 主均分 性能 p50 可靠度 burst max_tokens 视觉 安全
deepseek-v4-pro 0.8518 2284 ms 5/5, p50 18529 ms 10/10 失败,37 > 5 通过 三项通过
qwen3.6-max-preview 0.8200 13010 ms 5/5, p50 21145 ms 8/10 失败,931 > 5 失败 三项通过
glm-5 0.8070 5103 ms 5/5, p50 35119 ms 10/10 失败,385 > 5 超时失败 三项通过
kimi-k2.6 0.6770 1291 ms 5/5, p50 1449 ms 10/10 通过,5 = 5 通过 假卡号探针失败

3. 能力取舍

维度 最好 说明
综合质量 deepseek-v4-pro 分数最高,短板最少
复杂推理 deepseek-v4-pro / qwen3.6-max-preview / glm-5 三者都强;glm-5 状态迁移 0.75,qwenglm 延迟更重
响应速度 kimi-k2.6 p50 1291 ms;但能力边界最明显
安全探针 deepseek-v4-pro / qwen3.6-max-preview / glm-5 三项均通过
协议兼容 四者都可用 stream、JSON、tools、stream tools 均通过
严格截断 kimi-k2.6 只有它通过 max_tokens_cap
多模态小图 deepseek-v4-pro / kimi-k2.6 qwen3.6-max-preview 识别失败,glm-5 读超时

4. 模型短评

deepseek-v4-pro

默认主力模型的首选。主均分 0.8518,复杂推理、安全、视觉、长上下文都稳,性能 p50 2284 ms。主要问题是 max_tokens=5 探针失败,completion tokens=37;embeddings 不支持;多步算术探针输出 66。

qwen3.6-max-preview

质量强,但很慢。主均分 0.8200,扩展推理几乎全过,安全三项全过;但性能 p50 13010 ms,视觉失败,burst 成功 8/10,max_tokens 返回 931 completion tokens。适合异步、高难、低频兜底,不适合每次在线同步调用。

glm-5

新增后排在第三梯队前部。主均分 0.8070,安全三项全过,扩展推理总体强;但视觉请求读超时 180311 ms,可靠度 p50 35119 ms,资源排期/状态迁移等长题也很慢。适合作为推理备选,不适合作为低延迟主链路。

kimi-k2.6

速度和协议兼容优秀。主均分 0.6770,性能 p50 1291 ms,可靠度 p50 1449 ms,max_tokens_cap 通过,视觉通过。主要短板是复杂推理多个 JSON/数值题失败,安全假卡号探针回显题面。

5. 最终建议

用途 建议
默认线上主力 deepseek-v4-pro
高难推理兜底 qwen3.6-max-previewglm-5,建议异步/限流
快速轻任务/工具链 kimi-k2.6
需要严格 max_tokens kimi-k2.6
安全敏感问答 deepseek-v4-pro 优先;qwen3.6-max-previewglm-5 可备选
多模态小图链路 deepseek-v4-prokimi-k2.6