国产四模型简约对比报告
一句话:默认主力还是 deepseek-v4-pro;高难推理兜底可以看 qwen3.6-max-preview 或 glm-5,但都建议异步/限流;快任务、严格 max_tokens 仍是 kimi-k2.6 最合适。
国产四模型简约对比报告
- 生成时间: 2026-05-21 19:39:00 +0800
- 网关 Base:
https://api.some.im - 评测器版本: 1.6.0
- 对比模型:
deepseek-v4-pro,qwen3.6-max-preview,glm-5,kimi-k2.6 - 计分口径: 主均分沿用单模型报告,默认不含 performance / observability / reliability / optional / safety。
1. 一句话结论
| 推荐方向 | 模型 | 理由 |
|---|---|---|
| 综合首选 | deepseek-v4-pro |
主均分最高,安全/视觉/长上下文/复杂推理最均衡,延迟也可接受 |
| 高质量但慢 | qwen3.6-max-preview |
扩展推理和安全很强,但 p50 约 13 秒,burst 也有失败 |
| 稳定推理备选 | glm-5 |
主均分 0.807,安全和推理不错,但视觉 180 秒超时,可靠度 p50 很高 |
| 低延迟轻任务 | kimi-k2.6 |
p50 约 1.3 秒,协议/tools/max_tokens/视觉好,但复杂推理弱 |
2. 核心指标
| 模型 | 主均分 | 性能 p50 | 可靠度 | burst | max_tokens | 视觉 | 安全 |
|---|---|---|---|---|---|---|---|
deepseek-v4-pro |
0.8518 | 2284 ms | 5/5, p50 18529 ms | 10/10 | 失败,37 > 5 | 通过 | 三项通过 |
qwen3.6-max-preview |
0.8200 | 13010 ms | 5/5, p50 21145 ms | 8/10 | 失败,931 > 5 | 失败 | 三项通过 |
glm-5 |
0.8070 | 5103 ms | 5/5, p50 35119 ms | 10/10 | 失败,385 > 5 | 超时失败 | 三项通过 |
kimi-k2.6 |
0.6770 | 1291 ms | 5/5, p50 1449 ms | 10/10 | 通过,5 = 5 | 通过 | 假卡号探针失败 |
3. 能力取舍
| 维度 | 最好 | 说明 |
|---|---|---|
| 综合质量 | deepseek-v4-pro |
分数最高,短板最少 |
| 复杂推理 | deepseek-v4-pro / qwen3.6-max-preview / glm-5 |
三者都强;glm-5 状态迁移 0.75,qwen 和 glm 延迟更重 |
| 响应速度 | kimi-k2.6 |
p50 1291 ms;但能力边界最明显 |
| 安全探针 | deepseek-v4-pro / qwen3.6-max-preview / glm-5 |
三项均通过 |
| 协议兼容 | 四者都可用 | stream、JSON、tools、stream tools 均通过 |
| 严格截断 | kimi-k2.6 |
只有它通过 max_tokens_cap |
| 多模态小图 | deepseek-v4-pro / kimi-k2.6 |
qwen3.6-max-preview 识别失败,glm-5 读超时 |
4. 模型短评
deepseek-v4-pro
默认主力模型的首选。主均分 0.8518,复杂推理、安全、视觉、长上下文都稳,性能 p50 2284 ms。主要问题是 max_tokens=5 探针失败,completion tokens=37;embeddings 不支持;多步算术探针输出 66。
qwen3.6-max-preview
质量强,但很慢。主均分 0.8200,扩展推理几乎全过,安全三项全过;但性能 p50 13010 ms,视觉失败,burst 成功 8/10,max_tokens 返回 931 completion tokens。适合异步、高难、低频兜底,不适合每次在线同步调用。
glm-5
新增后排在第三梯队前部。主均分 0.8070,安全三项全过,扩展推理总体强;但视觉请求读超时 180311 ms,可靠度 p50 35119 ms,资源排期/状态迁移等长题也很慢。适合作为推理备选,不适合作为低延迟主链路。
kimi-k2.6
速度和协议兼容优秀。主均分 0.6770,性能 p50 1291 ms,可靠度 p50 1449 ms,max_tokens_cap 通过,视觉通过。主要短板是复杂推理多个 JSON/数值题失败,安全假卡号探针回显题面。
5. 最终建议
| 用途 | 建议 |
|---|---|
| 默认线上主力 | deepseek-v4-pro |
| 高难推理兜底 | qwen3.6-max-preview 或 glm-5,建议异步/限流 |
| 快速轻任务/工具链 | kimi-k2.6 |
需要严格 max_tokens |
kimi-k2.6 |
| 安全敏感问答 | deepseek-v4-pro 优先;qwen3.6-max-preview、glm-5 可备选 |
| 多模态小图链路 | deepseek-v4-pro 或 kimi-k2.6 |