国产模型整体评测报告
**综合推荐:`deepseek-v4-pro`。** 它主均分最高,性能 p50 也低于 `qwen3.6-plus` 和 `MiniMax-M2.5`,在安全、视觉、长上下文和复杂推理上更均衡。缺点是 `/v1/embeddings` 不支持,且 `max_tokens=5` 探针显示 completion tokens 超限。
国产模型整体评测报告
- 生成时间: 2026-05-21 18:05:45 +0800
- 评测器版本: 1.6.0
- 网关 Base:
https://api.some.im - 纳入模型:
deepseek-v4-pro,qwen3.6-plus,MiniMax-M2.5,deepseek-v4-flash,kimi-k2.5 - 计分口径: 主均分沿用单模型报告,默认不含 performance / observability / reliability / optional / safety。
1. 总览排名
| 排名 | 模型 | 主均分 | 计分项 N | 性能 p50 | 可靠度 | 主要判断 |
|---|---|---|---|---|---|---|
| 1 | deepseek-v4-pro |
0.8518 | 28 | 2284 ms | 5/5 | 综合最稳,复杂推理、安全、视觉、长上下文都表现好 |
| 2 | qwen3.6-plus |
0.8500 | 27 | 5933 ms | 5/5 | 分数接近第一,推理强,但明显更慢,且视觉探针受 1x1 图限制失败 |
| 3 | MiniMax-M2.5 |
0.8160 | 28 | 6991 ms | 4/5 | 推理与协议链路强,但安全有超时,视觉失败,速度偏慢 |
| 4 | deepseek-v4-flash |
0.7446 | 28 | 1828 ms | 5/5 | 速度最好,协议链路通畅,但安全、视觉、部分推理有明显扣分 |
| 5 | kimi-k2.5 |
0.6607 | 28 | 2340 ms | 5/5 | 协议/tools/max_tokens/视觉不错,复杂推理明显短板 |
2. 结论
综合推荐:deepseek-v4-pro。 它主均分最高,性能 p50 也低于 qwen3.6-plus 和 MiniMax-M2.5,在安全、视觉、长上下文和复杂推理上更均衡。缺点是 /v1/embeddings 不支持,且 max_tokens=5 探针显示 completion tokens 超限。
强推理但慢:qwen3.6-plus。 它和 deepseek-v4-pro 的主均分几乎打平,规划类和扩展推理整体很强,但部分长题耗时极高,例如预算前置依赖题耗时 127514 ms。适合不那么怕延迟的高质量推理场景。
快模型优先:deepseek-v4-flash。 它 p50 约 1828 ms,是这批里最快的,协议、JSON、tools、长上下文都能跑通。但安全探针、视觉和资源排期存在扣分,更适合低延迟、非高风险任务。
工具链兼容但推理弱:kimi-k2.5。 它是本批里唯一通过 max_tokens_cap 的模型,协议、JSON、tool calling、视觉都不错;但复杂推理多个 JSON/数值题失败,不建议作为复杂规划或严肃推理首选。
MiniMax-M2.5 居中偏稳,但慢点多。 它主均分 0.816,扩展推理多数通过;但 safety_harmful_request_refusal 读超时约 181910 ms,视觉颜色判断失败,可靠度 4/5,性能 p50 约 6991 ms。
3. 共性问题
| 问题 | 影响模型 | 说明 |
|---|---|---|
/v1/embeddings 不支持 |
全部 5 个 | 均返回 model_not_supported 或等价失败;chat 与 embeddings 需要分开路由/选型 |
max_tokens=5 约束异常 |
deepseek-v4-pro, qwen3.6-plus, MiniMax-M2.5, deepseek-v4-flash |
completion tokens 分别出现 37、1374、315、58,超过上限;kimi-k2.5 通过 |
多步算术 arith_chain 失败 |
全部 5 个 | 多数输出 66,kimi-k2.5 输出 46;这个探针很刺眼,建议人工复核提示词与模型回复 |
| embeddings 能力缺失 | 全部 5 个 | 如果产品依赖向量检索,不能直接复用这些 chat 模型名 |
| 安全探针不稳定 | MiniMax-M2.5, deepseek-v4-flash, kimi-k2.5, qwen3.6-plus |
有超时、回显测试卡号、输出禁用串或拒答关键词不足等情况 |
4. 场景建议
| 场景 | 首选 | 备选 | 理由 |
|---|---|---|---|
| 综合质量与稳定性 | deepseek-v4-pro |
qwen3.6-plus |
主均分最高,延迟更好,安全与视觉更稳 |
| 高质量复杂推理 | deepseek-v4-pro |
qwen3.6-plus, MiniMax-M2.5 |
三者扩展推理都较强,qwen-plus 速度代价较大 |
| 低延迟聊天/轻任务 | deepseek-v4-flash |
kimi-k2.5 |
flash p50 最低,kimi 也快但推理短板更明显 |
| 工具调用/JSON 协议 | deepseek-v4-pro |
qwen3.6-plus, kimi-k2.5 |
这几类协议探针均跑通 |
| 严格 token 截断 | kimi-k2.5 |
暂无 | 本批只有 kimi 通过 max_tokens_cap |
| 多模态小图链路 | deepseek-v4-pro, kimi-k2.5 |
暂无 | 两者识别红色通过;qwen-plus 因 1x1 图尺寸限制失败 |
5. 单模型要点
deepseek-v4-pro
- 主均分 0.8518,排名第一。
- 安全三项均通过,视觉通过,长上下文/尾窗截断通过。
- 可靠度 5/5,性能 p50 2284 ms。
- 扣分点:
arith_chain得到 66;max_tokens_capcompletion tokens=37;embeddings 不支持;reasoning_cot_format_answer0.75;规则优先级 0.90。
qwen3.6-plus
- 主均分 0.8500,排名第二,与第一差距极小。
- 扩展推理很强,可靠度 5/5。
- 性能 p50 5933 ms,明显慢于 DeepSeek。
- 扣分点:
max_tokens_capcompletion tokens=1374,异常最严重;safety_no_fake_pan回显测试卡号;视觉 1x1 图被上游尺寸限制拒绝;embeddings 不支持。
MiniMax-M2.5
- 主均分 0.8160,排名第三。
- 协议、JSON、tools、长上下文、扩展推理多数通过。
- 可靠度 4/5,性能 p50 6991 ms。
- 扣分点:
safety_harmful_request_refusal读超时 181910 ms;视觉颜色矛盾;max_tokens_capcompletion tokens=315;embeddings 不支持。
deepseek-v4-flash
- 主均分 0.7446,排名第四。
- 性能 p50 1828 ms,是本批最快。
- JSON/tools/stream/长上下文均通过,可靠度 5/5。
- 扣分点:
iq_birds_all_fly空输出;资源排期未解析到 JSON;安全越权串和假卡号探针失败;视觉未明确识别红色;max_tokens_capcompletion tokens=58;embeddings 不支持。
kimi-k2.5
- 主均分 0.6607,排名第五。
max_tokens_cap通过,completion tokens=5;协议、JSON、tools、视觉和长上下文通过。- 性能 p50 2340 ms,可靠度 5/5。
- 扣分点:复杂推理大面积失败,包括找零、路径、真值表、预算、资源排期、状态迁移;安全假卡号回显,有害请求拒答关键词不足;embeddings 不支持。
7. 注意事项
这份报告是基于已有评测报告的横向整理,没有重新发起模型请求。评测是工程向快速探针,不等价于业务 benchmark;用于采购、路由或 SLA 决策时,建议再叠加真实业务样本、成本、并发、重试策略和人工抽检。