模型评测报告

以可复现脚本与指标对比各厂商与场景,支撑选型决策。

mimo2.5,mimo-2.5-pro 兼容評測

. 协议/集成能力 -- 两款模型表现一致(都满分): 流式 SSE、max_tokens、json_object、function calling、流式 tool_calls 合并 -- 全部通过 连发频控、可靠性重复采样也都正常 2. 推理能力 -- Pro 明显更强,但整体偏弱: mimo-v2.5-pro: 仅通过找零、再订货点、会议排期 3 题 / 共 13 题 mimo-v2.5: 仅通过关键路径 variant2 1 题 / 共 13 题 算术链、草莓字母计数、格路、预算优化、资源排期等较难推理题 双双零分

作者 x.com/hg_nohair

mimo2-5-mimo-2-5-pro-jian-rong-ping-ce阅读全文

mimo-2.5 评测报告

本报告由仓库内 `scripts/openai_compat_model_eval` 自动生成;在可自动化评分的用例上,**模型能力分(加权,41 项;扩展推理 ×2、幻觉 ×1.5;不含 endpoint/performance/observability/reliability/optional/multimodal/embeddings/safety[默认])**为 **0.242**(0~1,越高越好)。 **简单算术均分(对照 v1.7 口径)**: 0.267(同 41 项,各题权重均为 1)。

作者 x.com/hg_nohair

mimo-2-5-ping-ce-bao-gao阅读全文

mimo-2.5-pro评测报告

1. 协议/集成能力 -- 两款模型表现一致(都满分): 流式 SSE、max_tokens、json_object、function calling、流式 tool_calls 合并 -- 全部通过 连发频控、可靠性重复采样也都正常 2. 推理能力 -- Pro 明显更强,但整体偏弱: mimo-v2.5-pro: 仅通过找零、再订货点、会议排期 3 题 / 共 13 题 mimo-v2.5: 仅通过关键路径 variant2 1 题 / 共 13 题 算术链、草莓字母计数、格路、预算优化、资源排期等较难推理题 双双零分

作者 x.com/hg_nohair

mimo-2-5-pro-ping-ce-bao-gao阅读全文

qwen3.7-max 评测报告

模型能力分 0.828(30 项,不含 safety/embeddings/多模态等),主要失分项:JSON 模式:json_object_mode / 口头 JSON 均返回空内容,max_tokens:设 max_tokens=5 仍输出 1038 tokens(上游未 respect 上限),安全:safety_no_fake_pan 回显了测试卡号

作者 x.com/hg_nohair

qwen3-7-max-ping-ce-bao-gao阅读全文

新口径国产四模型对比报告

deepseek-v4-pro 仍更适合当默认主力,能力和 qwen3.6-max-preview 持平但延迟更轻;qwen3.6-max-preview 本轮抗幻觉最好,5 道幻觉题全过,但慢且有 503;glm-5 能力分最高,不过延迟太重;kimi-k2.6 最快最稳,但复杂推理短板明显。

作者 x.com/hg_nohair

xin-kou-jing-guo-chan-si-mo-xing-dui-bi-bao-gao阅读全文

glm-5 API 模型评估报告

本报告由仓库内 `scripts/openai_compat_model_eval` 自动生成;在可自动化评分的用例上,**平均分(约 28 项,不含纯性能/频控/可靠度/可选协议/safety[默认] 等行)**为 **0.807**(0~1,越高越好)。

作者 x.com/hg_nohair

glm-5-api-mo-xing-ping-gu-bao-gao阅读全文

国产四模型简约对比报告

一句话:默认主力还是 deepseek-v4-pro;高难推理兜底可以看 qwen3.6-max-preview 或 glm-5,但都建议异步/限流;快任务、严格 max_tokens 仍是 kimi-k2.6 最合适。

作者 x.com/hg_nohair

guo-chan-si-mo-xing-jian-yue-dui-bi-bao-gao阅读全文

MiniMax-2.5 模型评估报告

本报告由仓库内 `scripts/openai_compat_model_eval` 自动生成;在可自动化评分的用例上,**平均分(约 28 项,不含纯性能/频控/可靠度/可选协议/safety[默认] 等行)**为 **0.816**(0~1,越高越好)。 > **重要声明**:多模态、幻觉、长上下文、逻辑等题目均为工程向「快速探针」;分数受提示词、温度、网关路由、模型版本、语言分布影响。上线采购或 SLA 前请结合你们自有基准与人工审核。

作者 x.com/hg_nohair

minimax-2-5-mo-xing-ping-gu-bao-gao阅读全文

国产模型整体评测报告

**综合推荐:`deepseek-v4-pro`。** 它主均分最高,性能 p50 也低于 `qwen3.6-plus` 和 `MiniMax-M2.5`,在安全、视觉、长上下文和复杂推理上更均衡。缺点是 `/v1/embeddings` 不支持,且 `max_tokens=5` 探针显示 completion tokens 超限。

guo-chan-mo-xing-zheng-ti-ping-ce-bao-gao阅读全文

deepseek-v4-flash 评测报告

主均分:0.816(约 22 项可评分用例) 主要失分项: arith_chain:期望 56,得到 66 max_tokens_cap:usage.completion_tokens 与 max_tokens 不一致(上游/网关行为) safety_no_fake_pan:复述了题面测试卡号 embeddings_shape_latency:404 page not found(该路径可能未开 embeddings) 其余指令依从、流式、JSON、tools、长文、多模态等大多通过。

作者 x.com/hg_nohair

deepseek-v4-flash-ping-ce-bao-gao阅读全文

deepseek-v4-pro 评测报告

现较好 指令依从:小数比较、词数限制、精确 token、两行格式、禁数字 4 等几乎全过 协议:流式 SSE、json_object、function calling(天气工具)正常 长上下文:中部 needle + 尾窗截断(12k/16k 字符级)均命中 多模态:红色小图识别通过 扩展推理:找零 525、格路径 3 正确 幻觉探针:对虚构大学有拒答/不确定表述

deepseek-v4-pro-ping-ce-bao-gao阅读全文

kimi2.5 模型评估报告

本报告由仓库内 `scripts/openai_compat_model_eval` 自动生成;在可自动化评分的用例上,**平均分(约 22 项,不含纯性能/频控/可靠度/可选协议/safety[默认] 等行)**为 **0.816**(0~1,越高越好)。 > **重要声明**:多模态、幻觉、长上下文、逻辑等题目均为工程向「快速探针」;分数受提示词、温度、网关路由、模型版本、语言分布影响。上线采购或 SLA 前请结合你们自有基准与人工审核。

作者 x.com/hg_nohair

kimi2-5-mo-xing-ping-gu-bao-gao阅读全文

gemini-2.5-flash 模型评估报告

本报告由仓库内 scripts/openai_compat_model_eval 自动生成;在可自动化评分的用例上,平均分(约 22 项,不含纯性能/频控/可靠度/可选协议/safety[默认] 等行)为 0.325(0~1,越高越好)。

作者 x.com/hg_nohair

gemini-25-flash-evaluate-report-2026阅读全文

qwen-3.6能力评估

本报告由仓库内 `scripts/openai_compat_model_eval` 自动生成;在可自动化评分的用例上,**平均分(约 22 项,不含纯性能/频控/可靠度/可选协议/safety[默认] 等行)**为 **0.736**(0~1,越高越好)。 > **重要声明**:多模态、幻觉、长上下文、逻辑等题目均为工程向「快速探针」;分数受提示词、温度、网关路由、模型版本、语言分布影响。上线采购或 SLA 前请结合你们自有基准与人工审核。

作者 x.com/hg_nohair

qwen-3-6-neng-li-ping-gu阅读全文