模型评测报告

Deepseek-v4-pro 评测报告（新评测标准）

本报告由仓库内 `scripts/openai_compat_model_eval` 自动生成；在可自动化评分的用例上，**模型能力分（加权，50 项；前沿区分度 ×2.5、扩展推理 ×2、幻觉 ×1.5；不含 endpoint/performance/observability/reliability/optional/multimodal/embeddings/safety[默认]）**为 **0.909**（0～1，越高越好）。

作者 x.com/hg_nohair

deepseek-v4-pro-ping-ce-bao-gao-new阅读全文

glm-5.2 评测报告

在可自动化评分的用例上，**模型能力分（加权，50 项；前沿区分度 ×2.5、扩展推理 ×2、幻觉 ×1.5）**为 **0.841**（0～1，越高越好）。

作者 x.com/hg_nohair

glm-5-2-ping-ce-bao-gao阅读全文

qwne-plus OpenAI 兼容 API 模型评估报告

本报告由仓库内 `scripts/openai_compat_model_eval` 自动生成；在可自动化评分的用例上，**模型能力分（加权，50 项；前沿区分度 ×2.5、扩展推理 ×2、幻觉 ×1.5；不含 endpoint/performance/observability/reliability/optional/multimodal/embeddings/safety[默认]）**为 **0.631**（0～1，越高越好）。

作者 x.com/hg_nohair

qwne-plus-openai-jian-rong-api-mo-xing-ping-gu-bao-gao阅读全文

Kimi-k2.5 OpenAI 兼容 API 模型评估报告

本报告由仓库内 `scripts/openai_compat_model_eval` 自动生成；在可自动化评分的用例上，**模型能力分（加权，50 项；前沿区分度 ×2.5、扩展推理 ×2、幻觉 ×1.5；不含 endpoint/performance/observability/reliability/optional/multimodal/embeddings/safety[默认]）**为 **0.688**（0～1，越高越好）。

作者 x.com/hg_nohair

kimi-k2-5-openai-jian-rong-api-mo-xing-ping-gu-bao-gao阅读全文

Qwen3.7-Max OpenAI 兼容 API 模型评估报告

本报告由仓库内 `scripts/openai_compat_model_eval` 自动生成；在可自动化评分的用例上，**模型能力分（加权，50 项；前沿区分度 ×2.5、扩展推理 ×2、幻觉 ×1.5；不含 endpoint/performance/observability/reliability/optional/multimodal/embeddings/safety[默认]）**为 **0.892**（0～1，越高越好）。

作者 x.com/hg_nohair

qwen3-7-max-openai-jian-rong-api-mo-xing-ping-gu-bao-gao阅读全文

# glm-5 兼容 API 模型评估报告

本报告由仓库内 `scripts/openai_compat_model_eval` 自动生成；在可自动化评分的用例上，**模型能力分（加权，50 项；前沿区分度 ×2.5、扩展推理 ×2、幻觉 ×1.5；不含 endpoint/performance/observability/reliability/optional/multimodal/embeddings/safety[默认]）**为 **0.759**（0～1，越高越好）。

作者 x.com/hg_nohair

glm-5-jian-rong-api-mo-xing-ping-gu-bao-gao阅读全文

glm-5.1 模型评估报告

本报告由仓库内 `scripts/openai_compat_model_eval` 自动生成；在可自动化评分的用例上，**模型能力分（加权，50 项；前沿区分度 ×2.5、扩展推理 ×2、幻觉 ×1.5；不含 endpoint/performance/observability/reliability/optional/multimodal/embeddings/safety[默认]）**为 **0.762**（0～1，越高越好）。

作者 x.com/hg_nohair

glm-5-1-mo-xing-ping-gu-bao-gao阅读全文

兼容模型评测结论（20260601-172211）

一句话结论：qwen3.7-max 综合第一，前沿推理优势明显；GLM-5.1 与 GLM-5 是第二梯队，分数非常接近；kimi-k2.5 事实性和稳定性最好，但推理规划拖后腿；qwen-plus 轻量、低延迟、基础可用，但复杂推理和前沿题较弱。

作者 x.com/hg_nohair

jian-rong-mo-xing-ping-ce-jie-lun-20260601-172211阅读全文

mimo2.5,mimo-2.5-pro 兼容評測

. 协议/集成能力 -- 两款模型表现一致（都满分）：流式 SSE、max_tokens、json_object、function calling、流式 tool_calls 合并 -- 全部通过连发频控、可靠性重复采样也都正常 2. 推理能力 -- Pro 明显更强，但整体偏弱： mimo-v2.5-pro: 仅通过找零、再订货点、会议排期 3 题 / 共 13 题 mimo-v2.5: 仅通过关键路径 variant2 1 题 / 共 13 题算术链、草莓字母计数、格路、预算优化、资源排期等较难推理题双双零分

作者 x.com/hg_nohair

mimo2-5-mimo-2-5-pro-jian-rong-ping-ce阅读全文

mimo-2.5 评测报告

本报告由仓库内 `scripts/openai_compat_model_eval` 自动生成；在可自动化评分的用例上，**模型能力分（加权，41 项；扩展推理 ×2、幻觉 ×1.5；不含 endpoint/performance/observability/reliability/optional/multimodal/embeddings/safety[默认]）**为 **0.242**（0～1，越高越好）。 **简单算术均分（对照 v1.7 口径）**: 0.267（同 41 项，各题权重均为 1）。

作者 x.com/hg_nohair

mimo-2-5-ping-ce-bao-gao阅读全文

mimo-2.5-pro评测报告

1. 协议/集成能力 -- 两款模型表现一致（都满分）：流式 SSE、max_tokens、json_object、function calling、流式 tool_calls 合并 -- 全部通过连发频控、可靠性重复采样也都正常 2. 推理能力 -- Pro 明显更强，但整体偏弱： mimo-v2.5-pro: 仅通过找零、再订货点、会议排期 3 题 / 共 13 题 mimo-v2.5: 仅通过关键路径 variant2 1 题 / 共 13 题算术链、草莓字母计数、格路、预算优化、资源排期等较难推理题双双零分

作者 x.com/hg_nohair

mimo-2-5-pro-ping-ce-bao-gao阅读全文

qwen3.7-max 评测报告

模型能力分 0.828（30 项，不含 safety/embeddings/多模态等），主要失分项：JSON 模式：json_object_mode / 口头 JSON 均返回空内容，max_tokens：设 max_tokens=5 仍输出 1038 tokens（上游未 respect 上限），安全：safety_no_fake_pan 回显了测试卡号

作者 x.com/hg_nohair

qwen3-7-max-ping-ce-bao-gao阅读全文

新口径国产四模型对比报告

deepseek-v4-pro 仍更适合当默认主力，能力和 qwen3.6-max-preview 持平但延迟更轻；qwen3.6-max-preview 本轮抗幻觉最好，5 道幻觉题全过，但慢且有 503；glm-5 能力分最高，不过延迟太重；kimi-k2.6 最快最稳，但复杂推理短板明显。

作者 x.com/hg_nohair

xin-kou-jing-guo-chan-si-mo-xing-dui-bi-bao-gao阅读全文

glm-5 API 模型评估报告

本报告由仓库内 `scripts/openai_compat_model_eval` 自动生成；在可自动化评分的用例上，**平均分（约 28 项，不含纯性能/频控/可靠度/可选协议/safety[默认] 等行）**为 **0.807**（0～1，越高越好）。

作者 x.com/hg_nohair

glm-5-api-mo-xing-ping-gu-bao-gao阅读全文

国产四模型简约对比报告

一句话：默认主力还是 deepseek-v4-pro；高难推理兜底可以看 qwen3.6-max-preview 或 glm-5，但都建议异步/限流；快任务、严格 max_tokens 仍是 kimi-k2.6 最合适。

作者 x.com/hg_nohair

guo-chan-si-mo-xing-jian-yue-dui-bi-bao-gao阅读全文

MiniMax-2.5 模型评估报告

本报告由仓库内 `scripts/openai_compat_model_eval` 自动生成；在可自动化评分的用例上，**平均分（约 28 项，不含纯性能/频控/可靠度/可选协议/safety[默认] 等行）**为 **0.816**（0～1，越高越好）。 > **重要声明**：多模态、幻觉、长上下文、逻辑等题目均为工程向「快速探针」；分数受提示词、温度、网关路由、模型版本、语言分布影响。上线采购或 SLA 前请结合你们自有基准与人工审核。

作者 x.com/hg_nohair

minimax-2-5-mo-xing-ping-gu-bao-gao阅读全文

国产模型整体评测报告

**综合推荐：`deepseek-v4-pro`。** 它主均分最高，性能 p50 也低于 `qwen3.6-plus` 和 `MiniMax-M2.5`，在安全、视觉、长上下文和复杂推理上更均衡。缺点是 `/v1/embeddings` 不支持，且 `max_tokens=5` 探针显示 completion tokens 超限。

guo-chan-mo-xing-zheng-ti-ping-ce-bao-gao阅读全文

# Qwen3-Coder-Next-Q3_K_M.gguf 兼容 API 模型评估报告

作者 x.com/hg_nohair

qwen3-coder-next-q3-k-m-gguf-jian-rong-api-mo-xing-ping-gu-bao-gao阅读全文

deepseek-v4-flash 评测报告

主均分：0.816（约 22 项可评分用例）主要失分项： arith_chain：期望 56，得到 66 max_tokens_cap：usage.completion_tokens 与 max_tokens 不一致（上游/网关行为） safety_no_fake_pan：复述了题面测试卡号 embeddings_shape_latency：404 page not found（该路径可能未开 embeddings）其余指令依从、流式、JSON、tools、长文、多模态等大多通过。

作者 x.com/hg_nohair

deepseek-v4-flash-ping-ce-bao-gao阅读全文

deepseek-v4-pro 评测报告

现较好指令依从：小数比较、词数限制、精确 token、两行格式、禁数字 4 等几乎全过协议：流式 SSE、json_object、function calling（天气工具）正常长上下文：中部 needle + 尾窗截断（12k/16k 字符级）均命中多模态：红色小图识别通过扩展推理：找零 525、格路径 3 正确幻觉探针：对虚构大学有拒答/不确定表述

deepseek-v4-pro-ping-ce-bao-gao阅读全文