Model evaluation reports

Reproducible scripts and metric comparisons to support model selection.

qwne-plus OpenAI 兼容 API 模型评估报告

本报告由仓库内 `scripts/openai_compat_model_eval` 自动生成;在可自动化评分的用例上,**模型能力分(加权,50 项;前沿区分度 ×2.5、扩展推理 ×2、幻觉 ×1.5;不含 endpoint/performance/observability/reliability/optional/multimodal/embeddings/safety[默认])**为 **0.631**(0~1,越高越好)。

Author x.com/hg_nohair

qwne-plus-openai-jian-rong-api-mo-xing-ping-gu-bao-gaoRead full report

Kimi-k2.5 OpenAI 兼容 API 模型评估报告

本报告由仓库内 `scripts/openai_compat_model_eval` 自动生成;在可自动化评分的用例上,**模型能力分(加权,50 项;前沿区分度 ×2.5、扩展推理 ×2、幻觉 ×1.5;不含 endpoint/performance/observability/reliability/optional/multimodal/embeddings/safety[默认])**为 **0.688**(0~1,越高越好)。

Author x.com/hg_nohair

kimi-k2-5-openai-jian-rong-api-mo-xing-ping-gu-bao-gaoRead full report

Qwen3.7-Max OpenAI 兼容 API 模型评估报告

本报告由仓库内 `scripts/openai_compat_model_eval` 自动生成;在可自动化评分的用例上,**模型能力分(加权,50 项;前沿区分度 ×2.5、扩展推理 ×2、幻觉 ×1.5;不含 endpoint/performance/observability/reliability/optional/multimodal/embeddings/safety[默认])**为 **0.892**(0~1,越高越好)。

Author x.com/hg_nohair

qwen3-7-max-openai-jian-rong-api-mo-xing-ping-gu-bao-gaoRead full report

# glm-5 兼容 API 模型评估报告

本报告由仓库内 `scripts/openai_compat_model_eval` 自动生成;在可自动化评分的用例上,**模型能力分(加权,50 项;前沿区分度 ×2.5、扩展推理 ×2、幻觉 ×1.5;不含 endpoint/performance/observability/reliability/optional/multimodal/embeddings/safety[默认])**为 **0.759**(0~1,越高越好)。

Author x.com/hg_nohair

glm-5-jian-rong-api-mo-xing-ping-gu-bao-gaoRead full report

glm-5.1 模型评估报告

本报告由仓库内 `scripts/openai_compat_model_eval` 自动生成;在可自动化评分的用例上,**模型能力分(加权,50 项;前沿区分度 ×2.5、扩展推理 ×2、幻觉 ×1.5;不含 endpoint/performance/observability/reliability/optional/multimodal/embeddings/safety[默认])**为 **0.762**(0~1,越高越好)。

Author x.com/hg_nohair

glm-5-1-mo-xing-ping-gu-bao-gaoRead full report

兼容模型评测结论(20260601-172211)

一句话结论:qwen3.7-max 综合第一,前沿推理优势明显;GLM-5.1 与 GLM-5 是第二梯队,分数非常接近;kimi-k2.5 事实性和稳定性最好,但推理规划拖后腿;qwen-plus 轻量、低延迟、基础可用,但复杂推理和前沿题较弱。

Author x.com/hg_nohair

jian-rong-mo-xing-ping-ce-jie-lun-20260601-172211Read full report

mimo2.5,mimo-2.5-pro 兼容評測

. 协议/集成能力 -- 两款模型表现一致(都满分): 流式 SSE、max_tokens、json_object、function calling、流式 tool_calls 合并 -- 全部通过 连发频控、可靠性重复采样也都正常 2. 推理能力 -- Pro 明显更强,但整体偏弱: mimo-v2.5-pro: 仅通过找零、再订货点、会议排期 3 题 / 共 13 题 mimo-v2.5: 仅通过关键路径 variant2 1 题 / 共 13 题 算术链、草莓字母计数、格路、预算优化、资源排期等较难推理题 双双零分

Author x.com/hg_nohair

mimo2-5-mimo-2-5-pro-jian-rong-ping-ceRead full report

mimo-2.5 评测报告

本报告由仓库内 `scripts/openai_compat_model_eval` 自动生成;在可自动化评分的用例上,**模型能力分(加权,41 项;扩展推理 ×2、幻觉 ×1.5;不含 endpoint/performance/observability/reliability/optional/multimodal/embeddings/safety[默认])**为 **0.242**(0~1,越高越好)。 **简单算术均分(对照 v1.7 口径)**: 0.267(同 41 项,各题权重均为 1)。

Author x.com/hg_nohair

mimo-2-5-ping-ce-bao-gaoRead full report

mimo-2.5-pro评测报告

1. 协议/集成能力 -- 两款模型表现一致(都满分): 流式 SSE、max_tokens、json_object、function calling、流式 tool_calls 合并 -- 全部通过 连发频控、可靠性重复采样也都正常 2. 推理能力 -- Pro 明显更强,但整体偏弱: mimo-v2.5-pro: 仅通过找零、再订货点、会议排期 3 题 / 共 13 题 mimo-v2.5: 仅通过关键路径 variant2 1 题 / 共 13 题 算术链、草莓字母计数、格路、预算优化、资源排期等较难推理题 双双零分

Author x.com/hg_nohair

mimo-2-5-pro-ping-ce-bao-gaoRead full report

qwen3.7-max 评测报告

模型能力分 0.828(30 项,不含 safety/embeddings/多模态等),主要失分项:JSON 模式:json_object_mode / 口头 JSON 均返回空内容,max_tokens:设 max_tokens=5 仍输出 1038 tokens(上游未 respect 上限),安全:safety_no_fake_pan 回显了测试卡号

Author x.com/hg_nohair

qwen3-7-max-ping-ce-bao-gaoRead full report

新口径国产四模型对比报告

deepseek-v4-pro 仍更适合当默认主力,能力和 qwen3.6-max-preview 持平但延迟更轻;qwen3.6-max-preview 本轮抗幻觉最好,5 道幻觉题全过,但慢且有 503;glm-5 能力分最高,不过延迟太重;kimi-k2.6 最快最稳,但复杂推理短板明显。

Author x.com/hg_nohair

xin-kou-jing-guo-chan-si-mo-xing-dui-bi-bao-gaoRead full report

glm-5 API 模型评估报告

本报告由仓库内 `scripts/openai_compat_model_eval` 自动生成;在可自动化评分的用例上,**平均分(约 28 项,不含纯性能/频控/可靠度/可选协议/safety[默认] 等行)**为 **0.807**(0~1,越高越好)。

Author x.com/hg_nohair

glm-5-api-mo-xing-ping-gu-bao-gaoRead full report

MiniMax-2.5 模型评估报告

本报告由仓库内 `scripts/openai_compat_model_eval` 自动生成;在可自动化评分的用例上,**平均分(约 28 项,不含纯性能/频控/可靠度/可选协议/safety[默认] 等行)**为 **0.816**(0~1,越高越好)。 > **重要声明**:多模态、幻觉、长上下文、逻辑等题目均为工程向「快速探针」;分数受提示词、温度、网关路由、模型版本、语言分布影响。上线采购或 SLA 前请结合你们自有基准与人工审核。

Author x.com/hg_nohair

minimax-2-5-mo-xing-ping-gu-bao-gaoRead full report

国产模型整体评测报告

**综合推荐:`deepseek-v4-pro`。** 它主均分最高,性能 p50 也低于 `qwen3.6-plus` 和 `MiniMax-M2.5`,在安全、视觉、长上下文和复杂推理上更均衡。缺点是 `/v1/embeddings` 不支持,且 `max_tokens=5` 探针显示 completion tokens 超限。

guo-chan-mo-xing-zheng-ti-ping-ce-bao-gaoRead full report

deepseek-v4-flash 评测报告

主均分:0.816(约 22 项可评分用例) 主要失分项: arith_chain:期望 56,得到 66 max_tokens_cap:usage.completion_tokens 与 max_tokens 不一致(上游/网关行为) safety_no_fake_pan:复述了题面测试卡号 embeddings_shape_latency:404 page not found(该路径可能未开 embeddings) 其余指令依从、流式、JSON、tools、长文、多模态等大多通过。

Author x.com/hg_nohair

deepseek-v4-flash-ping-ce-bao-gaoRead full report

deepseek-v4-pro 评测报告

现较好 指令依从:小数比较、词数限制、精确 token、两行格式、禁数字 4 等几乎全过 协议:流式 SSE、json_object、function calling(天气工具)正常 长上下文:中部 needle + 尾窗截断(12k/16k 字符级)均命中 多模态:红色小图识别通过 扩展推理:找零 525、格路径 3 正确 幻觉探针:对虚构大学有拒答/不确定表述

deepseek-v4-pro-ping-ce-bao-gaoRead full report

kimi2.5 模型评估报告

本报告由仓库内 `scripts/openai_compat_model_eval` 自动生成;在可自动化评分的用例上,**平均分(约 22 项,不含纯性能/频控/可靠度/可选协议/safety[默认] 等行)**为 **0.816**(0~1,越高越好)。 > **重要声明**:多模态、幻觉、长上下文、逻辑等题目均为工程向「快速探针」;分数受提示词、温度、网关路由、模型版本、语言分布影响。上线采购或 SLA 前请结合你们自有基准与人工审核。

Author x.com/hg_nohair

kimi2-5-mo-xing-ping-gu-bao-gaoRead full report

gemini-2.5-flash 模型评估报告

本报告由仓库内 scripts/openai_compat_model_eval 自动生成;在可自动化评分的用例上,平均分(约 22 项,不含纯性能/频控/可靠度/可选协议/safety[默认] 等行)为 0.325(0~1,越高越好)。

Author x.com/hg_nohair

gemini-25-flash-evaluate-report-2026Read full report