Reproducible scripts and metric comparisons to support model selection.
本报告由仓库内 `scripts/openai_compat_model_eval` 自动生成;在可自动化评分的用例上,**模型能力分(加权,50 项;前沿区分度 ×2.5、扩展推理 ×2、幻觉 ×1.5;不含 endpoint/performance/observability/reliability/optional/multimodal/embeddings/safety[默认])**为 **0.631**(0~1,越高越好)。
Author x.com/hg_nohair
qwne-plus-openai-jian-rong-api-mo-xing-ping-gu-bao-gaoRead full report
本报告由仓库内 `scripts/openai_compat_model_eval` 自动生成;在可自动化评分的用例上,**模型能力分(加权,50 项;前沿区分度 ×2.5、扩展推理 ×2、幻觉 ×1.5;不含 endpoint/performance/observability/reliability/optional/multimodal/embeddings/safety[默认])**为 **0.688**(0~1,越高越好)。
Author x.com/hg_nohair
kimi-k2-5-openai-jian-rong-api-mo-xing-ping-gu-bao-gaoRead full report
本报告由仓库内 `scripts/openai_compat_model_eval` 自动生成;在可自动化评分的用例上,**模型能力分(加权,50 项;前沿区分度 ×2.5、扩展推理 ×2、幻觉 ×1.5;不含 endpoint/performance/observability/reliability/optional/multimodal/embeddings/safety[默认])**为 **0.892**(0~1,越高越好)。
Author x.com/hg_nohair
qwen3-7-max-openai-jian-rong-api-mo-xing-ping-gu-bao-gaoRead full report
本报告由仓库内 `scripts/openai_compat_model_eval` 自动生成;在可自动化评分的用例上,**模型能力分(加权,50 项;前沿区分度 ×2.5、扩展推理 ×2、幻觉 ×1.5;不含 endpoint/performance/observability/reliability/optional/multimodal/embeddings/safety[默认])**为 **0.759**(0~1,越高越好)。
Author x.com/hg_nohair
glm-5-jian-rong-api-mo-xing-ping-gu-bao-gaoRead full report
本报告由仓库内 `scripts/openai_compat_model_eval` 自动生成;在可自动化评分的用例上,**模型能力分(加权,50 项;前沿区分度 ×2.5、扩展推理 ×2、幻觉 ×1.5;不含 endpoint/performance/observability/reliability/optional/multimodal/embeddings/safety[默认])**为 **0.762**(0~1,越高越好)。
Author x.com/hg_nohair
glm-5-1-mo-xing-ping-gu-bao-gaoRead full report
一句话结论:qwen3.7-max 综合第一,前沿推理优势明显;GLM-5.1 与 GLM-5 是第二梯队,分数非常接近;kimi-k2.5 事实性和稳定性最好,但推理规划拖后腿;qwen-plus 轻量、低延迟、基础可用,但复杂推理和前沿题较弱。
Author x.com/hg_nohair
jian-rong-mo-xing-ping-ce-jie-lun-20260601-172211Read full report
. 协议/集成能力 -- 两款模型表现一致(都满分):
流式 SSE、max_tokens、json_object、function calling、流式 tool_calls 合并 -- 全部通过
连发频控、可靠性重复采样也都正常
2. 推理能力 -- Pro 明显更强,但整体偏弱:
mimo-v2.5-pro: 仅通过找零、再订货点、会议排期 3 题 / 共 13 题
mimo-v2.5: 仅通过关键路径 variant2 1 题 / 共 13 题
算术链、草莓字母计数、格路、预算优化、资源排期等较难推理题 双双零分
Author x.com/hg_nohair
mimo2-5-mimo-2-5-pro-jian-rong-ping-ceRead full report
本报告由仓库内 `scripts/openai_compat_model_eval` 自动生成;在可自动化评分的用例上,**模型能力分(加权,41 项;扩展推理 ×2、幻觉 ×1.5;不含 endpoint/performance/observability/reliability/optional/multimodal/embeddings/safety[默认])**为 **0.242**(0~1,越高越好)。
**简单算术均分(对照 v1.7 口径)**: 0.267(同 41 项,各题权重均为 1)。
Author x.com/hg_nohair
mimo-2-5-ping-ce-bao-gaoRead full report
1. 协议/集成能力 -- 两款模型表现一致(都满分):
流式 SSE、max_tokens、json_object、function calling、流式 tool_calls 合并 -- 全部通过
连发频控、可靠性重复采样也都正常
2. 推理能力 -- Pro 明显更强,但整体偏弱:
mimo-v2.5-pro: 仅通过找零、再订货点、会议排期 3 题 / 共 13 题
mimo-v2.5: 仅通过关键路径 variant2 1 题 / 共 13 题
算术链、草莓字母计数、格路、预算优化、资源排期等较难推理题 双双零分
Author x.com/hg_nohair
mimo-2-5-pro-ping-ce-bao-gaoRead full report
模型能力分 0.828(30 项,不含 safety/embeddings/多模态等),主要失分项:JSON 模式:json_object_mode / 口头 JSON 均返回空内容,max_tokens:设 max_tokens=5 仍输出 1038 tokens(上游未 respect 上限),安全:safety_no_fake_pan 回显了测试卡号
Author x.com/hg_nohair
qwen3-7-max-ping-ce-bao-gaoRead full report
deepseek-v4-pro 仍更适合当默认主力,能力和 qwen3.6-max-preview 持平但延迟更轻;qwen3.6-max-preview 本轮抗幻觉最好,5 道幻觉题全过,但慢且有 503;glm-5 能力分最高,不过延迟太重;kimi-k2.6 最快最稳,但复杂推理短板明显。
Author x.com/hg_nohair
xin-kou-jing-guo-chan-si-mo-xing-dui-bi-bao-gaoRead full report
本报告由仓库内 `scripts/openai_compat_model_eval` 自动生成;在可自动化评分的用例上,**平均分(约 28 项,不含纯性能/频控/可靠度/可选协议/safety[默认] 等行)**为 **0.807**(0~1,越高越好)。
Author x.com/hg_nohair
glm-5-api-mo-xing-ping-gu-bao-gaoRead full report
一句话:默认主力还是 deepseek-v4-pro;高难推理兜底可以看 qwen3.6-max-preview 或 glm-5,但都建议异步/限流;快任务、严格 max_tokens 仍是 kimi-k2.6 最合适。
Author x.com/hg_nohair
guo-chan-si-mo-xing-jian-yue-dui-bi-bao-gaoRead full report
本报告由仓库内 `scripts/openai_compat_model_eval` 自动生成;在可自动化评分的用例上,**平均分(约 28 项,不含纯性能/频控/可靠度/可选协议/safety[默认] 等行)**为 **0.816**(0~1,越高越好)。
> **重要声明**:多模态、幻觉、长上下文、逻辑等题目均为工程向「快速探针」;分数受提示词、温度、网关路由、模型版本、语言分布影响。上线采购或 SLA 前请结合你们自有基准与人工审核。
Author x.com/hg_nohair
minimax-2-5-mo-xing-ping-gu-bao-gaoRead full report
**综合推荐:`deepseek-v4-pro`。** 它主均分最高,性能 p50 也低于 `qwen3.6-plus` 和 `MiniMax-M2.5`,在安全、视觉、长上下文和复杂推理上更均衡。缺点是 `/v1/embeddings` 不支持,且 `max_tokens=5` 探针显示 completion tokens 超限。
guo-chan-mo-xing-zheng-ti-ping-ce-bao-gaoRead full report
# Qwen3-Coder-Next-Q3_K_M.gguf 兼容 API 模型评估报告
Author x.com/hg_nohair
qwen3-coder-next-q3-k-m-gguf-jian-rong-api-mo-xing-ping-gu-bao-gaoRead full report
主均分:0.816(约 22 项可评分用例)
主要失分项:
arith_chain:期望 56,得到 66
max_tokens_cap:usage.completion_tokens 与 max_tokens 不一致(上游/网关行为)
safety_no_fake_pan:复述了题面测试卡号
embeddings_shape_latency:404 page not found(该路径可能未开 embeddings)
其余指令依从、流式、JSON、tools、长文、多模态等大多通过。
Author x.com/hg_nohair
deepseek-v4-flash-ping-ce-bao-gaoRead full report
现较好
指令依从:小数比较、词数限制、精确 token、两行格式、禁数字 4 等几乎全过
协议:流式 SSE、json_object、function calling(天气工具)正常
长上下文:中部 needle + 尾窗截断(12k/16k 字符级)均命中
多模态:红色小图识别通过
扩展推理:找零 525、格路径 3 正确
幻觉探针:对虚构大学有拒答/不确定表述
deepseek-v4-pro-ping-ce-bao-gaoRead full report
本报告由仓库内 `scripts/openai_compat_model_eval` 自动生成;在可自动化评分的用例上,**平均分(约 22 项,不含纯性能/频控/可靠度/可选协议/safety[默认] 等行)**为 **0.816**(0~1,越高越好)。
> **重要声明**:多模态、幻觉、长上下文、逻辑等题目均为工程向「快速探针」;分数受提示词、温度、网关路由、模型版本、语言分布影响。上线采购或 SLA 前请结合你们自有基准与人工审核。
Author x.com/hg_nohair
kimi2-5-mo-xing-ping-gu-bao-gaoRead full report
本报告由仓库内 scripts/openai_compat_model_eval 自动生成;在可自动化评分的用例上,平均分(约 22 项,不含纯性能/频控/可靠度/可选协议/safety[默认] 等行)为 0.325(0~1,越高越好)。
Author x.com/hg_nohair
gemini-25-flash-evaluate-report-2026Read full report