mimo2.5,mimo-2.5-pro 兼容評測

. 协议/集成能力 -- 两款模型表现一致（都满分）：流式 SSE、max_tokens、json_object、function calling、流式 tool_calls 合并 -- 全部通过连发频控、可靠性重复采样也都正常 2. 推理能力 -- Pro 明显更强，但整体偏弱： mimo-v2.5-pro: 仅通过找零、再订货点、会议排期 3 题 / 共 13 题 mimo-v2.5: 仅通过关键路径 variant2 1 题 / 共 13 题算术链、草莓字母计数、格路、预算优化、资源排期等较难推理题双双零分

作者 x.com/hg_nohair

mimo2.5,mimo-2.5-pro 兼容評測 — 匯總報告

生成時間: 2026-05-27 00:24:56 +0800
評測器版本: 1.8.0
網關 Base: https://some.niuwoai.com
批次時間戳: 20260527-001902
主均分含 safety: 否

背景與操作摘要

評測器：倉庫内 scripts/openai_compat_model_eval（OpenAI 兼容網關探針套件）。
環境：應從 scripts/.env.gateway 載入（本批次的 --env-file 默認即此路徑）；使用其中的 GATEWAY_BASE 作為 OPENAI_BASE，SOMEAPI_API_KEY 作為 OPENAI_API_KEY。
歷史更正：此前若誤用 ~/scripts/.env.gateway，請改為使用倉庫 scripts/.env.gateway，與文檔及本腳本默認一致。
模型範圍：本報告包含多輪對話中提到的模型（DeepSeek / Kimi / MiniMax / GLM / Gemini / GPT / Qwen 等系列），具體以「模型總表」為準；單模型詳情見各子報告鏈接。
解讀：表內 主均分 與單報告一致，為模型能力題的加權平均（擴展推理 ×2、幻覺 ×1.5；默認不含 endpoint / performance / observability / reliability / optional / multimodal / embeddings / safety）；探針為工程向煙測，非權威能力排名。詳見單報告 §1 能力分桶。

1. 模型總表（按主均分降序）

模型	主均分	計分項數 N	子報告	備註
`mimo-v2.5-pro`	0.3678	41	openai_compat_eval_mimo-v2_5-pro_20260527-001902.md	—
`mimo-v2.5`	0.2424	41	openai_compat_eval_mimo-v2_5_20260527-001902.md	—

2. 有效得分模型對比（主均分 > 0）

排名	模型	主均分	N
1	`mimo-v2.5-pro`	0.3678	41
2	`mimo-v2.5`	0.2424	41

按 locale 分桶（若存在）

模型	locale 桶	均分
`mimo-v2.5-pro`	default	0.3833
`mimo-v2.5-pro`	zh	0.0000
`mimo-v2.5`	default	0.2808
`mimo-v2.5`	zh	0.0000

3. 未獲有效得分或異常的模型

無。

4. 方法說明與局限

分項定義、排除計入模型能力主均分的類別及免責聲明與單模型報告 §2 方法論 一致；橫向對比時請注意不同上游延遲、路由與計費策略差異。