mimo2.5,mimo-2.5-pro 兼容評測
. 协议/集成能力 -- 两款模型表现一致(都满分): 流式 SSE、max_tokens、json_object、function calling、流式 tool_calls 合并 -- 全部通过 连发频控、可靠性重复采样也都正常 2. 推理能力 -- Pro 明显更强,但整体偏弱: mimo-v2.5-pro: 仅通过找零、再订货点、会议排期 3 题 / 共 13 题 mimo-v2.5: 仅通过关键路径 variant2 1 题 / 共 13 题 算术链、草莓字母计数、格路、预算优化、资源排期等较难推理题 双双零分
mimo2.5,mimo-2.5-pro 兼容評測 — 匯總報告
- 生成時間: 2026-05-27 00:24:56 +0800
- 評測器版本: 1.8.0
- 網關 Base:
https://some.niuwoai.com - 批次時間戳:
20260527-001902 - 主均分含 safety: 否
背景與操作摘要
- 評測器:倉庫内
scripts/openai_compat_model_eval(OpenAI 兼容網關探針套件)。 - 環境:應從
scripts/.env.gateway載入(本批次的--env-file默認即此路徑);使用其中的GATEWAY_BASE作為OPENAI_BASE,SOMEAPI_API_KEY作為OPENAI_API_KEY。 - 歷史更正:此前若誤用
~/scripts/.env.gateway,請改為使用倉庫scripts/.env.gateway,與文檔及本腳本默認一致。 - 模型範圍:本報告包含多輪對話中提到的模型(DeepSeek / Kimi / MiniMax / GLM / Gemini / GPT / Qwen 等系列),具體以「模型總表」為準;單模型詳情見各子報告鏈接。
- 解讀:表內 主均分 與單報告一致,為模型能力題的 加權 平均(擴展推理 ×2、幻覺 ×1.5;默認不含 endpoint / performance / observability / reliability / optional / multimodal / embeddings / safety);探針為工程向煙測,非權威能力排名。詳見單報告 §1 能力分桶。
1. 模型總表(按主均分降序)
| 模型 | 主均分 | 計分項數 N | 子報告 | 備註 |
|---|---|---|---|---|
mimo-v2.5-pro |
0.3678 | 41 | openai_compat_eval_mimo-v2_5-pro_20260527-001902.md | — |
mimo-v2.5 |
0.2424 | 41 | openai_compat_eval_mimo-v2_5_20260527-001902.md | — |
2. 有效得分模型對比(主均分 > 0)
| 排名 | 模型 | 主均分 | N |
|---|---|---|---|
| 1 | mimo-v2.5-pro |
0.3678 | 41 |
| 2 | mimo-v2.5 |
0.2424 | 41 |
按 locale 分桶(若存在)
| 模型 | locale 桶 | 均分 |
|---|---|---|
mimo-v2.5-pro |
default | 0.3833 |
mimo-v2.5-pro |
zh | 0.0000 |
mimo-v2.5 |
default | 0.2808 |
mimo-v2.5 |
zh | 0.0000 |
3. 未獲有效得分或異常的模型
無。
4. 方法說明與局限
分項定義、排除計入模型能力主均分的類別及免責聲明與單模型報告 §2 方法論 一致;橫向對比時請注意不同上游延遲、路由與計費策略差異。