mimo2.5,mimo-2.5-pro 兼容評測

. 协议/集成能力 -- 两款模型表现一致(都满分): 流式 SSE、max_tokens、json_object、function calling、流式 tool_calls 合并 -- 全部通过 连发频控、可靠性重复采样也都正常 2. 推理能力 -- Pro 明显更强,但整体偏弱: mimo-v2.5-pro: 仅通过找零、再订货点、会议排期 3 题 / 共 13 题 mimo-v2.5: 仅通过关键路径 variant2 1 题 / 共 13 题 算术链、草莓字母计数、格路、预算优化、资源排期等较难推理题 双双零分

作者 x.com/hg_nohair

mimo2.5,mimo-2.5-pro 兼容評測 — 匯總報告

  • 生成時間: 2026-05-27 00:24:56 +0800
  • 評測器版本: 1.8.0
  • 網關 Base: https://some.niuwoai.com
  • 批次時間戳: 20260527-001902
  • 主均分含 safety: 否

背景與操作摘要

  • 評測器:倉庫内 scripts/openai_compat_model_eval(OpenAI 兼容網關探針套件)。
  • 環境:應從 scripts/.env.gateway 載入(本批次的 --env-file 默認即此路徑);使用其中的 GATEWAY_BASE 作為 OPENAI_BASESOMEAPI_API_KEY 作為 OPENAI_API_KEY
  • 歷史更正:此前若誤用 ~/scripts/.env.gateway,請改為使用倉庫 scripts/.env.gateway,與文檔及本腳本默認一致。
  • 模型範圍:本報告包含多輪對話中提到的模型(DeepSeek / Kimi / MiniMax / GLM / Gemini / GPT / Qwen 等系列),具體以「模型總表」為準;單模型詳情見各子報告鏈接。
  • 解讀:表內 主均分 與單報告一致,為模型能力題的 加權 平均(擴展推理 ×2、幻覺 ×1.5;默認不含 endpoint / performance / observability / reliability / optional / multimodal / embeddings / safety);探針為工程向煙測,非權威能力排名。詳見單報告 §1 能力分桶

1. 模型總表(按主均分降序)

模型 主均分 計分項數 N 子報告 備註
mimo-v2.5-pro 0.3678 41 openai_compat_eval_mimo-v2_5-pro_20260527-001902.md
mimo-v2.5 0.2424 41 openai_compat_eval_mimo-v2_5_20260527-001902.md

2. 有效得分模型對比(主均分 > 0)

排名 模型 主均分 N
1 mimo-v2.5-pro 0.3678 41
2 mimo-v2.5 0.2424 41

按 locale 分桶(若存在)

模型 locale 桶 均分
mimo-v2.5-pro default 0.3833
mimo-v2.5-pro zh 0.0000
mimo-v2.5 default 0.2808
mimo-v2.5 zh 0.0000

3. 未獲有效得分或異常的模型

無。

4. 方法說明與局限

分項定義、排除計入模型能力主均分的類別及免責聲明與單模型報告 §2 方法論 一致;橫向對比時請注意不同上游延遲、路由與計費策略差異。