模型评测报告

以可复现脚本与指标对比各厂商与场景,支撑选型决策。

kimi2.5 模型评估报告

本报告由仓库内 `scripts/openai_compat_model_eval` 自动生成;在可自动化评分的用例上,**平均分(约 22 项,不含纯性能/频控/可靠度/可选协议/safety[默认] 等行)**为 **0.816**(0~1,越高越好)。 > **重要声明**:多模态、幻觉、长上下文、逻辑等题目均为工程向「快速探针」;分数受提示词、温度、网关路由、模型版本、语言分布影响。上线采购或 SLA 前请结合你们自有基准与人工审核。

作者 x.com/hg_nohair

kimi2-5-mo-xing-ping-gu-bao-gao阅读全文

gemini-2.5-flash 模型评估报告

本报告由仓库内 scripts/openai_compat_model_eval 自动生成;在可自动化评分的用例上,平均分(约 22 项,不含纯性能/频控/可靠度/可选协议/safety[默认] 等行)为 0.325(0~1,越高越好)。

作者 x.com/hg_nohair

gemini-25-flash-evaluate-report-2026阅读全文

qwen-3.6能力评估

本报告由仓库内 `scripts/openai_compat_model_eval` 自动生成;在可自动化评分的用例上,**平均分(约 22 项,不含纯性能/频控/可靠度/可选协议/safety[默认] 等行)**为 **0.736**(0~1,越高越好)。 > **重要声明**:多模态、幻觉、长上下文、逻辑等题目均为工程向「快速探针」;分数受提示词、温度、网关路由、模型版本、语言分布影响。上线采购或 SLA 前请结合你们自有基准与人工审核。

作者 x.com/hg_nohair

qwen-3-6-neng-li-ping-gu阅读全文