模型评测报告

以可复现脚本与指标对比各厂商与场景，支撑选型决策。

kimi2.5 模型评估报告

本报告由仓库内 `scripts/openai_compat_model_eval` 自动生成；在可自动化评分的用例上，**平均分（约 22 项，不含纯性能/频控/可靠度/可选协议/safety[默认] 等行）**为 **0.816**（0～1，越高越好）。 > **重要声明**：多模态、幻觉、长上下文、逻辑等题目均为工程向「快速探针」；分数受提示词、温度、网关路由、模型版本、语言分布影响。上线采购或 SLA 前请结合你们自有基准与人工审核。

作者 x.com/hg_nohair

kimi2-5-mo-xing-ping-gu-bao-gao阅读全文

gemini-2.5-flash 模型评估报告

本报告由仓库内 scripts/openai_compat_model_eval 自动生成；在可自动化评分的用例上，平均分（约 22 项，不含纯性能/频控/可靠度/可选协议/safety[默认] 等行）为 0.325（0～1，越高越好）。

作者 x.com/hg_nohair

gemini-25-flash-evaluate-report-2026阅读全文

qwen-3.6能力评估

本报告由仓库内 `scripts/openai_compat_model_eval` 自动生成；在可自动化评分的用例上，**平均分（约 22 项，不含纯性能/频控/可靠度/可选协议/safety[默认] 等行）**为 **0.736**（0～1，越高越好）。 > **重要声明**：多模态、幻觉、长上下文、逻辑等题目均为工程向「快速探针」；分数受提示词、温度、网关路由、模型版本、语言分布影响。上线采购或 SLA 前请结合你们自有基准与人工审核。

作者 x.com/hg_nohair

qwen-3-6-neng-li-ping-gu阅读全文

Chinese Domestic LLM Performance Comparison

好的模型，现在就是需要 2 到七八秒的返回。

chinese-domestic-llm-performance-comparison阅读全文