2026西湖龙井茶官网DTC发售:茶农直供,政府溯源防伪到农户家
每月 20 美元的 Google AI Pro 账户与在 OpenRouter 上按量付费运行 Gemma 4 31B 模型相比,是否物有所值?本次 Ship-Bench 测试旨在通过一个真实的编码工作流(而非单一的编码提示)来回答这个问题。
假设: Gemini 的更大模型规模将在解决问题等方面展现出相对于参数量较小的 Gemma 31B 的明显优势。
关键洞察
Gemini 在五个角色中的平均得分为 86.6,并通过了 5 个关卡中的 4 个;而 Gemma 的最终得分为 72.4,仅通过了 5 个关卡中的 2 个。
Gemma 在原始架构师和用户体验得分上实际上处于领先地位,但由于未将确切版本锁定到最新框架,仍然未能通过架构师关卡。
最大的差距出现在执行和验证环节:Gemini 在开发者角色中得分为 93.3,而 Gemma 为 58;在审查者角色中,Gemini 得分为 72,Gemma 为 37。
目前,Gemini 在 AI Pro 服务中具有异常高的性价比,但更持久的市场费率比较显示,在相当于 OpenRouter 的定价下,Gemini 的成本约为 5.05 美元,而 Gemma 约为 0.85 美元。
设置
两次测试均使用相同的机器、相同的运行时环境系列、相同的基准测试任务以及相同版本的 Ship-Bench(v1)。主要区别在于测试 harness 和提供商设置,这一点很重要,因为即使基准测试目标保持不变,操作者的体验和工具行为也会影响结果。
环境
| 项目 | 值 |
|---|---|
| 机器 | Windows 11 |
| 运行时 | Node v24 |
| Ship-Bench 仓库 | ship-bench v1 |
| 基准测试任务 | 简化版知识库应用 |
运行配置
| 项目 | Gemini 运行 | Gemma 运行 |
|---|---|---|
| Harness(测试框架) | Gemini CLI 0.38.2 | GitHub Copilot CLI 1.0.34 |
| 模型 | Gemini 3.1 Pro | Gemma 4 31B |
| 后端 | Google AI Pro 账户 | OpenRouter |
| 运行仓库分支 | Gemini 分支 | Gemma 分支 |
评判配置
| 项目 | 值 |
|---|---|
| 评判 Harness(框架) | Claude Code |
| 评判模型 | Opus 4.7 Medium |
| 评估模式 | 大语言模型评判加上人工审查 |
Ship-Bench 背景
Ship-Bench 在五个软件开发生命周期角色中对模型进行评估:架构师、用户体验设计师、规划师、开发者和审查者。每个角色产生
免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。