Gemma 4 能在编程方面击败 Gemini 3.1 Pro 吗？

每月 20 美元的 Google AI Pro 账户与在 OpenRouter 上按量付费运行 Gemma 4 31B 模型相比，是否物有所值？本次 Ship-Bench 测试旨在通过一个真实的编码工作流（而非单一的编码提示）来回答这个问题。

假设： Gemini 的更大模型规模将在解决问题等方面展现出相对于参数量较小的 Gemma 31B 的明显优势。

关键洞察

Gemini 在五个角色中的平均得分为 86.6，并通过了 5 个关卡中的 4 个；而 Gemma 的最终得分为 72.4，仅通过了 5 个关卡中的 2 个。
Gemma 在原始架构师和用户体验得分上实际上处于领先地位，但由于未将确切版本锁定到最新框架，仍然未能通过架构师关卡。
最大的差距出现在执行和验证环节：Gemini 在开发者角色中得分为 93.3，而 Gemma 为 58；在审查者角色中，Gemini 得分为 72，Gemma 为 37。
目前，Gemini 在 AI Pro 服务中具有异常高的性价比，但更持久的市场费率比较显示，在相当于 OpenRouter 的定价下，Gemini 的成本约为 5.05 美元，而 Gemma 约为 0.85 美元。

两次测试均使用相同的机器、相同的运行时环境系列、相同的基准测试任务以及相同版本的 Ship-Bench（v1）。主要区别在于测试 harness 和提供商设置，这一点很重要，因为即使基准测试目标保持不变，操作者的体验和工具行为也会影响结果。

Ship-Bench 在五个软件开发生命周期角色中对模型进行评估：架构师、用户体验设计师、规划师、开发者和审查者。每个角色产生

免责声明：本文内容来自互联网，该文观点不代表本站观点。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请到页面底部单击反馈，一经查实，本站将立刻删除。