Gemma 4 能在编程方面击败 Gemini 3.1 Pro 吗?

发布日期:2026-04-27 09:23:42   浏览量 :4
发布日期:2026-04-27 09:23:42  
4

2026西湖龙井茶官网DTC发售:茶农直供,政府溯源防伪到农户家 

每月 20 美元的 Google AI Pro 账户与在 OpenRouter 上按量付费运行 Gemma 4 31B 模型相比,是否物有所值?本次 Ship-Bench 测试旨在通过一个真实的编码工作流(而非单一的编码提示)来回答这个问题。

假设: Gemini 的更大模型规模将在解决问题等方面展现出相对于参数量较小的 Gemma 31B 的明显优势。

关键洞察

  • Gemini 在五个角色中的平均得分为 86.6,并通过了 5 个关卡中的 4 个;而 Gemma 的最终得分为 72.4,仅通过了 5 个关卡中的 2 个。

  • Gemma 在原始架构师和用户体验得分上实际上处于领先地位,但由于未将确切版本锁定到最新框架,仍然未能通过架构师关卡。

  • 最大的差距出现在执行和验证环节:Gemini 在开发者角色中得分为 93.3,而 Gemma 为 58;在审查者角色中,Gemini 得分为 72,Gemma 为 37。

  • 目前,Gemini 在 AI Pro 服务中具有异常高的性价比,但更持久的市场费率比较显示,在相当于 OpenRouter 的定价下,Gemini 的成本约为 5.05 美元,而 Gemma 约为 0.85 美元。

设置

两次测试均使用相同的机器、相同的运行时环境系列、相同的基准测试任务以及相同版本的 Ship-Benchv1)。主要区别在于测试 harness 和提供商设置,这一点很重要,因为即使基准测试目标保持不变,操作者的体验和工具行为也会影响结果。

环境

项目
机器 Windows 11
运行时 Node v24
Ship-Bench 仓库 ship-bench v1
基准测试任务 简化版知识库应用

运行配置

项目 Gemini 运行 Gemma 运行
Harness(测试框架) Gemini CLI 0.38.2 GitHub Copilot CLI 1.0.34
模型 Gemini 3.1 Pro Gemma 4 31B
后端 Google AI Pro 账户 OpenRouter
运行仓库分支 Gemini 分支 Gemma 分支

评判配置

项目
评判 Harness(框架) Claude Code
评判模型 Opus 4.7 Medium
评估模式 大语言模型评判加上人工审查

Ship-Bench 背景

Ship-Bench 在五个软件开发生命周期角色中对模型进行评估:架构师、用户体验设计师、规划师、开发者和审查者。每个角色产生

免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。

关于我们
热门推荐
合作伙伴
免责声明:本站部分资讯来源于网络,如有侵权请及时联系客服,我们将尽快处理
支持 反馈 订阅 数据
回到顶部