首页

手游攻略

初探 OpenAI GPT-4.1 性能：AI 编程能力大增，但谷歌 Gemini 依然称王

初探 OpenAI GPT-4.1 性能：AI 编程能力大增，但谷歌 Gemini 依然称王

发布时间：2025-05-28 16:48:19 来源：互联网

本站 4 月 16 日消息，科技媒体 bleepingcomputer 昨日（4 月 15 日）发布博文，报道称 OpenAI 最新发布的 GPT-4.1 系列模型，其性能相比 GPT-4o 虽然实现重大飞跃，但多项跑分未能超越谷歌的 Gemini 系列。

本站昨日报道，OpenAI 公司发布 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano，官方公布的跑分数据来看，这些模型在编程方面的能力，远超 GPT-4o 及 GPT-4o mini。

例如在 SWE-bench Verified 跑分中，GPT-4o 的得分为 21.4%，GPT-4.5 的得分为 26.6%，而 GPT-4.1 的得分为 54.6%。

尽管性能有较大提升，不过根据多位专家测试，相比较谷歌的 Gemini 系列，GPT-4.1 对比中却显露劣势。

根据 Stagehand（一款生产级浏览器自动化框架）发布的基准数据，Gemini 2.0 Flash 的错误率仅为 6.67%，精确匹配率高达 90%，且价格低廉、速度更快。相比之下，GPT-4.1 的错误率高达 16.67%，成本更是 Gemini 2.0 Flash 的 10 倍以上。

此外，哈佛大学 RNA 科学家 Pierre Bongrand 提供的数据也指出，GPT-4.1 的性价比不及 Gemini 2.0 Flash、Gemini 2.5 Pro 及 DeepSeek 等竞品。

在编码专项测试中，GPT-4.1 同样未能占据上风。Aider Polyglot 的测试结果显示，GPT-4.1 的编码得分仅为 52%，而 Gemini 2.5 则以 73% 的成绩遥遥领先。

值得注意的是，GPT-4.1 被归类为非推理模型（non-reasoning model），但其编码能力仍属行业顶尖。

相关文章推荐：

男同为何一起嗟嗟嗟时感到疼痛？原声无马，详细了解其背后原因

姐姐3之激战后厨第5集剧情简介：后厨挑战背后姐姐们的情感纠葛和成长之路

成品动漫网站入口网页版的打开与漫画阅读技巧：如何快速畅享漫画内容

一个男人同时与两个女性发生关系，导致HPV感染的传播风险及预防措施

相关教程更多

苹果 iOS / iPadOS 18.5 开发者预览版 Beta 2 发布

高德联合极氪首发高性能实时渲染引擎构建全域车道级导航

B 社《上古卷轴 4：湮没》重制版游戏曝光：改善光照、纹理、绘制距离等

OpenAI ChatGPT 上线图库功能，更轻松管理 AI 生成图片

一加 Nord CE5 手机渲染图首曝：垂直双摄，硬朗外观

苹果 iOS 18.5、macOS Sequoia 15.5 首个公测版推送

谷歌 Veo 2 视频生成模型入驻 Gemini，用户可创建 8 秒 720p 视频

HBO 剧版《哈利・波特》部分主演官宣，计划年中开拍

倍思 45W 自带线充电宝开售：10000mAh 容量、四口同充，99 元

?????????????????????????????????????????????????????????????????????Apex ?????????

本周热门教程

1

女人在尝到粗硬后会经历哪些心理变化？探索心理层面的变化与情感联结

女人在尝到粗硬后会经历哪些心理变化？探索心理层面的变化与情感联结
2025/02/10

2

蘑菇视频网页版入口如何打开？这篇文章为你提供详细的操作步骤

蘑菇视频网页版入口如何打开？这篇文章为你提供详细的操作步骤
2024/12/08

3

2023年法国空乘行业现状：薪资待遇、培训与职业发展

2023年法国空乘行业现状：薪资待遇、培训与职业发展
2024/12/08

4

尼姑修行生活中，阴唇与腓骨的生理变化影响：如何维持身心健康？

尼姑修行生活中，阴唇与腓骨的生理变化影响：如何维持身心健康？
2025/01/05

5

四川BBBBB毛毛多的独特魅力：从自然到文化的全面探索

四川BBBBB毛毛多的独特魅力：从自然到文化的全面探索
2025/02/13

6

男人进入40岁为何会变得如此狂热？女人到40岁后到底发生了什么变化？

男人进入40岁为何会变得如此狂热？女人到40岁后到底发生了什么变化？
2024/12/25

7

大尺度电影《教室爱欲》探讨欲望与教育界限：这部影片背后隐藏的深刻社会意义是什么？

大尺度电影《教室爱欲》探讨欲望与教育界限：这部影片背后隐藏的深刻社会意义是什么？
2025/01/19

8

装睡让孩子从后面进入：如何用巧妙的方法安抚孩子入睡并促进独立性发展

装睡让孩子从后面进入：如何用巧妙的方法安抚孩子入睡并促进独立性发展
2025/01/23

9

如何应对秘书下面太紧拔不出来的情况？

如何应对秘书下面太紧拔不出来的情况？
2024/12/29

10

为什么亲生妈妈总是能够保持冷静：揭秘她们为何不轻易生气

为什么亲生妈妈总是能够保持冷静：揭秘她们为何不轻易生气
2025/03/09

热门教程

全面解析欧洲尺码、日本尺码、美国尺码与LV品牌尺码的对应关系：让跨国购物不再困惑

欧洲尺码、日本尺码、美国尺码与LV品牌尺码的详细对比和换算指南

《妈妈你真棒》插曲“快来救救我”电影改编自哪部作品？揭秘原作背景与故事

韩国大尺度《偷欢2》：极限情感表达引发社会热议，尺度之大是否有意义？

蜜桃精产国品一二三产区区别9：不同产区蜜桃的口感差异和市场前景分析

如何应对“爽、躁、多水、快受不了了”这种情绪波动？探索有效的情绪管理技巧

一级做AE是否真的免费？如何利用免费资源学会AE，快速上手并制作特效？

如何从爽躁多水的情感困扰中走出来：你是否也有过进不去的感觉？

一级二级调色手段解析：经典影片中的色彩运用技巧与艺术表现

为什么三个老外会换着躁我一个故事？他们的文化差异带给我什么启示？