初探 OpenAI GPT-4.1 性能:AI 编程能力大增,但谷歌 Gemini 依然称王

发布时间:2025-05-28 16:48:19 来源:互联网

本站 4 月 16 日消息,科技媒体 bleepingcomputer 昨日(4 月 15 日)发布博文,报道称 OpenAI 最新发布的 GPT-4.1 系列模型,其性能相比 GPT-4o 虽然实现重大飞跃,但多项跑分未能超越谷歌的 Gemini 系列。

本站昨日报道,OpenAI 公司发布 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano,官方公布的跑分数据来看,这些模型在编程方面的能力,远超 GPT-4o 及 GPT-4o mini。

例如在 SWE-bench Verified 跑分中,GPT-4o 的得分为 21.4%,GPT-4.5 的得分为 26.6%,而 GPT-4.1 的得分为 54.6%。

尽管性能有较大提升,不过根据多位专家测试,相比较谷歌的 Gemini 系列,GPT-4.1 对比中却显露劣势。

根据 Stagehand(一款生产级浏览器自动化框架)发布的基准数据,Gemini 2.0 Flash 的错误率仅为 6.67%,精确匹配率高达 90%,且价格低廉、速度更快。相比之下,GPT-4.1 的错误率高达 16.67%,成本更是 Gemini 2.0 Flash 的 10 倍以上。

此外,哈佛大学 RNA 科学家 Pierre Bongrand 提供的数据也指出,GPT-4.1 的性价比不及 Gemini 2.0 Flash、Gemini 2.5 Pro 及 DeepSeek 等竞品。

在编码专项测试中,GPT-4.1 同样未能占据上风。Aider Polyglot 的测试结果显示,GPT-4.1 的编码得分仅为 52%,而 Gemini 2.5 则以 73% 的成绩遥遥领先。

值得注意的是,GPT-4.1 被归类为非推理模型(non-reasoning model),但其编码能力仍属行业顶尖。

本周热门教程

1
女人在尝到粗硬后会经历哪些心理变化?探索心理层面的变化与情感联结

女人在尝到粗硬后会经历哪些心理变化?探索心理层面的变化与情感联结

2025/02/10

2
蘑菇视频网页版入口如何打开?这篇文章为你提供详细的操作步骤

蘑菇视频网页版入口如何打开?这篇文章为你提供详细的操作步骤

2024/12/08

3
2023年法国空乘行业现状:薪资待遇、培训与职业发展

2023年法国空乘行业现状:薪资待遇、培训与职业发展

2024/12/08

4
尼姑修行生活中,阴唇与腓骨的生理变化影响:如何维持身心健康?

尼姑修行生活中,阴唇与腓骨的生理变化影响:如何维持身心健康?

2025/01/05

5
四川BBBBB毛毛多的独特魅力:从自然到文化的全面探索

四川BBBBB毛毛多的独特魅力:从自然到文化的全面探索

2025/02/13

6
男人进入40岁为何会变得如此狂热?女人到40岁后到底发生了什么变化?

男人进入40岁为何会变得如此狂热?女人到40岁后到底发生了什么变化?

2024/12/25

7
大尺度电影《教室爱欲》探讨欲望与教育界限:这部影片背后隐藏的深刻社会意义是什么?

大尺度电影《教室爱欲》探讨欲望与教育界限:这部影片背后隐藏的深刻社会意义是什么?

2025/01/19

8
装睡让孩子从后面进入:如何用巧妙的方法安抚孩子入睡并促进独立性发展

装睡让孩子从后面进入:如何用巧妙的方法安抚孩子入睡并促进独立性发展

2025/01/23

9
如何应对秘书下面太紧拔不出来的情况?

如何应对秘书下面太紧拔不出来的情况?

2024/12/29

10
为什么亲生妈妈总是能够保持冷静:揭秘她们为何不轻易生气

为什么亲生妈妈总是能够保持冷静:揭秘她们为何不轻易生气

2025/03/09