OpenAI 新推理模型被曝产生更多“幻觉”，o3 / o4-mini 性能与错误率一同提升-璞玉手游网

本站 4 月 19 日消息，OpenAI 最新发布的 o3 和 o4-mini 模型在多个方面展现出业内领先的水准，不过，这两款模型依然无法摆脱“幻觉”问题 —— 甚至比以往发布的模型更加严重。

据外媒 TechCrunch 今日报道，幻觉问题一直是生成式 AI 发展过程中最难解决的挑战之一，即使是目前性能最优秀的模型也难以完全避免。过去，每一代新模型在降低幻觉频率方面通常都会取得小幅进步，但 o3 和 o4-mini 却打破了这一趋势。

根据 OpenAI 的内部测试，作为推理模型的 o3 和 o4-mini，出现幻觉的频率不仅超过了前代推理模型 o1、o1-mini 和 o3-mini，甚至还高于传统“非推理”模型（本站注：如 GPT-4o）。

OpenAI 在针对这两款模型发布的技术报告中表示：“要弄清楚随着推理模型规模的扩大，幻觉问题为何反而变得更加严重，还需要进一步研究。”报告指出，尽管 o3 和 o4-mini 在编程和数学等任务上的表现优于以往，但由于模型输出的答案总量增加，导致其既能作出更多准确判断，同时也不可避免地出现更多错误甚至幻觉。

在 OpenAI 设计的内部基准测试 PersonQA 中，o3 回答问题时出现幻觉的比例达到 33%，几乎是前代推理模型 o1 和 o3-mini 的两倍，后者的幻觉率分别为 16% 和 14.8%。在同一测试中，o4-mini 的表现更差，幻觉率高达 48%。

第三方机构 Transluce 的测试也印证了这一问题。这家非营利 AI 研究实验室发现，o3 在回答问题时经常会凭空捏造出某些“过程操作”。例如，Transluce 曾观察到，o3 声称自己在一台 2021 款 MacBook Pro 上“在 ChatGPT 之外”运行了代码，并将结果复制进了答案中。实际上，虽然 o3 拥有一部分工具访问权限，但并不具备执行这种操作的能力。

OpenAI 发言人 Niko Felix 表示：“解决幻觉问题是我们一直在推进的重点研究方向，我们也在不断努力提升模型的准确性与可靠性。”

OpenAI 新推理模型被曝产生更多“幻觉”，o3 / o4-mini 性能与错误率一同提升

1

女人在尝到粗硬后会经历哪些心理变化？探索心理层面的变化与情感联结

女人在尝到粗硬后会经历哪些心理变化？探索心理层面的变化与情感联结
2025/02/10

2

蘑菇视频网页版入口如何打开？这篇文章为你提供详细的操作步骤

蘑菇视频网页版入口如何打开？这篇文章为你提供详细的操作步骤
2024/12/08

3

2023年法国空乘行业现状：薪资待遇、培训与职业发展

2023年法国空乘行业现状：薪资待遇、培训与职业发展
2024/12/08

4

尼姑修行生活中，阴唇与腓骨的生理变化影响：如何维持身心健康？

尼姑修行生活中，阴唇与腓骨的生理变化影响：如何维持身心健康？
2025/01/05

5

四川BBBBB毛毛多的独特魅力：从自然到文化的全面探索

四川BBBBB毛毛多的独特魅力：从自然到文化的全面探索
2025/02/13

6

如何查看高清免费观看影片的在线人数：多种方式帮你轻松了解观看热度

如何查看高清免费观看影片的在线人数：多种方式帮你轻松了解观看热度
2025/02/14

7

欧产日产国产精品98：如何满足欧洲市场消费者的需求？

欧产日产国产精品98：如何满足欧洲市场消费者的需求？
2025/02/22

8

裸女直播背后的社会现象：真的好看还是过度消费了？

裸女直播背后的社会现象：真的好看还是过度消费了？
2025/02/27

9

如何通过大地资源二中文版在线观看轻松畅享高清影视资源？

如何通过大地资源二中文版在线观看轻松畅享高清影视资源？
2025/03/09

10

香菇影视和麻花影视的区别是什么？如何选择合适的影视平台观看电影？

香菇影视和麻花影视的区别是什么？如何选择合适的影视平台观看电影？
2024/12/06

全面解析欧洲尺码、日本尺码、美国尺码与LV品牌尺码的对应关系：让跨国购物不再困惑

欧洲尺码、日本尺码、美国尺码与LV品牌尺码的详细对比和换算指南

《妈妈你真棒》插曲“快来救救我”电影改编自哪部作品？揭秘原作背景与故事

韩国大尺度《偷欢2》：极限情感表达引发社会热议，尺度之大是否有意义？

蜜桃精产国品一二三产区区别9：不同产区蜜桃的口感差异和市场前景分析

如何应对“爽、躁、多水、快受不了了”这种情绪波动？探索有效的情绪管理技巧

一级做AE是否真的免费？如何利用免费资源学会AE，快速上手并制作特效？

如何从爽躁多水的情感困扰中走出来：你是否也有过进不去的感觉？

一级二级调色手段解析：经典影片中的色彩运用技巧与艺术表现

为什么三个老外会换着躁我一个故事？他们的文化差异带给我什么启示？