OpenAI 发布并开源医疗测试基准 HealthBench,旨在更好地衡量 AI 系统在医疗健康领域能力

发布时间:2025-07-06 11:44:32 来源:互联网

本站 5 月 13 日消息,OpenAI 今日宣布推出了一个专门面向医疗大模型的测试评估集 ——HealthBench 并开源,旨在更好地衡量 AI 系统在医疗健康领域能力。

与以往测试集不同的是,HealthBench的 5000 段核心测试对话,由来自 60 个国家 / 地区的 26 个专业 262 名医生打造,极大增强了该测试集的难度、真实性以及丰富度。

与以前的狭窄基准不同,HealthBench 通过 48562 个独特的医生编写的评分标准进行有意义的开放式评估,涵盖多个健康背景(例如,紧急情况、全球健康)和行为维度(例如,准确性、遵循指示、沟通)。

此外,HealthBench采用了多轮对话测试,而不是简单的答题或选择题模式。本站注意到,测试数据显示大模型在医疗保健领域的表现有了显著提升。例如,从之前的 GPT-3.5Turbo 的 16% 到 GPT-4o 的 32%,再到 o3 的 60%,整体性能有了显著进步。尤其是小型模型的进步更为突出,GPT-4.1nano 不仅在性能上超越了 GPT-4o,而且成本降低了 25 倍。

参考资料:

  • 《HealthBench: Evaluating Large Language ModelsTowards Improved Human Health》

本周热门教程

1
女人在尝到粗硬后会经历哪些心理变化?探索心理层面的变化与情感联结

女人在尝到粗硬后会经历哪些心理变化?探索心理层面的变化与情感联结

2025/02/10

2
一起草(www.17.c.com)平台如何提高创作效率?揭示它的核心优势与实用功能

一起草(www.17.c.com)平台如何提高创作效率?揭示它的核心优势与实用功能

2025/02/17

3
大肉大捧一进一出爽的深层次情感体验解析:如何在亲密关系中找到真正的满足

大肉大捧一进一出爽的深层次情感体验解析:如何在亲密关系中找到真正的满足

2025/01/10

4
91网站:娱乐资讯、电影、音乐与游戏的完美融合平台

91网站:娱乐资讯、电影、音乐与游戏的完美融合平台

2024/12/15

5
搞机time极速入口何在?无需登录,如何重写中文汉字的捷径是什么?

搞机time极速入口何在?无需登录,如何重写中文汉字的捷径是什么?

2025/02/16

6
一起草(www.17.c.com)如何帮助用户高效完成文案创作?让创作变得更轻松

一起草(www.17.c.com)如何帮助用户高效完成文案创作?让创作变得更轻松

2025/01/06

7
《教室爱欲》韩国电影:探索教育伦理的边界与情感冲突

《教室爱欲》韩国电影:探索教育伦理的边界与情感冲突

2025/01/23

8
成色AU999.9是什么意思?详细解析黄金含量与纯度,了解黄金市场的关键标准

成色AU999.9是什么意思?详细解析黄金含量与纯度,了解黄金市场的关键标准

2025/02/13

9
脏脏漫网页版登录入口教程:轻松进入漫画世界享受阅读乐趣

脏脏漫网页版登录入口教程:轻松进入漫画世界享受阅读乐趣

2025/02/22

10
蘑菇视频网页版入口怎么打开:如何通过浏览器轻松进入并享受视频内容

蘑菇视频网页版入口怎么打开:如何通过浏览器轻松进入并享受视频内容

2025/03/11