开源逆袭:TAO 方法微调 Llama 模型,FinanceBench 跑分超 GPT-4o

发布时间:2025-04-11 14:22:45 来源:互联网

本站 3 月 27 日消息,科技媒体 NeoWin 昨日(3 月 26 日)发布博文,报道称数据智能公司 Databricks 发布新型大语言模型微调方法 TAO(Test-time Adaptive Optimization),通过无标注数据和强化学习技术,在显著降低企业成本的同时提升模型性能。

测试显示,在金融文档问答和 SQL 生成任务中,通过 TAO 微调后的 Llama 3.3 70B 模型,表现甚至超越传统标注微调方法,逼近 OpenAI 顶级闭源模型。

TAO 方法利用测试时计算(test-time compute)自动探索任务可能性,结合强化学习优化模型,省去人工标注成本。在三大企业基准测试中,TAO 微调的 Llama 模型表现亮眼:

    FinanceBench(7200 道 SEC 文档问答):TAO 模型得分 85.1,优于标注微调(81.1)和 OpenAI o3-mini(82.2)。

    BIRD-SQL:TAO 模型 56.1 分,接近 GPT-4o(58.1),远超标注微调(54.9)。

    DB Enterprise Arena:TAO 模型 47.2 分,而 GPT-4o 模型得分为 53.8 分。

    TAO 技术为开源模型提供了持续进化路径:用户使用越多,模型通过反馈数据自我优化的潜力越大,目前该技术已在 Llama 模型上启动私测,企业可通过申请表单参与。

本周热门教程

1
中国熟老太的独特魅力:HDt∪be背后的文化与故事之谜?

中国熟老太的独特魅力:HDt∪be背后的文化与故事之谜?

2025/02/21

2
避免公与媳中文字幕乱码的有效方法:从编码格式到播放器设置,教你轻松解决乱码问题

避免公与媳中文字幕乱码的有效方法:从编码格式到播放器设置,教你轻松解决乱码问题

2025/02/15

3
14岁女孩乳房为何太软?躺下时为何会感到疼痛?

14岁女孩乳房为何太软?躺下时为何会感到疼痛?

2025/02/19

4
如何处理“两男一女,一个人一个摸”的尴尬互动?如何避免误解和不适感?

如何处理“两男一女,一个人一个摸”的尴尬互动?如何避免误解和不适感?

2025/03/19

5
三亚精品高清影院的影片质量如何?揭秘三亚影院优质的观影体验和服务

三亚精品高清影院的影片质量如何?揭秘三亚影院优质的观影体验和服务

2025/03/20

6
如何在爱奇艺查看免费网站在线观看人数?了解观看人数的统计方式与相关技巧

如何在爱奇艺查看免费网站在线观看人数?了解观看人数的统计方式与相关技巧

2025/03/21

7
“啊灬啊灬啊灬快灬深”是什么意思?它为什么会成为流行网络词汇?

“啊灬啊灬啊灬快灬深”是什么意思?它为什么会成为流行网络词汇?

2025/03/19

8
为什么选择老公牛影院免费观看电视剧?了解其多种优势和便捷性

为什么选择老公牛影院免费观看电视剧?了解其多种优势和便捷性

2025/03/22

9
AE直播平台是否免费?四季AE直播收费标准及选择指南

AE直播平台是否免费?四季AE直播收费标准及选择指南

2025/03/16

10
如何通过9.1免费网站NBA入口免费观看NBA赛事:安全、高清流畅观看攻略

如何通过9.1免费网站NBA入口免费观看NBA赛事:安全、高清流畅观看攻略

2025/03/18