微软 BitNet b1.58 2B4T 登场:内存占用仅 0.4GB,20 亿参数模型颠覆 AI 计算

发布时间:2025-06-02 15:33:38 来源:互联网

本站 4 月 18 日消息,科技媒体 WinBuzzer 昨日(4 月 17 日)发布博文,报道称微软研究团队推出了一款开源大型语言模型 BitNet b1.58 2B4T,区别于传统训练后量化的方式,这款拥有 20 亿参数的大型语言模型(LLM)以 1.58 位低精度架构原生训练而成。

本站援引技术报告介绍,该模型性能直追同规模全精度模型,但计算资源需求大幅缩减。尤其令人瞩目的是,其非嵌入内存占用仅 0.4GB,远低于竞品 Gemma-3 1B 的 1.4GB 和 MiniCPM 2B 的 4.8GB。

BitNet 的高效秘诀在于其创新架构。模型摒弃传统 16 位数值,采用定制 BitLinear 层,将权重限制为-1、0、+1 三种状态,形成三值系统,每权重仅需约 1.58 位信息存储。

此外,层间激活值以 8 位整数量化,形成 W1.58A8 配置。微软还调整了 Transformer 架构,引入平方 ReLU 激活函数、标准旋转位置嵌入(RoPE)以及 subln 归一化,确保低位训练稳定性。技术报告称,这种原生 1 位训练避免了传统后训练量化(PTQ)带来的性能损失。

BitNet b1.58 2B4T 的开发历经三阶段:首先基于 4 万亿 token 的网络数据、代码和合成数学数据集进行预训练;随后通过公开及合成指令数据集(如 WizardLM Evol-Instruct)进行监督微调(SFT);最后采用直接偏好优化(DPO)方法,利用 UltraFeedback 等数据集提升对话能力和安全性。

微软测试显示,该模型在 GSM8K(数学)、PIQA(物理常识)等基准测试中表现优异,整体性能媲美主流 1B-2B 参数全精度模型,同时在能耗(每 token 0.028 焦耳)和 CPU 解码延迟(29 毫秒)上占据显著优势。

尽管 BitNet 潜力巨大,但其高效性需依赖微软提供的专用 C++ 框架 bitnet.cpp 实现。标准工具如 Hugging Face transformers 库无法展现其速度与能耗优势。

微软还计划优化 GPU 和 NPU 支持,延长上下文窗口至 4096 token,并探索更大规模模型、多语言功能及硬件协同设计。目前,BitNet b1.58 2B4T 已以 MIT 许可证在 Hugging Face 发布,供社区测试与应用。

参考

  • BitNet b1.58 2B4T Technical Report

  • hugging face 模型页面

本周热门教程

1
女人在尝到粗硬后会经历哪些心理变化?探索心理层面的变化与情感联结

女人在尝到粗硬后会经历哪些心理变化?探索心理层面的变化与情感联结

2025/02/10

2
蘑菇视频网页版入口如何打开?这篇文章为你提供详细的操作步骤

蘑菇视频网页版入口如何打开?这篇文章为你提供详细的操作步骤

2024/12/08

3
2023年法国空乘行业现状:薪资待遇、培训与职业发展

2023年法国空乘行业现状:薪资待遇、培训与职业发展

2024/12/08

4
尼姑修行生活中,阴唇与腓骨的生理变化影响:如何维持身心健康?

尼姑修行生活中,阴唇与腓骨的生理变化影响:如何维持身心健康?

2025/01/05

5
四川BBBBB毛毛多的独特魅力:从自然到文化的全面探索

四川BBBBB毛毛多的独特魅力:从自然到文化的全面探索

2025/02/13

6
如何查看高清免费观看影片的在线人数:多种方式帮你轻松了解观看热度

如何查看高清免费观看影片的在线人数:多种方式帮你轻松了解观看热度

2025/02/14

7
欧产日产国产精品98:如何满足欧洲市场消费者的需求?

欧产日产国产精品98:如何满足欧洲市场消费者的需求?

2025/02/22

8
裸女直播背后的社会现象:真的好看还是过度消费了?

裸女直播背后的社会现象:真的好看还是过度消费了?

2025/02/27

9
如何通过大地资源二中文版在线观看轻松畅享高清影视资源?

如何通过大地资源二中文版在线观看轻松畅享高清影视资源?

2025/03/09

10
香菇影视和麻花影视的区别是什么?如何选择合适的影视平台观看电影?

香菇影视和麻花影视的区别是什么?如何选择合适的影视平台观看电影?

2024/12/06