微软开源 BitNet：1位大语言模型的高效推理框架

March 11, 2026

本文翻译自 BitNet Official Inference Framework，原载于 Hacker News。

什么是 BitNet？

BitNet 是微软研究院开发的1位大语言模型（1-bit LLM）的官方推理框架，核心实现是 bitnet.cpp。它提供了一套高度优化的计算核心（kernels），支持在 CPU 和 GPU 上对 1.58-bit 模型进行快速且无损的推理。

与传统 FP16/BF16 精度的模型相比，BitNet 将权重量化到极低比特位（1.58 bits），在保持模型性能的同时，大幅降低了内存占用和计算开销。这使得在边缘设备上运行大规模语言模型成为可能。

核心亮点

惊人的性能提升

bitnet.cpp 的性能表现令人印象深刻：

ARM CPU 平台：

速度提升：1.37x 到 5.07x
能耗降低：55.4% 到 70.0%
模型越大，性能提升越明显

x86 CPU 平台：

速度提升：2.37x 到 6.17x
能耗降低：71.9% 到 82.2%

更重要的是，bitnet.cpp 可以在单个 CPU 上运行 100B 参数的 BitNet b1.58 模型，速度达到人类阅读水平（每秒 5-7 个 tokens）。这为本地设备运行 LLM 开辟了新的可能性。

技术原理

1.58-bit 量化

BitNet b1.58 使用三元权重（ternary weights），即权重值只能是 -1、0 或 +1。这种表示方式：

内存效率：每个权重只需约 1.58 bits 存储
计算效率：矩阵乘法可以用简单的加减法实现
模型质量：通过大规模训练保持与 FP16 模型相当的性能

基于 llama.cpp

bitnet.cpp 构建在成熟的 llama.cpp 框架之上，继承了其跨平台、轻量级的优势，同时针对 1-bit 模型进行了专门优化。

查找表（Lookup Table）方法

核心计算基于 T-MAC 项目开创的查找表方法，将复杂的矩阵运算转换为高效的查表操作，特别适合低比特量化模型。

支持的模型

官方模型

模型	参数量	CPU 平台	核心类型
BitNet-b1.58-2B-4T	2.4B	x86 / ARM	I2_S, TL2

第三方 1-bit 模型

bitnet.cpp 同时支持 Hugging Face 上的其他 1-bit LLM：

bitnet_b1_58-large (0.7B)
bitnet_b1_58-3B (3.3B)
Llama3-8B-1.58-100B-tokens (8.0B)
Falcon3 系列 (1B-10B)
Falcon-E 系列 (1B-3B)

注意：这些模型展示了 bitnet.cpp 的推理能力，微软希望通过这个框架的发布，激励社区开发更大规模（参数量和训练 tokens）的 1-bit LLM。

快速开始

环境要求

Python >= 3.9
CMake >= 3.22
Clang >= 18
Conda（强烈推荐）

Windows 用户：需要安装 Visual Studio 2022，并启用：

使用 C++ 的桌面开发
C++ CMake 工具
Git for Windows
C++ Clang 编译器
LLVM 工具集的 MSBuild 支持

Linux (Debian/Ubuntu) 用户：

bash -c "$(wget -O - https://apt.llvm.org/llvm.sh)"

安装步骤

# 1. 克隆仓库
git clone --recursive https://github.com/microsoft/BitNet.git
cd BitNet

# 2. 创建 Conda 环境
conda create -n bitnet-cpp python=3.9
conda activate bitnet-cpp
pip install -r requirements.txt

# 3. 下载模型并构建
huggingface-cli download microsoft/BitNet-b1.58-2B-4T-gguf \
  --local-dir models/BitNet-b1.58-2B-4T
python setup_env.py -md models/BitNet-b1.58-2B-4T -q i2_s

运行推理

python run_inference.py \
  -m models/BitNet-b1.58-2B-4T/ggml-model-i2_s.gguf \
  -p "You are a helpful assistant" \
  -cnv

参数说明：

-m：模型文件路径
-p：提示词（prompt）
-cnv：启用对话模式（适用于 instruct 模型）
-t：线程数（默认：2）
-temp：温度参数，控制生成随机性

性能基准测试

python utils/e2e_benchmark.py \
  -m /path/to/model \
  -n 200 \
  -p 256 \
  -t 4

参数：

-n：生成的 tokens 数量
-p：提示词的 tokens 数量
-t：使用线程数

实际演示

在 Apple M2 上运行 BitNet b1.58 3B 模型的演示视频显示，推理速度流畅，完全可以在本地设备上实现实时交互。

模型转换

如果你有自己的 .safetensors 格式的 BitNet 模型，可以这样转换：

# 下载原始模型
huggingface-cli download microsoft/bitnet-b1.58-2B-4T-bf16 \
  --local-dir ./models/bitnet-b1.58-2B-4T-bf16

# 转换为 GGUF 格式
python ./utils/convert-helper-bitnet.py ./models/bitnet-b1.58-2B-4T-bf16

常见问题

Q: 编译时遇到 std::chrono 错误？

这是 llama.cpp 近期版本的已知问题，参考这个 commit 中的讨论解决。

Q: Windows 上如何在 Conda 环境中使用 Clang？

确保你的命令行已正确初始化 Visual Studio 工具。

Command Prompt:

"C:\Program Files\Microsoft Visual Studio\2022\Professional\Common7\Tools\VsDevCmd.bat" ^
  -startdir=none -arch=x64 -host_arch=x64

PowerShell:

Import-Module "C:\Program Files\Microsoft Visual Studio\2022\Professional\Common7\Tools\Microsoft.VisualStudio.DevShell.dll"
Enter-VsDevShell 3f0e31ad -SkipAutomaticLocation -DevCmdArguments "-arch=x64 -host_arch=x64"

为什么 1-bit LLM 很重要？

1. 边缘计算的新可能

传统 LLM 需要高端 GPU 才能运行，而 BitNet 将 100B 模型带到了普通 CPU 上。这意味着：

无需云端 API 调用
数据隐私得到保护
降低部署成本
支持离线使用场景

2. 能效革命

能耗降低 70-80% 对移动设备和数据中心都意义重大：

延长笔记本电池续航
降低服务器运营成本
减少 AI 的碳足迹

3. 模型压缩的新方向

BitNet 证明了低比特量化可以在不显著损失性能的前提下大幅压缩模型。这与传统的量化方法不同，它是从训练阶段就开始的低比特表示，而非训练后量化。

未来展望

bitnet.cpp 的路线图包括：

NPU 支持：下一步将支持神经网络处理器
更大规模模型：社区已开始探索 100B+ 参数的 1-bit 模型
更多框架集成：可能与 PyTorch、ONNX 等生态进一步整合

致谢

bitnet.cpp 基于 llama.cpp 框架，感谢 Georgi Gerganov 和所有贡献者。核心计算方法借鉴自 T-MAC 项目。

对于一般的低比特 LLM（非三元模型）推理，推荐使用 T-MAC。

总结

BitNet 代表了大语言模型发展的一个重要方向：极致的模型压缩与高效的本地推理。

关键要点：

性能卓越：CPU 上最高 6.17x 加速，能耗降低 82.2%
本地可行：单个 CPU 运行 100B 模型，速度媲美人类阅读
开源生态：基于 llama.cpp，支持多种 1-bit 模型
易于使用：Python 接口，完整的工具链

对于想要在本地运行 LLM 的开发者，BitNet 提供了一个令人兴奋的选择。随着社区的发展，我们可以期待更多高质量、低资源消耗的 1-bit 模型出现。

相关资源：

NEE's Blog