从基础开始的量化
Quantization from the Ground Up

原始链接: https://ngrok.com/blog/quantization

## 量化:缩小LLM以供本地使用 大型语言模型 (LLM),如 Qwen-3-Coder-Next,拥有 800 亿参数(需要 159.4GB 内存),资源密集型。虽然前沿模型拥有超过一万亿参数,但**量化**提供了一种解决方案:在最小化精度损失的同时,减小模型尺寸并提高速度。 量化通过压缩模型参数的精度来工作——这些核心数字驱动着其计算。LLM 将这些参数存储为 32 位浮点数,但可以使用较低的精度(如 16 位、8 位甚至 4 位)运行。这减少了内存占用并加快了处理速度。 该过程涉及将值从较大范围映射到较小范围,通常通过四舍五入。**对称量化**以零为中心,而**非对称量化**则适应数据分布以提高效率。诸如分块量化之类的先进技术可以减轻由异常参数值引起的问题。 在 Qwen3.5 9B 模型上的测试表明,从 16 位到 8 位量化几乎不会造成质量损失。4 位量化会导致准确性略有下降(约 10%),而 2 位量化会严重降低性能。基准测试和直接交互证实了这些发现。 最终,量化允许在消费级硬件上运行强大的 LLM,为本地、离线 AI 应用程序打开了可能性。虽然存在诸如量化感知训练和参数修剪之类的其他方法,但量化提供了一种强大且易于访问的方式来 democratize 对强大语言模型的访问。

黑客新闻 新 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 从头开始的量化 (ngrok.com) 17 分,由 samwho 54 分钟前发布 | 隐藏 | 过去 | 收藏 | 1 条评论 帮助 armcat 7 分钟前 [–] 写得太棒了,可视化效果也很出色!原始量化水平与不同量化水平之间的 KL 散度比较非常到位。我不确定人们是否意识到量化方法有多强大,以及它们对本地 AI 普及化所做的贡献。像 Unsloth 和 Pruna 这样的优秀参与者也很多。回复 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系 搜索:
相关文章

原文
联系我们 contact @ memedata.com