Qwen3 强势刷新开源模子 SOTA,但如何让其在资源受限场景中,既能竣事低比特量化万博全站APP最新版,又能保证模子"才能"不掉线?
来自北京航空航天大学、西安电子科技大学和苏黎世联邦理工学院的筹议商榷团队找到了破局要道。
团队对 Qwen3 的 5 种后锻真金不怕火量化本领进行了初度系统性评估,涵盖从 1 比特到 8 比特的位宽和多个数据集,此外还与LLaMA3进行了量化比较。
商榷发现,Qwen3 在中度位宽下保握了竞争性能,但在超低精度下,讲话任务性能显赫下落,和 LLaMA3 比拟各别则愈加昭彰,亟需进一步处分决策以减弱性能赔本。
Qwen3 登场:上风与挑战并存
由阿里巴巴集团开发的Qwen 系列,是基于 Transformer 架构、极具竞争力的开源自追溯大型讲话模子(LLM)。
自觉布以来,Qwen 展现出了独特的可推广性,其 70 亿参数模子在某些基准测试中以致可与更大的特有模子,如 GPT-3.5 相比好意思。
最近推出的Qwen3,参数鸿沟从 6 亿到 2350 亿不等,通过在各样化、高质地语料库上的精好意思预锻真金不怕火进一步栽种了性能。
这使得 Qwen 家眷成为最具才能的开源 LLM 之一,安妥多种部署场景。
尽管 Qwen3 具有诸多上风,但其履行部署因高计算和内存需求而濒临挑战。
低比特量化已成为缓解这些问题的弥留本领,或者在资源受限斥地上竣事高效推理。然则,量化往往会导致性能下落。
Qwen3 的顶端才能为再行评忖度化本领提供了实时契机,以揭示其在顶端模子上的效力与局限性。
在本实证商榷中,系统性地评估了 Qwen3 在后锻真金不怕火量化 (PTQ)体式下的鲁棒性。
团队测试了 5 种经典 PTQ 体式,包括Round-To-Nearest (RTN)、GPTQ、AWQ、SmoothQuant和BiLLM,笼罩从 1 比特到 8 比特的位宽。
评估涵盖多种讲话任务,使用了如Perplexity (WikiText2、C4)、0-shot 知识推理 (PIQA、ARC-Easy/Challenge、HellaSwag、Winogrande、BoolQ)和5-shot MMLU等基准测试。
本商榷旨在:
基准量化引起的性能衡量。
识别特定位宽下的最好体式。
杰出未处分的挑战,特别是在超低比特场景中。
团队但愿商榷恶果能为将来商榷提供调换,鼓吹压缩模子竣事更高精度,栽种 Qwen3 及后续 LLM 的实用性。
深度剖析 Qwen3 量化的背后实验建立
团队评估了 Qwen3 后锻真金不怕火模子(0.6B、1.8B、4B、7B、14B 和 72B)尽头预锻真金不怕火版块(Qwen3-0.6/1.8/4/7/14B-Base)的低比特量化性能,预锻真金不怕火权重源流于官方仓库。
量化体式:
为全面评估 Qwen3 的量化鲁棒性,商榷东说念主员聘请了 5 种具有代表性的后锻真金不怕火量化(PTQ)体式,涵盖多种本解析线。
通盘竣事均罢黜其原始开源代码库。实验在 1 块 NVIDIA A800 80GB GPU 上进行,以确保评估条目一致。
量化条约:
为确保通盘量化体式的平允比较,商榷东说念主员保握以下三项一致性步调:
通盘体式使用一样的校准数据(来自 C4 数据集的 128 个样本,序列长度为 2048)。关于每组量化,通说念分组采纳 128 的块大小,罢黜 LLM 量化的既定实行。
关于每组量化,通说念分组采纳 128 的块大小,罢黜 LLM 量化的既定实行。
权分量化协调应用于 1 到 8 比特。
这些限制变量使得量化体式的性能不错胜利比较,同期最大限制减少热闹要素。
在权重 - 激活量化体式中,激活值被量化为4 或 8 比特,这是最常用的建立,因为更低位宽通常会导致显赫的性能下落。
评估条约:
为进行全面的 PTQ 评估,团队在 WikiText2 和 C4 的 256 个样簿子集上测量困惑度(PPL),序列长度为 2048。
零样本准确性通过六个公认的推理基准测试进行评估:PIQA、Winogrande、ARC-Easy、ARC-Challenge、HellaSwag 和 BoolQ。
少样本才能通过5-shot MMLU进一步检修。这一多维评估框架为量化后的 Qwen3 在不同任务类型和难度水平上的才能提供了严格评估。
PTQ 恶果
底下详备展示了实验恶果(表 1,表 2,表 3,表 4),并凭证数据提供了直不雅的视觉图示(图 1,图 2,图 3,图 4)。
表 1 展示了 Qwen3-Base 模子每通说念 2 到 8 位的 PTQ 恶果,展现了在 Wikitext2 和 c4 上的困惑度、零样本推理任务以及 5 样本 MMLU 性能。其中 W 暗示权分量化位宽,A 暗示激活量化位宽。
表 2 是 Qwen3 模子每通说念 2 到 8 位的 PTQ 恶果。
表 3 是 Qwen3-Base 模子每组 1 到 8 位的 PTQ 恶果,考证了在 Wikitext2 和 c4 上的困惑度、零样本推理任务以及 5 样本的 MMLU 性能。其中 G 暗示组大小。
表 4 是 Qwen3 模子每组 1 到 8 位的 PTQ 恶果。
权分量化的影响:
在 8 比特时,Qwen3 恒久保握接近无损的性能,标明高比特量化在履行部署中仍具有很大后劲。
然则,当位宽裁汰到 4 比特时,通盘量化体式均理会出昭彰的性能下落。举例,Qwen-8B 的 MMLU 分数从 74.7 降至 69.3。
当位宽进一步降至 3 比特时,尽管 AWQ 仍保留一定才能,但原始模子的大部分上风已丧失。
在 2 比特时,仅有像 GPTQ 这么哄骗校准赔偿的体式或者保握最低限制的性能。
同期,团队不雅察到二值化体式 Bi-LLM进展出相对有出路的恶果,在 32B 模子中以致越过了 3 比特的 AWQ,突显了二值化的后劲。
激活量化的影响:
在应用经典激活量化体式SmoothQuant时,团队不雅察到即使在 w8a8 建立下,与全精度模子比拟,性能已有昭彰下落。
当位宽降至 w4a8 时,模子性能显赫下落,远不如仅权分量化。
这一恶果与近期商榷发现一致,标明大型模子可能对激活量化特别明锐,可能是由于激活值特别导致的显赫性能下落。
△图 1:Qwen3-Base 在 C4 数据集上按照 per-group 的困惑度
△图 2:Qwen3-Base 每组量化的 0 样本知识推理准确率
不同参数鸿沟的比较:
团队不雅察到较大模子在量化下进展出更强的雄厚性。
具体来说,Qwen3-14B 在 4 比特 GPTQ 下的 MMLU 性能仅下落 1%,而 Qwen3-0.6B 在一样建立下下落约 10%,这突显了较大参数空间缓解量化噪声的才能。
与 LLaMA3 的比较:
团队此前对LLaMA3进行了经典体式的实验。
与 LLaMA3 的先前恶果比拟,Qwen3 在低比特量化(3 比特或更低)下进展出更显赫的性能下落。
具体来说,在 LLaMA3-8B 中,AWQ 的 w3a16g128 量化使 C4 上的 PPL 从 9.2 仅增至 11.6,而在 Qwen3-8B-Base 中,一样 AWQ 建立使 PPL 从 10.4 增至 23.8。
这与团队之前的实证不雅察和假定一致:更绝对的预锻真金不怕火历程可能导致更强的 LLM 中冗余暗示更少,使其对量化更明锐。
△图 3:Qwen3 在 C4 数据集上 per-group 和 per-channel 量化体式的困惑度
△图 4:Qwen3 per-group 量化和 per-channel 量化体式的 0 样本知识推理准确率论断与瞻望
新发布的 Qwen3 系列已成为最遍及的开源大型讲话模子(LLM)家眷之一,招引了学术界和工业界的庸碌护理。
本商榷初度系统性地评估了 Qwen3 在多种低比特量化决策下的鲁棒性,特别聚焦于后锻真金不怕火量化体式。
通过全面的量化分析,旨在为在资源受限场景下部署 Qwen3 建造履行界限。
实验恶果标明,Qwen3 在较高位宽(4 比特及以上)下保握了竞争性能,但与前几代模子比拟,在量化为 3 比特或以下时,性能下落更为昭彰。
这一不雅察与团队的假定一致,即 Qwen3 庸碌采纳的先进预锻真金不怕火本领往往生成参数冗余较少的模子,从而使其对量化引起的信息赔本更为明锐,尤其在复杂推理任务和少样本学习场景中,性能下落尤为显赫。
这些发现突显了两个要道含义:
刻下的量化本领需要进一步革命,以更好地保留 Qwen3 的先进才能;
关于顶端 LLM,模子压缩与性能保留之间的衡量需要仔细再行沟通。
商榷团队深信,这一实证分析为 LLM 量化的将来商榷标的提供了真贵调换,特别是在开发或者在超低位宽下保握高准确性的体式方面。
跟着鸿沟的跳跃,商榷团队期待这些视力将有助于像 Qwen3 这么遍及模子的更高效部署,最终在裁汰计算支拨的同期鼓吹大型讲话模子的履行应用。
将来该团队计算评估更高档的量化体式,举例基于通说念重排序的体式和基于旋转的量化计谋,以评估 Qwen3 在这些本领下的性能,特别是它们对激活量化的影响。
论文一语气:https://arxiv.org/pdf/2505.02214
时势一语气:https://huggingface.co/collections/Efficient-ML/qwen3-quantization-68164450decb1c868788cb2b
一键三连「点赞」「转发」「堤防心」
宽待在褒贬区留住你的思法!
— 完 —
学术投稿请于职责日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 时势主页一语气,以及联系方式哦
咱们会(尽量)实时回应你
� � 点亮星标 � �
科技前沿进展逐日见万博全站APP最新版