代码拉取完成,页面将自动刷新
同步操作将从 PaddlePaddle/PaddleSlim 强制同步,此操作会覆盖自 Fork 仓库以来所做的任何修改,且无法恢复!!!
确定后同步将在后台操作,完成时将刷新页面,请耐心等待。
PaddleSlim主要包含三种量化方法:量化训练(Quant Aware Training, QAT)、动态离线量化(Post Training Quantization Dynamic, PTQ Dynamic)、静态离线量化(Post Training Quantization Static, PTQ Static)。
除此之外,PaddleSlim还有一种对embedding层量化的方法,将网络中embedding层参数从float32类型量化到int8类型。
下图展示了如何根据需要选择模型量化方法
下表综合对比了模型量化方法的使用条件、易用性、精度损失和预期收益。
量化方法 | API接口 | 功能 | 经典适用场景 |
---|---|---|---|
在线量化 (QAT) | 动态图:paddleslim.QAT ; 静态图:paddleslim.quant.quant_aware
|
通过finetune训练将模型量化误差降到最小 | 对量化敏感的场景、模型,例如目标检测、分割, OCR |
静态离线量化 (PTQ Static) | paddleslim.quant.quant_post_static |
通过少量校准数据得到量化模型 | 对量化不敏感的场景,例如图像分类任务 |
动态离线量化 (PTQ Dynamic) | paddleslim.quant.quant_post_dynamic |
仅量化模型的可学习权重 | 模型体积大、访存开销大的模型,例如BERT模型 |
Embedding量化(Quant Embedding) | paddleslim.quant.quant_embedding |
仅量化模型的Embedding参数 | 任何包含Embedding层的模型 |
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。