当前位置: 首页 > 专利查询>清华大学专利>正文

基于One-Shot权重耦合学习的无重训练模型量化方法技术

技术编号:41368384 阅读:34 留言:0更新日期:2024-05-20 10:15
本申请提供了一种基于One‑Shot权重耦合学习的无重训练模型量化方法,涉及人工智能技术领域,包括:在训练阶段对权重共享模型进行训练,计算权重共享模型在所述混合精度量化策略下的不稳定权重标准集,按照不稳定权重标准的大小顺序对不同层的最小比特宽度进行冻结,并训练未进行冻结的比特宽度,得到无需重训练的权重共享模型,在搜索阶段以双向贪婪搜索方式单独对每一层的比特宽度进行迭代调整,并计算临时策略的计算量,直至满足计算量C,得到最终混合精度量化策略,确定出的最终混合精度量化策略无需进行重训练,并且能够平衡精度和计算效率,确定出最终混合精度量化策略,提高了将最终混合精度量化策略部署到目标设备时的部署效率。

【技术实现步骤摘要】

本申请涉及人工智能,特别是涉及一种基于one-shot权重耦合学习的无重训练模型量化方法。


技术介绍

1、随着深层网络的应用,对网络中不同网络层的参数进行不同比特宽度分配的混合精度量化可以在较大程度上避免精度下降,不同网络层对最终精度的贡献不太相同,因此,针对不同的网络层采用不用的精度更合理,混合精度量化一般采用搜索-重训练的流水线方法,首先搜索阶段旨在尽快完成比特宽度分配,但完成搜索后的策略并不能直接使用,因而需要进行重训练阶段。

2、然而,以往工作较少关注第二个重要的重训练阶段,该重训练阶段实际需要长时间的重训练来适应搜索得到的策略,重训练阶段会耗费较长的时间来适应搜索得到的策略,在实际应用中,模型部署到每个设备都需要进行重训练,重训练所有策略将阻碍每个设备的实际应用效率。


技术实现思路

1、有鉴于此,本申请实施例提供一种基于one-shot权重耦合学习的无重训练模型量化方法,以便克服上述问题或者至少部分地解决上述问题。

2、本申请实施例第一方面提供了一种基于one-shot权重耦本文档来自技高网...

【技术保护点】

1.一种基于One-Shot权重耦合学习的无重训练模型量化方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于One-Shot权重耦合学习的无重训练模型量化方法,其特征在于,所述不稳定权重标准集的计算公式为:

3.根据权利要求1所述的基于One-Shot权重耦合学习的无重训练模型量化方法,其特征在于,所述按照不稳定权重标准从大到小的顺序,冻结不稳定权重标准排在前K的K层的权重的最小比特宽度,包括:

4.根据权利要求1所述的基于One-Shot权重耦合学习的无重训练模型量化方法,其特征在于,所述按照不稳定权重标准从大到小的顺序,冻结不稳定权重标...

【技术特征摘要】

1.一种基于one-shot权重耦合学习的无重训练模型量化方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于one-shot权重耦合学习的无重训练模型量化方法,其特征在于,所述不稳定权重标准集的计算公式为:

3.根据权利要求1所述的基于one-shot权重耦合学习的无重训练模型量化方法,其特征在于,所述按照不稳定权重标准从大到小的顺序,冻结不稳定权重标准排在前k的k层的权重的最小比特宽度,包括:

4.根据权利要求1所述的基于one-shot权重耦合学习的无重训练模型量化方法,其特征在于,所述按照不稳定权重标准从大到小的顺序,冻结不稳定权重标准排在前k的k层的权重的最小比特宽度,包括:

5.根据权利要求1所述的基于one-shot权重耦合学习的无重训练模型量化方法,其特征在于,在每次更新权重共享模型的各个权重之后,还包括:

...

【专利技术属性】
技术研发人员:朱文武王智孟媛姜佳成唐辰
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1