模型训练方法、对象处理方法及装置、电子设备、介质制造方法及图纸

技术编号:38627033 阅读:14 留言:0更新日期:2023-08-31 18:27
本公开实施例是关于一种模型训练方法、对象处理方法及装置、电子设备、存储介质,涉及计算机技术领域,该模型训练方法包括:获取原始模型;若所述原始模型收敛,对所述原始模型进行敏感度分析确定敏感度,并根据所述敏感度获取所述原始模型中每层的实际聚类数;根据所述每层的实际聚类数对各层的权值进行聚类以通过参数共享压缩原始模型,并基于聚类结果对压缩后的原始模型进行训练得到训练好的原始模型。本公开的技术方案在通过引入对原始模型各层的敏感度分析来计算每层的实际聚类数,能够准确地确定实际聚类数并对模型进行压缩,从而提高压缩后的模型的模型精度。提高压缩后的模型的模型精度。提高压缩后的模型的模型精度。

【技术实现步骤摘要】
模型训练方法、对象处理方法及装置、电子设备、介质


[0001]本公开涉及计算机
,具体而言,涉及一种模型训练方法、模型训练装置、对象处理方法、对象处理装置、电子设备以及计算机可读存储介质。

技术介绍

[0002]神经网络算法在机器视觉、自动驾驶等领域中已被广泛应用于各种类型的任务,然而其复杂的结构导致即使在推理时也需占用大量的功耗和计算资源,严重影响了在功耗和资源受限的移动和嵌入式平台上的部署,因而需要对模型进行压缩。
[0003]相关技术中,可以对每层的所有权值进行聚类并训练所有层各聚类的中心值直至模型收敛,或者是对每层权重按照某种规则分为多个权值组再进行模型训练,也可以通过正则化训练压缩后的模型。
[0004]上述方式中,需要手动或者是凭经验全局设定每一层的聚类数,或者是根据压缩后的模型的精度来多次迭代调整每层的聚类数,因此难以平衡压缩率和精度。除此之外,每层的聚类数都是相同的,因此准确性较差且灵活性较差,具有一定的局限性。并且正则化需要修改训练代码,操作效率较低、计算机运算性能较低,且消耗了较多的计算资源。
[0005]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0006]本公开的目的在于提供一种模型训练方法、对象处理方法及装置、电子设备、存储介质,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的模型压缩准确性较低的问题。
[0007]本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
[0008]根据本公开的一个方面,提供一种模型训练方法,包括:获取原始模型;若所述原始模型收敛,对所述原始模型进行敏感度分析确定敏感度,并根据所述敏感度获取所述原始模型中每层的实际聚类数;根据所述每层的实际聚类数对各层的权值进行聚类以通过参数共享压缩原始模型,并基于聚类结果对压缩后的原始模型进行训练得到训练好的原始模型。
[0009]根据本公开的一个方面,提供一种对象处理方法,包括:获取待处理对象;通过训练好的原始模型对所述待处理对象进行卷积操作,获取所述待处理对象对应的预测结果;其中,所述原始模型根据上述任意一项所述的模型训练方法训练得到。
[0010]根据本公开的一个方面,提供一种模型训练装置,包括:模型获取模块,用于获取原始模型;敏感度分析模块,用于若所述原始模型收敛,对所述原始模型进行敏感度分析确定敏感度,并根据所述敏感度获取所述原始模型中每层的实际聚类数;压缩模型训练模块,用于根据所述每层的实际聚类数对各层的权值进行聚类以通过参数共享压缩原始模型,并
基于聚类结果对压缩后的原始模型进行训练得到训练好的原始模型。
[0011]根据本公开的一个方面,提供一种对象处理装置,包括:对象获取模块,用于获取待处理对象;预测模块,用于通过训练好的原始模型对所述待处理对象进行卷积操作,获取所述待处理对象对应的预测结果;其中,所述原始模型根据上述任意一项所述的模型训练方法训练得到。
[0012]根据本公开的一个方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的模型训练方法或上述任意一项所述的对象处理方法。
[0013]根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的模型训练方法或上述任意一项所述的对象处理方法。
[0014]本公开实施例中提供的模型训练方法、模型训练装置、对象处理方法、对象处理装置、电子设备以及计算机可读存储介质中,一方面,通过在对模型训练之前对原始模型进行敏感度分析得到敏感度,并根据敏感度获取原始模型中每层的实际聚类数,避免了相关技术中只能根据手动方式确定每层的聚类数的问题,使得每层的实际聚类数都是针对性确定,而不是固定不变的,提高了实际聚类数的准确性和灵活性,从而提高了压缩的模型的准确性和精度,且避免了局限性提高了通用性,提高模型训练的准确性。另一方面,通过计算敏感度来实现模型压缩,无需修改训练代码,只需要增加对各层进行敏感度分析的步骤,减少训练模型时计算机所需要执行的步骤,从而提高计算机的处理速度和运算性能,并且降低了功耗,减少了需要的计算资源,减少了需要的计算资源。
[0015]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
[0016]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0017]图1示出了可以应用本公开实施例的模型训练方法或对象处理方法的系统架构的示意图。
[0018]图2示意性示出本公开实施例中一种模型训练方法的示意图。
[0019]图3示意性示出本公开实施例中第一种进行敏感度分析的流程示意图。
[0020]图4示意性示出本公开实施例中计算当前损失函数值的流程示意图。
[0021]图5示意性示出本公开实施例中第二种进行敏感度分析的流程示意图。
[0022]图6示意性示出本公开实施例中参数共享的示意图。
[0023]图7示意性示出本公开实施例中第一种训练模型的流程示意图。
[0024]图8示意性示出本公开实施例中第二种训练模型的流程示意图。
[0025]图9示意性示出本公开实施例中训练压缩后的模型的整体流程示意图。
[0026]图10示意性示出本公开实施例中一种对象处理方法的流程示意图。
[0027]图11示意性示出本公开实施例中一种模型训练装置的框图。
[0028]图12示意性示出本公开实施例中对象处理装置的框图。
[0029]图13示意性示出本公开实施例中电子设备的框图。
具体实施方式
[0030]现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
[0031]此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:获取原始模型;若所述原始模型收敛,对所述原始模型进行敏感度分析确定敏感度,并根据所述敏感度获取所述原始模型中每层的实际聚类数;根据所述每层的实际聚类数对各层的权值进行聚类以通过参数共享压缩原始模型,并基于聚类结果对压缩后的原始模型进行训练得到训练好的原始模型。2.根据权利要求1所述的模型训练方法,其特征在于,所述对所述原始模型进行敏感度分析确定敏感度,并根据所述敏感度获取所述原始模型中每层的实际聚类数,包括:计算所述原始模型在数据集上的损失函数值,并通过所述原始模型的多个临时副本计算当前损失函数值;根据所述损失函数值以及所述当前损失函数值确定每层的敏感度;基于每层的所述敏感度确定所述原始模型中每层的所述实际聚类数。3.根据权利要求2所述的模型训练方法,其特征在于,通过所述原始模型的多个临时副本计算当前损失函数值,包括:在所述多个临时副本的第i个临时副本中对第i层的权值进行聚类确定聚类类型,将第i层的各原始位置确定为所属聚类类型的中心值并保持其他层的权值不变,以得到压缩后的第i个临时副本;将数据集前向通过所述压缩后的第i个临时副本,计算所述当前损失函数值。4.根据权利要求2所述的模型训练方法,其特征在于,所述基于每层的所述敏感度确定所述原始模型中每层的所述实际聚类数,包括:基于全局压缩率的条件约束,结合所述各层的敏感度与压缩率之间的关联关系,计算每层的所述实际聚类数。5.根据权利要求1所述的模型训练方法,其特征在于,所述对所述原始模型进行敏感度分析,并根据敏感度获取所述原始模型中每层的实际聚类数,包括:对所有临时副本的损失函数进行前向计算,得到各所述临时副本的当前损失函数值;将各所述当前损失函数值相对于所述损失函数值的增量,反向传播回各临时副本的在每层中的聚类数,得到下一迭代的各层的实际聚类数;根据下一迭代的各层的实际聚类数进行前向损失计算,直至各层的实际聚类数均收敛为止,以得到每层的实际聚类数。6.根据权利要求1所述的模型训练方法,其特征在于,所述基于聚类结果对压缩后的原始模型进行训练,得到训练好的原始模型,包括:计算对每个权值位的梯度,并对聚类结果中属于...

【专利技术属性】
技术研发人员:李文进
申请(专利权)人:OPPO广东移动通信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1