模型参数调整、模型应用方法、装置、设备及介质制造方法及图纸

技术编号:39429633 阅读:14 留言:0更新日期:2023-11-19 16:14
本公开提供了一种模型参数调整、模型应用方法、装置、设备及介质,涉及数据处理领域,具体涉及人工智能、深度学习和计算机视觉领域。具体实现方案为:获取预先训练的模型;固定所述预先训练的模型的参数,并在固定的参数上累加微调参数,得到微调模型;获取模型使用场景的样本数据;将所述样本数据输入到所述微调模型中,对所述微调模型的微调参数进行调整。对所述微调模型的微调参数进行调整。对所述微调模型的微调参数进行调整。

【技术实现步骤摘要】
模型参数调整、模型应用方法、装置、设备及介质


[0001]本公开涉及数据处理领域,具体涉及人工智能、深度学习和计算机视觉领域,尤其涉及一种模型参数调整、模型应用方法、装置、设备及介质。

技术介绍

[0002]随着大数据时代各行业对数据分析需求的持续增加,通过机器学习高效地获取知识,已逐渐成为当今机器学习技术发展的主要推动力。
[0003]基于数据驱动的深度学习通常采用模型预训练和模型微调方式在工业界领域进行应用,具体是模型先在一个超大规模数据集进行预训练得到预训练模型,然后在根据实际应用场景的具体任务进行下游任务模型微调。复用相同超大规模数据集训练得到预训练模型,可以减少训练样本的收集复杂性和占用存储资源,节省存储资源,同时避免通过单独收集大量的具体任务相关的样本数据训练模型,提高训练效率,可以快速全面提高预训练模型的预测准确性,再结合具体任务微调模型,可以提高模型精度,兼顾提高模型的泛化能力。

技术实现思路

[0004]本公开提供了一种模型参数调整、模型应用方法、装置、设备及介质。
[0005]根据本公开的一方面,提供了一种模型参数调整方法,包括:
[0006]获取预先训练的模型;
[0007]固定所述预先训练的模型的参数,并在固定的参数上累加微调参数,得到微调模型;
[0008]获取模型使用场景的样本数据;
[0009]将所述样本数据输入到所述微调模型中,对所述微调模型的微调参数进行调整。
[0010]根据本公开的一方面,提供了一种模型应用方法,包括:
[0011]将待处理数据发送至目标模型中,得到所述目标模型的预测结果;
[0012]其中,所述目标模型通过如本公开任一实施例所述的模型参数调整方法对预先训练的模型进行参数微调得到。
[0013]根据本公开的一方面,提供了一种模型参数调整装置,包括:
[0014]预先训练模型获取模块,用于获取预先训练的模型;
[0015]参数项添加模块,用于固定所述预先训练的模型的参数,并在固定的参数上累加微调参数,得到微调模型;
[0016]样本数据获取模块,用于获取模型使用场景的样本数据;
[0017]参数微调模块,用于将所述样本数据输入到所述微调模型中,对所述微调模型的微调参数进行调整。
[0018]根据本公开的一方面,提供了一种模型应用装置,包括:
[0019]模型计算模块,用于将待处理数据发送至目标模型中,得到所述目标模型的预测
结果;其中,所述目标模型通过如本公开任一实施例所述的模型参数调整方法对预先训练的模型进行参数微调得到。
[0020]根据本公开的另一方面,提供了一种电子设备,包括:
[0021]至少一个处理器;以及
[0022]与所述至少一个处理器通信连接的存储器;其中,
[0023]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开任一实施例所述的模型参数调整方法。
[0024]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本公开任一实施例所述的模型参数调整方法。
[0025]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开任一实施例所述的模型参数调整方法。
[0026]本公开实施例可以实现微调模型参数,同时提高模型预测效果。
[0027]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0028]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0029]图1是根据本公开实施例公开的一种模型参数调整方法的流程图;
[0030]图2是根据本公开实施例公开的另一种模型参数调整方法的流程图;
[0031]图3是根据本公开实施例公开的另一种模型参数调整方法的流程图;
[0032]图4是根据本公开实施例公开的一种模型应用方法的流程图;
[0033]图5是根据本公开实施例公开的模型参数调整装置的结构示意图;
[0034]图6是根据本公开实施例公开的模型应用装置的结构示意图;
[0035]图7是根据本公开实施例公开的模型参数调整方法或模型应用方法的电子设备的框图。
具体实施方式
[0036]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0037]图1是根据本公开实施例公开的一种模型参数调整方法的流程图,本实施例可以适用于对预训练的模型进行参数微调继续训练的情况。本实施例方法可以由模型参数调整装置来执行,该装置可采用软件和/或硬件的方式实现,并具体配置于具有一定数据运算能力的电子设备中,该电子设备可以是客户端设备或服务器设备,客户端设备例如手机、平板电脑、车载终端和台式电脑等。
[0038]S101、获取预先训练的模型。
[0039]预先训练的模型可以是指经过训练的模型,例如,可以是预测准确率大于等于预设准确率阈值的模型,例如,图像分类模型的分类准确率大于等于85%。预先训练的模型可以是文本处理模型、图像处理模型、音频处理模型或者视频处理模型等。预先训练的模型还可以是大语言模型。示例性的,文本处理模型可以是文本摘要生成模型、问答模型或文本翻译模型等。图像处理模型可以是图像分类模型、目标检测模型或图像识别模型等。音频处理模型可以是语音识别模型或语音生成模型等。视频处理模型可以是运动检测模型或活体检测模型等。
[0040]在一个具体的例子中,获取预先训练的模型是预先训练的图像分类模型,例如,采用预训练的标注有分类的类型的图像作为样本,对初始模型进行训练,在图像分类模型的图像分类的准确率大于等于90%,得到预先训练的图像分类模型。
[0041]S102、固定所述预先训练的模型的参数,并在固定的参数上累加微调参数,得到微调模型。
[0042]微调参数可以是参数值可以发生变化的参数。微调模型的模型结果和预先训练的模型的模型结构相同,二者的参数的数量相同,二者的参数的参数值不同。固定预先训练的模型的参数可以是指,参数不发生改变,具体可以包括:参数的参数值、类型和数量不变。在固定的参数上累加微调参数可以是指,将微调参数与固定的参数进行累加计算,得到结果,并将结果替代原来的固定的参数,形成微调模型。此处的累加可以理解为融合,或者添加,不具体限定加和计算。其中,累加计算可以是,计算微调参数与固定的参数之间的加权和,计算微调参数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型参数调整方法,包括:获取预先训练的模型;固定所述预先训练的模型的参数,并在固定的参数上累加微调参数,得到微调模型;获取模型使用场景的样本数据;将所述样本数据输入到所述微调模型中,对所述微调模型的微调参数进行调整。2.根据权利要求1所述的方法,其中,所述将所述样本数据输入到所述微调模型中,对所述微调模型的微调参数进行调整,包括:对所述微调参数进行低秩分解,得到第一参数和第二参数;将所述样本数据输入到所述微调模型中,对所述第一参数和所述第二参数进行调整。3.根据权利要求2所述的方法,其中,所述对所述微调参数进行低秩分解,得到第一参数和第二参数,包括:对所述微调参数进行奇异值分解,得到左奇异矩阵、奇异值矩阵和右奇异矩阵;将所述奇异值矩阵,确定为第一参数;根据所述左奇异矩阵和所述右奇异矩阵,确定第二参数;其中,所述第二参数满足正交矩阵约束条件。4.根据权利要求3所述的方法,其中,所述奇异值矩阵的行数和列数通过所述样本数据的数据量确定。5.根据权利要求3所述的方法,其中,所述奇异值矩阵的行数和列数相同,所述奇异值矩阵的行数小于目标值,所述目标值为所述预先训练的模型的参数矩阵中的行数和列数中的最小值。6.根据权利要求3所述的方法,其中,所述将所述样本数据输入到所述微调模型中,对所述第一参数和所述第二参数进行调整,包括:将所述样本数据输入到所述微调模型中,计算预测损失值以及所述左奇异矩阵和所述右奇异矩阵的正交损失值;将所述预测损失值和所述正交损失值之和,确定为损失函数的数值;根据所述损失函数的数值,对所述第一参数和所述第二参数进行调整。7.根据权利要求1所述的方法,其中,所述将所述样本数据输入到所述微调模型中,对所述微调模型的微调参数进行调整,包括:将所述样本数据输入到所述微调模型中,对所述微调模型的微调参数进行调整,得到第一调整结果;根据各所述微调参数的第一调整结果,计算各所述微调参数的权重;根据各所述微调参数的权重对各所述微调参数进行筛选和相应调整,得到第二调整结果。8.根据权利要求7所述的方法,其中,所述根据各所述微调参数的权重对各所述微调参数进行筛选和相应调整,得到第二调整结果,包括:对各所述微调参数的权重进行比较,筛选出预设数量的微调参数,以及剩余参数;将所述剩余参数的数值置零,得到第二调整结果。9.根据权利要求7所述的方法,其中,所述微调参数可奇异分解得到左奇异矩阵、奇异值矩阵和右奇异矩阵;
所述根据各所述微调参数的第一调整结果,计算各所述微调参数的权重,包括:针对所述奇异值矩阵的奇异值元素,根据所述奇异值元素的第一调整结果,计算所述左奇异矩阵中相应列元素映射数值和所述右奇异矩阵中相应行元素映射数值;针对所述奇异值矩阵的奇异值元素,将所述奇异值元素的第一调整结果、所述左奇异矩阵的相应列元素映射数值和所述右奇异矩阵的相应行元素映射数值进行累加,得到所述奇异值元素的权重。10.根据权利要求9所述的方法,其中,所述计算所述左奇异矩阵中相应列元素的映射数值,包括:针对所述左奇异矩阵中相应列元素,计算所述列元素的数值与损失函数在所述列元素处的梯度值之间的乘积;对各所述左奇异矩阵中相应列元素的乘积进行求和平均计算,得到所述左奇异矩阵中相应列元素的映射数值。11.根据权利要求1所述的方法,其中,所述在固定的参数上累加微调参数,得到微调模型,包括:计算所述固定的参数与所述微调参数之和,得到参数融合结果;将所述参数融合结果替换所述预先训练的模型的参数,形成微调模型。12.一种模型应用方法,包括:将待处理数据发送至目标模型中,得到所述目标模型的预测结果;其中,所述目标模型通过如权利要求1

11任一项所述的模型参数调整方法对预先训练的模型进行参数微调得到。13.一种模型参数调整装置,包括:预先训练模型获取模块,用于获取预先训练的模型;参数项添加模块,用于固定所述预先训练的模型的参数,并在固定的参数上累加微调参数,得到微调模型;样本数据获取模块,用于获取模型使用场景的样本数据;参数微调模块,用于将所述样本数据输入到所述微调模型中,对所述微调模型的微调参数进行调整。14.根据权利要求13所述的装置,其中,所述参数微调模块,包括:参数分解单元,用于对所述微调参数进行低秩分解,得到第一参数和第二参数;分解调整单元,用于将所述样本数...

【专利技术属性】
技术研发人员:张国生王珂尧
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1