模型参数调整、模型应用方法、装置、设备及介质制造方法及图纸

技术编号：39429633 阅读：14 留言：0更新日期：2023-11-19 16:14

本公开提供了一种模型参数调整、模型应用方法、装置、设备及介质，涉及数据处理领域，具体涉及人工智能、深度学习和计算机视觉领域。具体实现方案为：获取预先训练的模型；固定所述预先训练的模型的参数，并在固定的参数上累加微调参数，得到微调模型；获取模型使用场景的样本数据；将所述样本数据输入到所述微调模型中，对所述微调模型的微调参数进行调整。对所述微调模型的微调参数进行调整。对所述微调模型的微调参数进行调整。

全部详细技术资料下载

【技术实现步骤摘要】
模型参数调整、模型应用方法、装置、设备及介质

[0001]本公开涉及数据处理领域，具体涉及人工智能、深度学习和计算机视觉领域，尤其涉及一种模型参数调整、模型应用方法、装置、设备及介质。

技术介绍

[0002]随着大数据时代各行业对数据分析需求的持续增加，通过机器学习高效地获取知识，已逐渐成为当今机器学习技术发展的主要推动力。
[0003]基于数据驱动的深度学习通常采用模型预训练和模型微调方式在工业界领域进行应用，具体是模型先在一个超大规模数据集进行预训练得到预训练模型，然后在根据实际应用场景的具体任务进行下游任务模型微调。复用相同超大规模数据集训练得到预训练模型，可以减少训练样本的收集复杂性和占用存储资源，节省存储资源，同时避免通过单独收集大量的具体任务相关的样本数据训练模型，提高训练效率，可以快速全面提高预训练模型的预测准确性，再结合具体任务微调模型，可以提高模型精度，兼顾提高模型的泛化能力。

技术实现思路

[0004]本公开提供了一种模型参数调整、模型应用方法、装置、设备及介质。
[0005]根据本公开的一方面，提供了一种模型参数调整方法，包括：
[0006]获取预先训练的模型；
[0007]固定所述预先训练的模型的参数，并在固定的参数上累加微调参数，得到微调模型；
[0008]获取模型使用场景的样本数据；
[0009]将所述样本数据输入到所述微调模型中，对所述微调模型的微调参数进行调整。
[0010]根据本公开的一方面，提供了一种模型应用方...

【技术保护点】

【技术特征摘要】
1.一种模型参数调整方法，包括：获取预先训练的模型；固定所述预先训练的模型的参数，并在固定的参数上累加微调参数，得到微调模型；获取模型使用场景的样本数据；将所述样本数据输入到所述微调模型中，对所述微调模型的微调参数进行调整。2.根据权利要求1所述的方法，其中，所述将所述样本数据输入到所述微调模型中，对所述微调模型的微调参数进行调整，包括：对所述微调参数进行低秩分解，得到第一参数和第二参数；将所述样本数据输入到所述微调模型中，对所述第一参数和所述第二参数进行调整。3.根据权利要求2所述的方法，其中，所述对所述微调参数进行低秩分解，得到第一参数和第二参数，包括：对所述微调参数进行奇异值分解，得到左奇异矩阵、奇异值矩阵和右奇异矩阵；将所述奇异值矩阵，确定为第一参数；根据所述左奇异矩阵和所述右奇异矩阵，确定第二参数；其中，所述第二参数满足正交矩阵约束条件。4.根据权利要求3所述的方法，其中，所述奇异值矩阵的行数和列数通过所述样本数据的数据量确定。5.根据权利要求3所述的方法，其中，所述奇异值矩阵的行数和列数相同，所述奇异值矩阵的行数小于目标值，所述目标值为所述预先训练的模型的参数矩阵中的行数和列数中的最小值。6.根据权利要求3所述的方法，其中，所述将所述样本数据输入到所述微调模型中，对所述第一参数和所述第二参数进行调整，包括：将所述样本数据输入到所述微调模型中，计算预测损失值以及所述左奇异矩阵和所述右奇异矩阵的正交损失值；将所述预测损失值和所述正交损失值之和，确定为损失函数的数值；根据所述损失函数的数值，对所述第一参数和所述第二参数进行调整。7.根据权利要求1所述的方法，其中，所述将所述样本数据输入到所述微调模型中，对所述微调模型的微调参数进行调整，包括：将所述样本数据输入到所述微调模型中，对所述微调模型的微调参数进行调整，得到第一调整结果；根据各所述微调参数的第一调整结果，计算各所述微调参数的权重；根据各所述微调参数的权重对各所述微调参数进行筛选和相应调整，得到第二调整结果。8.根据权利要求7所述的方法，其中，所述根据各所述微调参数的权重对各所述微调参数进行筛选和相应调整，得到第二调整结果，包括：对各所述微调参数的权重进行比较，筛选出预设数量的微调参数，以及剩余参数；将所述剩余参数的数值置零，得到第二调整结果。9.根据权利要求7所述的方法，其中，所述微调参数可奇异分解得到左奇异矩阵、奇异值矩阵和右奇异矩阵；
所述根据各所述微调参数的第一调整结果，计算各所述微调参数的权重，包括：针对所述奇异值矩阵的奇异值元素，根据所述奇异值元素的第一调整结果，计算所述左奇异矩阵中相应列元素映射数值和所述右奇异矩阵中相应行元素映射数值；针对所述奇异值矩阵的奇异值元素，将所述奇异值元素的第一调整结果、所述左奇异矩阵的相应列元素映射数值和所述右奇异矩阵的相应行元素映射数值进行累加，得到所述奇异值元素的权重。10.根据权利要求9所述的方法，其中，所述计算所述左奇异矩阵中相应列元素的映射数值，包括：针对所述左奇异矩阵中相应列元素，计算所述列元素的数值与损失函数在所述列元素处的梯度值之间的乘积；对各所述左奇异矩阵中相应列元素的乘积进行求和平均计算，得到所述左奇异矩阵中相应列元素的映射数值。11.根据权利要求1所述的方法，其中，所述在固定的参数上累加微调参数，得到微调模型，包括：计算所述固定的参数与所述微调参数之和，得到参数融合结果；将所述参数融合结果替换所述预先训练的模型的参数，形成微调模型。12.一种模型应用方法，包括：将待处理数据发送至目标模型中，得到所述目标模型的预测结果；其中，所述目标模型通过如权利要求1
‑
11任一项所述的模型参数调整方法对预先训练的模型进行参数微调得到。13.一种模型参数调整装置，包括：预先训练模型获取模块，用于获取预先训练的模型；参数项添加模块，用于固定所述预先训练的模型的参数，并在固定的参数上累加微调参数，得到微调模型；样本数据获取模块，用于获取模型使用场景的样本数据；参数微调模块，用于将所述样本数据输入到所述微调模型中，对所述微调模型的微调参数进行调整。14.根据权利要求13所述的装置，其中，所述参数微调模块，包括：参数分解单元，用于对所述微调参数进行低秩分解，得到第一参数和第二参数；分解调整单元，用于将所述样本数...

【专利技术属性】
技术研发人员：张国生，王珂尧，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人