模型训练方法、装置、设备及存储介质制造方法及图纸

技术编号：38685273 阅读：8 留言：0更新日期：2023-09-02 22:58

本公开实施例提供了一种模型训练方法、装置、设备及存储介质，用于训练多模态融合网络。获取多模态数据；其中，所述多模态数据包括图像数据、文本数据及音频数据中至少两种模态的数据；将所述多模态数据依次输入所述多模态融合网络，输出多模态数据处理结果；基于所述多模态数据处理结果训练所述多模态适配子网络、模态融合子网络及目标任务子网络中的至少一项，获得训练后的多模态融合网络。本公开实施例提供的模型训练方法，训练多模态融合网络中除预训练多模态子网络外的其他子网络，能够有效降低训练所需内存和显存等资源，同时又能利用预训练好的大模型，可以极大的节省计算资源及时间，从而提高多模态融合网络的训练及部署效率。效率。效率。

全部详细技术资料下载

【技术实现步骤摘要】
模型训练方法、装置、设备及存储介质

[0001]本公开实施例涉及神经网络
，尤其涉及一种模型训练方法、装置、设备及存储介质。

技术介绍

[0002]目前，神经网络模型越来越大，里面包含的参数量非常大，尤其是多模态神经网络模型，包含的参数量更大。如果想将神经网络模型迁移至下游应用领域，需要大量的计算资源把大模型训练起来，由于模型规模较大，将其加载进显存都非常困难。因此，训练大规模多模态模型通常需要大量的计算资源和时间，影响模型训练和部署效率。

技术实现思路

[0003]本公开实施例提供一种模型训练方法、装置、设备及存储介质，训练多模态融合网络中除预训练多模态子网络外的其他子网络，可以极大的节省计算资源及时间，从而提高多模态融合网络的训练及部署效率。
[0004]第一方面，本公开实施例提供了一种模型训练方法，用于训练多模态融合网络，所述多模态融合网络包括依次连接的预训练多模态子网络、多模态适配子网络、模态融合子网络及目标任务子网络，所述方法包括：
[0005]获取多模态数据；其中，所述多模态数据包括图像数据、文本数据及音频数据中的至少两种模态的数据；
[0006]将所述多模态数据输入所述多模态融合网络，输出多模态数据处理结果；
[0007]基于所述多模态数据处理结果训练所述多模态适配子网络、模态融合子网络及目标任务子网络中的至少一项，获得训练后的多模态融合网络。
[0008]第二方面，本公开实施例还提供了一种模型训练装置，用于训练多模态融合网络，所述多模态融合...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法，用于训练多模态融合网络，其特征在于，所述多模态融合网络包括依次连接的预训练多模态子网络、多模态适配子网络、模态融合子网络及目标任务子网络，所述方法包括：获取多模态数据；其中，所述多模态数据包括图像数据、文本数据及音频数据中至少两种模态的数据；将所述多模态数据依次输入所述多模态融合网络，输出多模态数据处理结果；基于所述多模态数据处理结果训练所述多模态适配子网络、模态融合子网络及目标任务子网络中的至少一项，获得训练后的多模态融合网络。2.根据权利要求1所述的方法，其特征在于，将所述多模态数据输入所述多模态融合网络，输出多模态数据处理结果，包括：基于所述预训练多模态子网络对所述多模态数据进行特征提取，获得多模态特征数据；基于所述多模态适配子网络对所述多模态特征数据进行调整，获得调整后的多模态特征数据；基于所述模态融合子网络对所述调整后的多模态特征数据进行融合，获得融合特征数据；基于所述目标任务子网络对所述融合特征数据进行目标任务的数据处理，获得多模态数据处理结果。3.根据权利要求2所述的方法，其特征在于，所述多模态适配子网络包括多模态适配器及跨模态适配器；其中，所述多模态适配器包括图像适配器、文本适配器及音频适配器中至少两种模态的适配器；基于所述多模态适配子网络对所述多模态特征数据进行调整，获得调整后的多模态特征数据，包括：基于所述多模态适配器分别对对应模态的特征数据进行调整，获得调整后的各模态的特征数据；基于所述跨模态适配器对调整后的各模态的特征数据进行跨模态调整，获得再次调整后的各模态的特征数据。4.根据权利要求3所述的方法，其特征在于，所述图像适配器、文本适配器及音频适配器均包括两个全连接层，且第一个全连接层的输入与第二个全连接层的输出残差连接；所述跨模态适配器包括多头注意力层及前馈层。5.根据权利要求2所述的方法，其特征在在于，所述模态融合子网络包括模态注意力融合模块、上下文融合模块及特征融合模块；基于所述模态融合子网络对所述调整后的多模态特征数据进行融合，获得融合特征数据，包括：基于所述模态注意力融合模块对所述调整后的多模态特征数据按照注意力分数进行融合，获得第一中间融合特征数据；基于所述上下文融合模块对所述第一中间融合特征数据进行上下文融合，获得第二中间融合特征数据；基于所述特征融合模块对所述第一中间融合特征数据和所述第二中间融合特征数据进行叠加，获得融合特征数据。6.根据权利要求5所述的方法，其特征在于，所述模态注意力融合模块包括：前馈层、激
活层及融合层；基于所述...

【专利技术属性】
技术研发人员：杨志雄，杨延展，
申请(专利权)人：抖音视界有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人