模型的训练方法及装置制造方法及图纸

技术编号:33532238 阅读:13 留言:0更新日期:2022-05-19 02:05
本申请提供了一种模型的训练方法及装置,该模型的训练方法包括:基于输入数据获取融合特征信息,其中,融合特征信息融合了输入数据中包含的多模态信息;基于融合特征信息对模型进行多个基础任务的预训练,并对模型进行至少一个目标任务的训练以更新模型的参数。本申请的技术方案能够提高模型对多模态信息的处理能力,进而可以提高模型在目标任务上的性能。进而可以提高模型在目标任务上的性能。进而可以提高模型在目标任务上的性能。

【技术实现步骤摘要】
模型的训练方法及装置


[0001]本申请涉及计算机
,具体涉及一种模型的训练方法及装置。

技术介绍

[0002]随着人工智能技术的快速发展,针对多模态信息的处理受到越来越多的关注与应用。多模态信息的处理主要涉及计算机视觉(ComputerVision,CV)和自然语言处理(Natural Language Processing,NLP)技术。一般地,基于提取的多模态信息进行训练而得到的模型,可实现针对复杂场景的推理任务。但是现有的训练方法难以得到高性能的模型,即该模型的性能存在瓶颈,尤其针对较为复杂的场景的推理任务。

技术实现思路

[0003]有鉴于此,本申请实施例提供了一种模型的训练方法及装置,能够提高模型对多模态信息的处理能力,进而可以提高模型在目标任务上的性能。
[0004]第一方面,本申请的实施例提供了一种模型的训练方法,包括:基于输入数据获取融合特征信息,其中,融合特征信息融合了输入数据中包含的多模态信息;基于融合特征信息对模型进行多个基础任务的预训练,并对模型进行至少一个目标任务的训练以更新模型的参数。
[0005]在本申请某些实施例中,基于融合特征信息对模型进行多个基础任务的预训练,包括:基于融合特征信息获取多个基础任务中每个基础任务对应的分类结果;基于多个基础任务对应的多个分类结果对模型进行预训练。
[0006]在本申请某些实施例中,多个基础任务包括乱序重排任务、物体检测任务、文本识别任务以及语音识别任务中的至少两个。
[0007]在本申请某些实施例中,输入数据包括至少一帧图像,其中,基于输入数据获取融合特征信息,包括:对至少一帧图像中的每帧图像进行分区以得到图像对应的多个区域;获取多个区域中每个区域对应的区域特征信息,区域特征信息融合了区域中包含的多模态信息,融合特征信息包括多个区域对应的多个区域特征信息。
[0008]在本申请某些实施例中,基于输入数据获取融合特征信息,还包括:对多个区域中每个区域进行位置编码得到与区域的区域特征信息匹配的第一位置编码信息,融合特征信息还包括与多个区域特征信息匹配的多个第一位置编码信息。
[0009]在本申请某些实施例中,多个基础任务包括乱序重排任务,其中,基于融合特征信息对模型进行多个基础任务的预训练,包括:对融合特征信息中的多个区域特征信息与多个第一位置编码信息进行乱序匹配以得到乱序特征信息,乱序特征信息包括多个区域特征信息以及与多个区域特征信息匹配的多个第二位置编码信息;基于乱序特征信息对模型进行乱序重排任务的预训练。
[0010]在本申请某些实施例中,多个基础任务还包括物体检测任务和/或文本识别任务,其中,基于融合特征信息对模型进行多个基础任务的预训练,还包括:基于融合特征信息对
模型进行物体检测任务和/或文本识别任务的预训练。
[0011]在本申请某些实施例中,对模型进行至少一个目标任务的训练以更新模型的参数,包括:在预训练过程中,基于强化学习方法对模型进行至少一个目标任务的训练以更新模型的参数。
[0012]在本申请某些实施例中,基于强化学习方法对模型进行至少一个目标任务的训练以更新模型的参数,包括:利用模型基于至少一个目标任务中每个目标任务对应的样本数据进行推理得到目标推理结果;基于预设评估指标对目标推理结果进行评估得到奖励信号;基于奖励信号更新模型的参数。
[0013]在本申请某些实施例中,对模型进行至少一个目标任务的训练以更新模型的参数,包括:基于监督学习方法对模型进行至少一个目标任务的训练以更新模型的参数。
[0014]在本申请某些实施例中,至少一个目标任务包括如下至少一个:视觉问答、版面分析、商品推荐、场景描述、图文检索。
[0015]第二方面,本申请的实施例提供了一种模型的训练装置,包括:获取模块,用于基于输入数据获取融合特征信息,其中,融合特征信息融合了输入数据中包含的多模态信息;训练模块,用于基于融合特征信息对模型进行多个基础任务的预训练,并对模型进行至少一个目标任务的训练以更新模型的参数。
[0016]第三方面,本申请的实施例提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器,其中,处理器用于执行上述第一方面所述的模型的训练方法。
[0017]第四方面,本申请的实施例提供了一种计算机可读存储介质,存储介质存储有计算机程序,计算机程序用于执行上述第一方面所述的模型的训练方法。
[0018]本申请实施例提供了一种模型的训练方法及装置,通过基于输入数据获取融合了输入数据中包含的多模态信息的融合特征信息,并基于融合特征信息对模型进行基础任务以及目标任务的训练,使得模型可以提取统一模态的特征信息,提高模型对多模态信息的处理能力,进而可以提高模型在目标任务上的性能。
附图说明
[0019]图1所示为本申请一示例性实施例提供的模型的训练系统的系统架构示意图。
[0020]图2所示为本申请一示例性实施例提供的模型的训练方法的流程示意图。
[0021]图3所示为本申请另一示例性实施例提供的模型的训练方法的流程示意图。
[0022]图4所示为本申请一实施例提供的模型的结构示意图。
[0023]图5所示为本申请一示例性实施例提供的模型的训练装置的结构示意图。
[0024]图6所示为本申请一示例性实施例提供的用于执行模型的训练方法的电子设备的框图。
具体实施方式
[0025]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0026]申请概述
[0027]多模态信息的处理主要涉及计算机视觉以及自然语言处理技术。计算机视觉是一门教机器“看懂”场景内容的科学,其涉及的任务类型可包括图像识别、目标检测、图像分割、目标追踪、视频监控等。自然语言处理的核心目的是教机器“读懂”人类日常使用的自然语言。常见的自然语言处理任务包括机器翻译、自动文本摘要、文本分类、文本问答、阅读理解、文本语义分析、语音识别、语言建模、光学字符识别(OpticalCharacter Recognition,OCR)等。涉及单一模态信息的计算机视觉任务和自然语言处理任务可以看作是简单场景下的任务。
[0028]而随着智能化的发展,人们对复杂场景下的任务的需求越来越多,且对复杂场景下的推理模型的性能要求越来越高。例如,给定一个场景(图片或视频),推理模型需要理解场景中复杂的多模态信息(如物体和文本),并生成一段符合该场景语义的文字描述,此时的推理任务可称为场景描述(ImageCaptioning,IC),或者回答与该场景相关的问题,此时的推理任务可称为视觉问答(Visual Question Answering,VQA)。场景描述技术可以用于电影自动字幕、帮助视觉障本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型的训练方法,其特征在于,包括:基于输入数据获取融合特征信息,其中,所述融合特征信息融合了所述输入数据中包含的多模态信息;基于所述融合特征信息对模型进行多个基础任务的预训练,并对所述模型进行至少一个目标任务的训练以更新所述模型的参数。2.根据权利要求1所述的模型的训练方法,其特征在于,所述基于所述融合特征信息对模型进行多个基础任务的预训练,包括:基于所述融合特征信息获取所述多个基础任务中每个基础任务对应的分类结果;基于所述多个基础任务对应的多个分类结果对所述模型进行预训练。3.根据权利要求1所述的模型的训练方法,其特征在于,所述多个基础任务包括乱序重排任务、物体检测任务、文本识别任务以及语音识别任务中的至少两个。4.根据权利要求1所述的模型的训练方法,其特征在于,所述输入数据包括至少一帧图像,其中,所述基于输入数据获取融合特征信息,包括:对所述至少一帧图像中的每帧图像进行分区以得到所述图像对应的多个区域;获取所述多个区域中每个区域对应的区域特征信息,所述区域特征信息融合了所述区域中包含的多模态信息,所述融合特征信息包括所述多个区域对应的多个区域特征信息。5.根据权利要求4所述的模型的训练方法,其特征在于,所述基于输入数据获取融合特征信息,还包括:对所述多个区域中每个区域进行位置编码得到与所述区域的区域特征信息匹配的第一位置编码信息,所述融合特征信息还包括与所述多个区域特征信息匹配的多个第一位置编码信息。6.根据权利要求5所述的模型的训练方法,其特征在于,所述多个基础任务包括乱序重排任务,其中,所述基于所述融合特征信息对模型进行多个基础任务的预训练,包括:对所述融合特征信息中的所述多个区域特征信息与所述多个第一位置编码信息进行乱序匹配以得到乱序特征信息,所述乱序特征信息包括所述多个区域特征信息以及与所述多个区域特征信息匹配的多个第二位置编码信息;基于所述乱序特征信息对所述模型进行所述乱序重排任务的预训练。7.根据权利要求6所述的模型的训练方法,其特征在于,所...

【专利技术属性】
技术研发人员:许光辉杜倩云
申请(专利权)人:科大讯飞华南人工智能研究院广州有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1