【技术实现步骤摘要】
模型的训练方法及装置
[0001]本申请涉及计算机
,具体涉及一种模型的训练方法及装置。
技术介绍
[0002]随着人工智能技术的快速发展,针对多模态信息的处理受到越来越多的关注与应用。多模态信息的处理主要涉及计算机视觉(ComputerVision,CV)和自然语言处理(Natural Language Processing,NLP)技术。一般地,基于提取的多模态信息进行训练而得到的模型,可实现针对复杂场景的推理任务。但是现有的训练方法难以得到高性能的模型,即该模型的性能存在瓶颈,尤其针对较为复杂的场景的推理任务。
技术实现思路
[0003]有鉴于此,本申请实施例提供了一种模型的训练方法及装置,能够提高模型对多模态信息的处理能力,进而可以提高模型在目标任务上的性能。
[0004]第一方面,本申请的实施例提供了一种模型的训练方法,包括:基于输入数据获取融合特征信息,其中,融合特征信息融合了输入数据中包含的多模态信息;基于融合特征信息对模型进行多个基础任务的预训练,并对模型进行至少一个目标任务的训 ...
【技术保护点】
【技术特征摘要】
1.一种模型的训练方法,其特征在于,包括:基于输入数据获取融合特征信息,其中,所述融合特征信息融合了所述输入数据中包含的多模态信息;基于所述融合特征信息对模型进行多个基础任务的预训练,并对所述模型进行至少一个目标任务的训练以更新所述模型的参数。2.根据权利要求1所述的模型的训练方法,其特征在于,所述基于所述融合特征信息对模型进行多个基础任务的预训练,包括:基于所述融合特征信息获取所述多个基础任务中每个基础任务对应的分类结果;基于所述多个基础任务对应的多个分类结果对所述模型进行预训练。3.根据权利要求1所述的模型的训练方法,其特征在于,所述多个基础任务包括乱序重排任务、物体检测任务、文本识别任务以及语音识别任务中的至少两个。4.根据权利要求1所述的模型的训练方法,其特征在于,所述输入数据包括至少一帧图像,其中,所述基于输入数据获取融合特征信息,包括:对所述至少一帧图像中的每帧图像进行分区以得到所述图像对应的多个区域;获取所述多个区域中每个区域对应的区域特征信息,所述区域特征信息融合了所述区域中包含的多模态信息,所述融合特征信息包括所述多个区域对应的多个区域特征信息。5.根据权利要求4所述的模型的训练方法,其特征在于,所述基于输入数据获取融合特征信息,还包括:对所述多个区域中每个区域进行位置编码得到与所述区域的区域特征信息匹配的第一位置编码信息,所述融合特征信息还包括与所述多个区域特征信息匹配的多个第一位置编码信息。6.根据权利要求5所述的模型的训练方法,其特征在于,所述多个基础任务包括乱序重排任务,其中,所述基于所述融合特征信息对模型进行多个基础任务的预训练,包括:对所述融合特征信息中的所述多个区域特征信息与所述多个第一位置编码信息进行乱序匹配以得到乱序特征信息,所述乱序特征信息包括所述多个区域特征信息以及与所述多个区域特征信息匹配的多个第二位置编码信息;基于所述乱序特征信息对所述模型进行所述乱序重排任务的预训练。7.根据权利要求6所述的模型的训练方法,其特征在于,所...
【专利技术属性】
技术研发人员:许光辉,杜倩云,
申请(专利权)人:科大讯飞华南人工智能研究院广州有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。