目标对象识别方法、多模态识别模型的训练方法和装置制造方法及图纸

技术编号:37818062 阅读:23 留言:0更新日期:2023-06-09 09:49
本申请公开了一种目标对象识别方法、多模态识别模型的训练方法和相关装置,涉及人工智能、计算机视觉技术、自然语言处理、机器学习。在获取待识别对象的待识别图像数据和待识别文本数据之后,根据文本子模型对待识别文本数据进行特征提取得到的文本特征,或图像子模型对待识别图像数据进行特征提取得到的图像特征,确定待识别对象的初始识别结果,若初始识别结果的置信度小于或等于第一预设置信度或不为预设结果,通过综合判别模块对文本特征和图像特征进行特征融合得到的融合结果,确定待识别对象的预测识别结果,预测识别结果基于多模态数据确定,因此具有更高的准确性和可靠性,且基于单模态的对象识别需要处理较少数据,利于提高识别效率。利于提高识别效率。利于提高识别效率。

【技术实现步骤摘要】
目标对象识别方法、多模态识别模型的训练方法和装置


[0001]本申请涉及数据处理领域,特别是涉及一种目标对象识别方法、多模态识别模型的训练方法和相关装置。

技术介绍

[0002]目前可以通过识别模型对待识别对象进行识别处理,得到待识别对象的识别结果,待识别对象可以为待识别商品、待识别广告、待识别网页等,从而可以根据实际结果从待识别对象中确定出目标对象。识别模型可以识别待识别对象的相关信息,从而确定待识别对象的识别结果。然而目前的识别模型的识别准确性和识别效率不能满足实际需求。

技术实现思路

[0003]为了解决上述技术问题,本申请提供了一种多模态识别模型的训练方法和相关装置,提供了多模态识别模型的识别准确性和识别效率。
[0004]本申请实施例公开了如下技术方案:
[0005]一方面,本申请实施例提供了一种目标对象识别方法,所述方法包括:
[0006]获取待识别对象的待识别图像数据和待识别文本数据;
[0007]根据文本子模型对所述待识别文本数据进行特征提取得到的文本特征,或图像子模型对待识别图像本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种目标对象识别方法,其特征在于,所述方法包括:获取待识别对象的待识别图像数据和待识别文本数据;根据文本子模型对所述待识别文本数据进行特征提取得到的文本特征,或图像子模型对待识别图像数据进行特征提取得到的图像特征,确定所述待识别对象的初始识别结果;若所述初始识别结果的置信度小于或等于第一预设置信度,或所述初始识别结果不为预设结果,则根据综合判别模型对所述文本特征和所述图像特征进行特征融合得到的融合结果,确定所述待识别对象的预测识别结果。2.根据权利要求1所述的方法,其特征在于,若所述初始识别结果根据所述图像特征确定,所述方法还包括:根据文本子模型对所述待识别文本数据进行特征提取得到的文本特征,确定所述待识别对象的文本相关识别结果;若所述文本相关识别结果的置信度小于或等于第二预设置信度,或所述文本相关识别结果不为预设结果,则通过所述图像子模型对待识别图像数据进行特征提取得到图像特征。3.根据权利要求1或2所述的方法,其特征在于,所述文本子模型包括文本分类模块和第一注意力层,所述方法还包括:通过所述文本分类模块对所述待识别文本数据进行特征提取得到多个初始文本特征,所述多个初始文本特征对应所述待识别文本数据中的多个字或多个词中的至少一种;通过所述第一注意力层为所述多个初始文本特征赋予第一权重,并根据所述第一权重和所述初始文本特征得到所述文本特征。4.根据权利要求3所述的方法,其特征在于,所述文本子模型包括多个分支,所述多个分支中的每个分支包括所述文本分类模块和所述第一注意力层,所述每个分支还包括第二注意力层,所述文本子模型还包括拼接层,所述通过所述文本分类模块对所述待识别文本数据进行特征提取得到多个初始文本特征,包括:根据所述待识别文本数据的分组信息,确定所述待识别文本数据所包括的多个分组数据分别对应的分支;针对所述多个分支中的目标分支,通过所述目标分支中的文本分类模块对所述目标分支对应的目标分组数据进行特征提取得到多个初始文本特征;所述通过所述第一注意力层为所述多个初始文本特征赋予第一权重,并根据所述第一权重和所述初始文本特征得到所述文本特征,包括:针对所述目标分支,通过所述目标分支中的第一注意力层为所述多个初始文本特征赋予第一权重,并根据所述第一权重对所述初始文本特征进行融合得到第一融合文本特征;通过所述目标分支中的第二注意力层为所述多个分支赋予第二权重,并根据所述第二权重对所述多个分支中的至少两个分支的第一融合文本特征进行融合,得到第二融合文本特征;通过所述拼接层对所述多个分支的第二融合文本特征进行拼接得到文本特征。5.根据权利要求4所述的方法,其特征在于,所述多个分组数据的类别包括第一类别和第二类别,所述根据所述待识别文本数据的分组信息,确定所述待识别文本数据所包括的多个分组数据分别对应的分支,包括:
根据所述待识别文本数据的分组信息,确定所述待识别文本数据所包括的多个分组数据;根据所述多个分组数据的类别,为所述多个分组数据分别确定对应的分支,若所述多个分组数据中的目标分组数据的类别为第一类别,所述目标分组数据对应的分支中的文本分类模块为基于卷积神经网络的文本分类模块,若所述多个分组数据中的目标分组数据的类别为第二类别,所述目标分组数据对应的分支中的文本分类模块为基于卷积神经网络和循环神经网络的文本分类模块。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:通过输入模块根据字和字向量的映射关系,以及词和词向量的映射关系,对待识别文本信息进行向量化得到所述待识别文本数据,所述待识别文本数据包括待识别字向量和待识别词向量;所述针对所述多个分支中的目标分支,通过所述目标分支中的文本分类模块对所述目标分支对应的目标分组数据进行特征提取得到多个初始文本特征,包括:针对所述目标分支,若所述目标分支对应的目标分组数据的类别为第一类别,通过所述目标分支中的文本分类模块,对所述目标分组数据所包括的字向量和词向量进行特征提取得到多个初始文本特征;针对所述目标分支,若所述目标分支对应的目标分组数据的类别为第二类别,通过所述目标分支中的文本分类模块,对所述目标分组数据所包括的词向量进行特征提取得到多个初始文本特征。7.一种多模态识别模型的确定方法,其特征在于,所述方法包括:获取具有类别标签的第一训练数据,所述第一训练数据包括第一训练对象的训练文本数据和训练图像数据,所述类别标签用于指示所述第一训练对象的目标识别结果;通过文本子模型、图像子模型和综合判别模块对所述第一训练数据进行识别处理得到各个所述第一训练对象的第一识别结果,所述文本子模型用于对所述训练文本数据进行特征提取得到文本特征,所述图像子模型用于对所述训练图像数据进行特征提取得到图像特征,所述综合判别模块用于对所述文本特征和所述图像特征进行特征融合得到融合结果,所述融合结果用于确定所述第一识别结果;根据所述类别标签和各个所述第一识别结果,构建第一综合损失函数;根据所述第一综合损失函数对包括所述文本子模型、所述图像子模型和所述综合判别模块的目标模型进行进行训练,将所述目标模型训练为多模态识别模型,所述多模态识别模型用于根据所述待识别对象的待识别图像数据和待识别文本数据,确定所述待识别对象的预测识别结果。8.根据权利要求7所述的方法,其特征在于,所述方法还包括:获取第二训练数据,所述第二训练数据包括第二训练对象的训练图像数据和训练文本数据;对所述第二训练数据进行相似化处理得到所述第二训练数据的相似数据;通过所述目标模型分别对所述第二训练数据和所述相似数据进行识别处理,得到各个所述第二训练对象的第二识别结果和第三识别结果;所述根据所述类别标签和各个所述第一识别结果,构建第一综合损失函数,包括:
根据所述类别标签和各个所述第一识别结果,构建第一损失函数;根据所述第二识别结果和所述第三识别结果的差异,构建第二损失函数;基于所述第一损失函数和所述第二损失函数确定第一综合损失函数。9.根据权利要求7所述的方法,其特征在于,所述对所述第二训练数据进行相似化处理得到所述第二训练数据的相似数据,包括:将所述第二训练对象的训练文本数据从第一语言体系转换到第二语言体系,并从第二语言体系转换到第一语言体系,得到与所述第二训练对象的训练文本数据相似的相似文本数据;对所述第二图像数据进行图像变换操作,得到与所述第二训练对象的训练图像数据相似的相似图像数据,所述图像变换操作包括以下操作中的至少一个:整体颜色更正操作、尺寸调整操作、增加噪音操作;根据所述第二训练对象的训练文本数据和所述相似文本数据中的一种,以及所述第二训练对象的训练图像数据和所述相似图像数据中的一种,确定所述第二训练数据的相似数据,所述相似数据和所述第二训练数据不同。10.根据权利要求9所述的方法,其特征在于,所述根据所述第一综合损失函数对包括所述文本子模型、所述图像子模型和所述综合...

【专利技术属性】
技术研发人员:罗达志
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1