模型训练方法、物品识别方法及装置、电子设备、介质制造方法及图纸

技术编号:35526485 阅读:12 留言:0更新日期:2022-11-09 14:48
本公开实施例是关于一种模型训练方法、物品识别方法及装置、电子设备、计算机可读存储介质,涉及计算机技术领域,该方法包括:获取样本物品的样本文本信息以及样本图像信息;基于所述样本文本信息以及样本图像信息对识别模型中的自监督模型进行预训练,获取先验结果;通过所述识别模型中的嵌入模型,结合所述先验结果以及样本文本信息获取参考多模态表征向量;基于所述参考多模态表征向量确定目标损失函数,并基于所述目标损失函数对所述识别模型的模型参数进行调整,以训练识别模型。本公开能够提高模型训练的准确性。能够提高模型训练的准确性。能够提高模型训练的准确性。

【技术实现步骤摘要】
模型训练方法、物品识别方法及装置、电子设备、介质


[0001]本公开实施例涉及计算机
,具体而言,涉及一种模型训练方法、物品识别方法、模型训练装置、物品识别装置、电子设备以及计算机可读存储介质。

技术介绍

[0002]随着智能系统的发展,可以通过智能系统对输入的物品进行自动识别和搜索相似物品。
[0003]相关技术中,可以通过图片以及文本等多种数据类型确定物品的多模态特征,并根据多模态特征进行识别。上述方式中,由于物品的文本通常缺乏语法结构,且图片信息通常包含其他杂讯,在模型训练过程中可能会存在一定的干扰,导致得到的模型的准确性较低,可靠性较差。
[0004]需要说明的是,在上述
技术介绍
部分专利技术的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0005]本公开的目的在于提供一种物品识别方法、物品识别装置、电子设备以及计算机可读存储介质,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的物品表征的准确性较低的问题。
[0006]根据本公开的一个方面,提供一种模型训练方法,包括:获取样本物品的样本文本信息以及样本图像信息;基于所述样本文本信息以及样本图像信息对识别模型中的自监督模型进行预训练,获取先验结果;通过所述识别模型中的嵌入模型,结合所述先验结果以及样本文本信息获取参考多模态表征向量;基于所述参考多模态表征向量确定目标损失函数,并基于所述目标损失函数对所述识别模型的模型参数进行调整,以训练识别模型。
[0007]在本公开的一种示例性实施例中,所述基于所述样本文本信息以及样本图像信息对识别模型中的自监督模型进行预训练,获取先验结果,包括:对所述样本物品的图像特征向量以及文本特征向量进行聚类确定聚类簇,并确定聚类簇中目标单词的先验注意力。
[0008]在本公开的一种示例性实施例中,所述确定聚类簇中目标单词的先验注意力,包括:根据目标单词在聚类簇中的出现频率,以及,聚类簇的总数量与包含所述目标单词的聚类簇的数量对应的逆向簇频率,确定所述先验注意力。
[0009]在本公开的一种示例性实施例中,所述结合所述先验结果以及样本文本信息获取参考多模态表征向量,包括:获取样本文本信息的隐藏状态矩阵,并对隐藏状态矩阵进行变换获取注意力向量;基于先验注意力对所述注意力向量进行正则化获取注意力正则化项,并根据所述注意力正则化项与隐藏状态矩阵获取参考多模态表征向量。
[0010]在本公开的一种示例性实施例中,所述基于先验注意力对所述注意力向量进行正则化获取注意力正则化项,包括:确定注意力向量的每个权重值在所述注意力向量中排名第一的概率;获取先验注意力的每个权重值在所述先验注意力中排名第一的概率;通过所
述注意力向量和所述先验注意力的排名第一的概率的交叉熵,对所述注意力向量进行正则化以获取注意力正则化项。
[0011]在本公开的一种示例性实施例中,所述根据注意力正则化项与隐藏状态矩阵获取参考多模态表征向量,包括:将所述注意力正则化项和隐藏状态矩阵进行乘法操作,获取所述样本文本信息的参考多模态表征向量。
[0012]在本公开的一种示例性实施例中,所述基于所述参考多模态表征向量确定损失函数,包括:根据所述参考多模态表征向量确定文本重建损失,并根据所述参考多模态表征向量确定图像特征预测损失;结合所述文本重建损失、所述图像特征预测损失以及注意力正则化项确定所述目标损失函数。
[0013]根据本公开的一个方面,提供一种物品识别方法,包括:获取待处理物品的文本信息;根据识别模型对所述文本信息进行特征提取,获取所述待处理物品的多模态表征向量;所述识别模型根据上述任意一项所述的模型训练方法训练得到;基于所述多模态表征向量对待处理物品进行目标操作,以确定识别结果。
[0014]根据本公开的一个方面,提供一种模型训练装置,包括:信息获取模块,用于获取样本物品的样本文本信息以及样本图像信息;预训练模块,用于基于所述样本文本信息以及样本图像信息对识别模型中的自监督模型进行预训练,获取先验结果;多模态表征获取模块,用于通过所述识别模型中的嵌入模型,结合所述先验结果以及样本文本信息获取参考多模态表征向量;训练模块,用于基于所述参考多模态表征向量确定目标损失函数,并基于所述目标损失函数对所述识别模型的模型参数进行调整,以训练识别模型。
[0015]根据本公开的一个方面,提供一种物品识别装置,包括:文本信息获取模块,用于获取待处理物品的文本信息;多模态表征获取模块,用于根据识别模型对所述文本信息进行特征提取,获取所述待处理物品的多模态表征向量;所述识别模型根据上述任意一项所述的模型训练方法训练得到;目标操作模块,用于基于所述多模态表征向量对待处理物品进行目标操作,以确定识别结果。
[0016]根据本公开的一个方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的方法。
[0017]根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的方法。
[0018]本公开实施例中提供的模型训练方法、物品识别方法、模型训练装置、物品识别装置、电子设备以及计算机可读存储介质中,一方面,通过样本物品的样本文本信息以及样本图像信息实现预训练得到先验结果,进一步结合先验结果以及样本文本信息获取参考多模态表征向量,避免了输入数据中文本和图像的杂讯干扰,也避免了文本信息不存在语法结构从而导致的局限性,提高了参考多模态表征向量的全面性和准确性,进而提高了模型训练的准确性,提高了识别模型的准确性和可靠性。另一方面,通过先验结果选择出重要的文本参与训练过程,以结合先验结果进行模型训练确定参考多模态表征向量,进而确定目标损失函数,能够在模型训练过程中同时融合文本和图像的语义来训练模型,提高了识别模型的鲁棒性和全面性。
[0019]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不
Representations from Transformers(BERT)能够有利于提升各类与自然语言处理相关的下游任务的能力。在图片方面,大型数据库ImageNet提供了大量的已标注图片,催生出VGG和ResNet等预训练的物品识别模型。虽然文本和图片都含有丰富的语义,未经过处理的文字和图片都带有一定的杂讯,而且两者所含语义具有互补的关系。可利用多种数据类型进行建模的多模态特征学习成为研究的重点,例如跨模态编解码器和旨在融合不同模态特征的联合表征模型。
[0035]在电子商务中,识别和搜寻相似物品等应用都涉及相似度计算。各大网络平台提供了海量多模态的物品信息,其中物品文本标题和图片是最为常见的数据。由于物品资料的特殊性,物品的文本通常缺乏语法结构,而且物品图片相较普通照片通常包含更多的杂讯。因此,需要一种高鲁棒性的多模态表征向量模型提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:获取样本物品的样本文本信息以及样本图像信息;基于所述样本文本信息以及样本图像信息对识别模型中的自监督模型进行预训练,获取先验结果;通过所述识别模型中的嵌入模型,结合所述先验结果以及样本文本信息获取参考多模态表征向量;基于所述参考多模态表征向量确定目标损失函数,并基于所述目标损失函数对所述识别模型的模型参数进行调整,以训练识别模型。2.根据权利要求1所述的模型训练方法,其特征在于,所述基于所述样本文本信息以及样本图像信息对识别模型中的自监督模型进行预训练,获取先验结果,包括:对所述样本物品的图像特征向量以及文本特征向量进行聚类确定聚类簇,并确定聚类簇中目标单词的先验注意力。3.根据权利要求2所述的模型训练方法,其特征在于,所述确定聚类簇中目标单词的先验注意力,包括:根据目标单词在聚类簇中的出现频率,以及,聚类簇的总数量与包含所述目标单词的聚类簇的数量对应的逆向簇频率,确定所述先验注意力。4.根据权利要求1所述的模型训练方法,其特征在于,所述结合所述先验结果以及样本文本信息获取参考多模态表征向量,包括:获取样本文本信息的隐藏状态矩阵,并对隐藏状态矩阵进行变换获取注意力向量;基于先验注意力对所述注意力向量进行正则化,并根据注意力正则化项与隐藏状态矩阵获取参考多模态表征向量。5.根据权利要求4所述的模型训练方法,其特征在于,所述基于先验注意力对所述注意力向量进行正则化,包括:确定注意力向量的每个权重值在所述注意力向量中排名第一的概率;获取先验注意力的每个权重值在所述先验注意力中排名第一的概率;通过所述注意力向量和所述先验注意力的排名第一的概率的交叉熵,对所述注意力向量进行正则化以获取注意力正则化项。6.根据权利要求4所述的模型训练方法,其特征在于,所述根据注意力正则化项与隐藏状态矩阵获取参考多模态表征向量,包括:将所述注意力正则化项和隐藏状态矩阵进行乘法操作,获取所述样本文本信息的参考多模态表征向量。7.根据权利要求1所述的模型...

【专利技术属性】
技术研发人员:蒋艺荃
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1