图文数据处理方法、装置、设备、存储介质及程序产品制造方法及图纸

技术编号:39249772 阅读:8 留言:0更新日期:2023-10-30 12:01
本申请关于一种图文数据处理方法、装置、设备、存储介质及程序产品,涉及人工智能技术领域。该方法包括:获取第一图文数据;对第一图文数据进行特征提取,以将第一图文数据映射至统一视觉文本表示空间,获得第一图文数据的数据特征;统一视觉文本表示空间是基于第一图文数据样本,并以第一图文数据样本中的文本之间的语义相关度为约束构建的特征空间;将第一图文数据的数据特征发送给任务处理组件;该方案提高了通过第一图片样本以及对应的文本样本构建的统一视觉文本表示空间的准确性。构建的统一视觉文本表示空间的准确性。构建的统一视觉文本表示空间的准确性。

【技术实现步骤摘要】
图文数据处理方法、装置、设备、存储介质及程序产品


[0001]本申请涉及人工智能
,特别涉及一种图文数据处理方法、装置、设备、存储介质及程序产品。

技术介绍

[0002]随着AI技术的不断发展,跨模态语言的机器学习模型的应用也越来越受到重视。
[0003]在相关技术中,跨模态语言的机器学习模型通常需要通过图片

文本对来进行训练。具体来说,开发人员预先收集多语言的图片

文本对作为训练数据,对跨模态语言的机器学习模型进行训练。其中,对于同一个图片,对应有多种语言的描述文本,且该多种语言的文本互为译文。
[0004]然而,上述方案中需要统一图片对应的多种语言的描述文本互为译文,这会导致开发人员很难收集到数量足够,且满足要求的训练数据,最终导致训练出的模型的准确性较差。

技术实现思路

[0005]本申请实施例提供了一种图文数据处理方法、装置、设备、存储介质及程序产品,可以扩展跨模态语言的机器学习模型可用的训练数据,提高模型的准确性,该技术方案如下:
[0006]一方面,提供了一种图文数据处理方法,所述方法包括:
[0007]获取第一图文数据,所述第一图文数据中包含至少一个图片以及至少一个文本;
[0008]对所述第一图文数据进行特征提取,以将所述第一图文数据映射至统一视觉文本表示空间,获得所述第一图文数据的数据特征;所述统一视觉文本表示空间是基于第一图文数据样本,并以所述第一图文数据样本中的文本之间的语义相关度为约束构建的特征空间;所述第一图文数据样本中包含至少一个第一图片样本,以及所述第一图片样本对应的至少两个不同语言的文本样本,且所述第一图片样本对应的至少两个不同语言的文本样本不互为译文;
[0009]将所述第一图文数据的数据特征发送给任务处理组件,由所述任务处理组件基于所述数据特征输出目标任务的处理结果;所述目标任务是基于图文数据的分类或回归任务。
[0010]一方面,提供了一种图文数据处理方法,所述方法包括:
[0011]基于第一图文数据样本构建第一锚点样本、第一正例样本以及第一负例样本;所述第一图文数据样本中包含至少一个第一图片样本,以及所述第一图片样本对应的至少两个不同语言的文本样本,且所述第一图片样本对应的至少两个不同语言的文本样本不互为译文;
[0012]将所述第一锚点样本、所述第一正例样本以及所述第一负例样本输入第二特征提取模型,获得所述第二特征提取模型输出的第一样本特征;
[0013]基于所述第一样本特征,以所述第一图文数据样本中的文本之间的语义相关度为约束,获取第一损失函数值;
[0014]通过所述第一损失函数值对所述第二特征提取模型进行参数更新;
[0015]响应于所述第二特征提取模型满足收敛条件,基于所述第二特征提取模型构建第一特征提取模型;所述第一特征提取模型用于对输入的第一图文数据输入进行处理获得所述第一图文数据的数据特征,所述第一图文数据的数据特征由任务处理组件处理后输出目标任务的处理结果;所述目标任务是基于图文数据的分类或回归任务。
[0016]另一方面,提供了一种图文数据处理装置,所述装置包括:
[0017]数据获取模块,用于获取第一图文数据,所述第一图文数据中包含至少一个图片以及至少一个文本;
[0018]特征映射模块,用于对所述第一图文数据进行特征提取,以将所述第一图文数据映射至统一视觉文本表示空间,获得所述第一图文数据的数据特征;所述统一视觉文本表示空间是基于第一图文数据样本,并以所述第一图文数据样本中的文本之间的语义相关度为约束构建的特征空间;所述第一图文数据样本中包含至少一个第一图片样本,以及所述第一图片样本对应的至少两个不同语言的文本样本,且所述第一图片样本对应的至少两个不同语言的文本样本不互为译文;
[0019]任务处理模块,用于将所述第一图文数据的数据特征发送给任务处理组件,由所述任务处理组件基于所述数据特征输出目标任务的处理结果;所述目标任务是基于图文数据的分类或回归任务。
[0020]另一方面,提供了一种图文数据处理装置,所述装置包括:
[0021]样本构建模块,用于基于第一图文数据样本构建第一锚点样本、第一正例样本以及第一负例样本;所述第一图文数据样本中包含至少一个第一图片样本,以及所述第一图片样本对应的至少两个不同语言的文本样本,且所述第一图片样本对应的至少两个不同语言的文本样本不互为译文;
[0022]样本输入模块,用于将所述第一锚点样本、所述第一正例样本以及所述第一负例样本输入第二特征提取模型,获得所述第二特征提取模型输出的第一样本特征;
[0023]损失计算模块,用于基于所述第一样本特征,以所述第一图文数据样本中的文本之间的语义相关度为约束,获取第一损失函数值;
[0024]参数更新模块,用于通过所述第一损失函数值对所述第二特征提取模型进行参数更新;
[0025]模型构建模块,用于响应于所述第二特征提取模型满足收敛条件,基于所述第二特征提取模型构建第一特征提取模型;所述第一特征提取模型用于对输入的第一图文数据输入进行处理获得所述第一图文数据的数据特征,所述第一图文数据的数据特征由任务处理组件处理后输出目标任务的处理结果;所述目标任务是基于图文数据的分类或回归任务。
[0026]另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储由至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行以实现上述图文数据处理方法。
[0027]另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有
至少一条计算机程序,所述计算机程序由处理器加载并执行以实现上述图文数据处理方法。
[0028]另一方面,提供一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行上述各种可选实现方式中提供的图文数据处理方法。
[0029]本申请提供的技术方案可以包括以下有益效果:
[0030]通过至少一个第一图片样本,以及第一图片样本对应的至少两个不同语言的文本样本作为训练数据构建一个统一视觉文本表示空间,在进行图文数据处理任务时,将图文数据映射至该统一视觉文本表示空间,并通过任务处理组件,基于映射得到的数据特征输出任务的处理结果;在上述方案中,一方面,由于第一图片样本对应的至少两个不同语言的文本样本不互为译文,能够充分利用数据量大且获取难度较低的多语言图文弱对齐的数据样本,从而扩展了统一视觉文本表示空间的构建数据,提高该统一视觉文本表示空间的准确性;另一方面,在统一视觉文本表示空间构建的过程中,引入了图文数据样本中的文本之间的语义相关度作为约束,使得构建的统一视觉文本表示空间能够更准确的提取输入数据的语义特征,进一步提高了通过第一图片样本以及对应的文本样本构建本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图文数据处理方法,其特征在于,所述方法由计算机设备执行,所述方法包括:获取第一图文数据,所述第一图文数据中包含至少一个图片以及至少一个文本;对所述第一图文数据进行特征提取,以将所述第一图文数据映射至统一视觉文本表示空间,获得所述第一图文数据的数据特征;所述统一视觉文本表示空间是基于第一图文数据样本,并以所述第一图文数据样本中的文本之间的语义相关度为约束构建的特征空间;所述第一图文数据样本中包含至少一个第一图片样本,以及所述第一图片样本对应的至少两个不同语言的文本样本,且所述第一图片样本对应的至少两个不同语言的文本样本不互为译文;将所述第一图文数据的数据特征发送给任务处理组件,由所述任务处理组件基于所述数据特征输出目标任务的处理结果;所述目标任务是基于图文数据的分类或回归任务。2.根据权利要求1所述的方法,其特征在于,所述对所述第一图文数据进行特征提取,以将所述第一图文数据映射至统一视觉文本表示空间,获得所述第一图文数据的数据特征,包括:将所述第一图文数据输入第一特征提取模型,获得所述第一特征提取模型输出的所述第一图文数据的数据特征;所述第一特征提取模型,是基于第二特征提取模型构建的机器学习网络;所述第二特征提取模型是基于第一图文数据样本,并以所述第一图文数据样本中的文本之间的语义相关度为约束进行机器学习训练得到的机器学习模型。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:基于所述第一图文数据样本构建第一锚点样本、第一正例样本以及第一负例样本;将所述第一锚点样本、所述第一正例样本以及所述第一负例样本输入所述第二特征提取模型,获得所述第二特征提取模型输出的第一样本特征;基于所述第一样本特征,以所述第一图文数据样本中的文本之间的语义相关度为约束,获取第一损失函数值;通过所述第一损失函数值对所述第二特征提取模型进行参数更新。4.根据权利要求3所述的方法,其特征在于,所述第一锚点样本包含第一锚点图文样本和第一锚点文本样本;所述第一正例样本包含至少一个第一正例图文样本以及至少一个第一正例文本样本;所述第一负例样本包含至少一个第一负例图文样本以及至少一个第一负例文本样本;所述第一锚点图文样本、所述第一正例图文样本以及所述第一负例图文样本分别包含一个图片

文本对,且所述第一锚点图文样本、所述第一正例图文样本以及所述第一负例图文样本包含相同的第一图片;所述第一正例图文样本中的文本以及所述第一锚点图文样本中的文本分别与所述第一图片语义匹配,所述第一负例图文样本中的文本与所述第一图片语义不匹配;所述第一锚点文本样本包含所述第一锚点图文样本中的文本,所述第一正例文本样本包含所述第一正例图文样本中文本,所述第一负例文本样本包含所述第一负例图文样本中的文本;所述将所述第一锚点样本、所述第一正例样本以及所述第一负例样本输入所述第二特征提取模型,获得所述第二特征提取模型输出的第一样本特征,包括:将所述第一锚点图文样本、所述第一正例图文样本以及所述第一负例图文样本输入所
述第二特征提取模型,获得所述第一锚点图文样本的样本特征、所述第一正例图文样本的样本特征、以及所述第一负例图文样本的样本特征;将所述第一锚点文本样本、所述第一正例文本样本以及所述第一负例文本样本输入所述第二特征提取模型,获得所述第一锚点文本样本的样本特征、所述第一正例文本样本的样本特征以及所述第一负例文本样本的样本特征;所述基于所述第一样本特征,以所述第一图文数据样本中的文本之间的语义相关度为约束,获取第一损失函数值,包括:基于所述第一锚点图文样本的样本特征、所述第一正例图文样本的样本特征、所述第一负例图文样本的样本特征、所述第一锚点文本样本的样本特征、所述第一正例文本样本的样本特征以及所述第一负例文本样本的样本特征,获取语义相关度信息;所述语义相关度信息用于指示所述第一图文数据样本中的文本之间的语义相关度;基于所述语义相关度信息生成语义相关度损失函数值;基于所述第一锚点图文样本的样本特征、所述第一正例图文样本的样本特征、以及所述第一负例图文样本的样本特征,生成第一对比学习损失函数值;基于所述语义相关度损失函数值,以及所述第一对比学习损失函数值获取所述第一损失函数值。5.根据权利要求4所述的方法,其特征在于,所述基于所述第一锚点图文样本的样本特征、所述第一正例图文样本的样本特征、所述第一负例图文样本的样本特征、所述第一锚点文本样本的样本特征、所述第一正例文本样本的样本特征以及所述第一负例文本样本的样本特征,获取语义相关度信息,包括:对所述第一锚点图文样本的样本特征、所述第一正例图文样本的样本特征、以及所述第一负例图文样本的样本特征进行归一化处理,获得所述语义相关度信息中的第一相关度分布信息;对所述第一锚点文本样本的样本特征、所述第一正例文本样本的样本特征以及所述第一负例文本样本的样本特征进行归一化处理,获得所述语义相关度信息中的第二相关度分布信息;所述基于所述语义相关度信息生成语义相关度损失函数值,包括:对所述第一相关度分布信息和所述第二相关度分布信息计算KL散度,获得所述语义相关度损失函数值。6.根据权利要求4所述的方法,其特征在于,所述方法还包括:基于所述第一锚点文本样本的样本特征、所述第一正例文本样本的样本特征以及所述第一负例文本样本的样本特征,生成第二损失函数值;通过所述第二损失函数值对所述第二特征提取模型进行参数更新。7.根据权利要求2所述的方法,其特征在于,所述方法还包括:基于第二图文数据样本构建第二锚点图文样本、第二正例图文样本以及第二负例图文样本;所述第二图文数据样本中包含至少一个第二图片样本,以及所述第二图片样本对应的至少两个不同语言的文本样本,且所述第二图片样本对应的至少两个不同语言的文本样本互为译文;所述第二锚点图文样本、所述第二正例图文样本以及所述第二负例图文样本分别包含一个图片

文本对,且所述第二锚点图文样本、所述第二正例图文样本以及所述第
二负例图文样本包含相同的第二图片;所述第二正例图文样本中的文本以及所述第二锚点图文样本中的文本分别与所述第二图片语义匹配,所述第二负例图文样本中的文本与所述第二图片语义不匹配;将所述第二锚点图文样本、所述第二正例图文样本以及所述第二负例图文样本输入所述第二特征提取模型,获得所述第二锚点图文样本...

【专利技术属性】
技术研发人员:周楚伦孟凡东
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1