图文数据处理方法、装置、设备、存储介质及程序产品制造方法及图纸

技术编号：39249772 阅读：8 留言：0更新日期：2023-10-30 12:01

本申请关于一种图文数据处理方法、装置、设备、存储介质及程序产品，涉及人工智能技术领域。该方法包括：获取第一图文数据；对第一图文数据进行特征提取，以将第一图文数据映射至统一视觉文本表示空间，获得第一图文数据的数据特征；统一视觉文本表示空间是基于第一图文数据样本，并以第一图文数据样本中的文本之间的语义相关度为约束构建的特征空间；将第一图文数据的数据特征发送给任务处理组件；该方案提高了通过第一图片样本以及对应的文本样本构建的统一视觉文本表示空间的准确性。构建的统一视觉文本表示空间的准确性。构建的统一视觉文本表示空间的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
图文数据处理方法、装置、设备、存储介质及程序产品

[0001]本申请涉及人工智能
，特别涉及一种图文数据处理方法、装置、设备、存储介质及程序产品。

技术介绍

[0002]随着AI技术的不断发展，跨模态语言的机器学习模型的应用也越来越受到重视。
[0003]在相关技术中，跨模态语言的机器学习模型通常需要通过图片
‑
文本对来进行训练。具体来说，开发人员预先收集多语言的图片
‑
文本对作为训练数据，对跨模态语言的机器学习模型进行训练。其中，对于同一个图片，对应有多种语言的描述文本，且该多种语言的文本互为译文。
[0004]然而，上述方案中需要统一图片对应的多种语言的描述文本互为译文，这会导致开发人员很难收集到数量足够，且满足要求的训练数据，最终导致训练出的模型的准确性较差。

技术实现思路

[0005]本申请实施例提供了一种图文数据处理方法、装置、设备、存储介质及程序产品，可以扩展跨模态语言的机器学习模型可用的训练数据，提高模型的准确性，该技术方案如下：
[0006]一方面，提供了一种图文数据处理方法，所述方法包括：
[0007]获取第一图文数据，所述第一图文数据中包含至少一个图片以及至少一个文本；
[0008]对所述第一图文数据进行特征提取，以将所述第一图文数据映射至统一视觉文本表示空间，获得所述第一图文数据的数据特征；所述统一视觉文本表示空间是基于第一图文数据样本，并以所述第一图文数据样本中的文本之间的语义相关度为约束构建的特...

【技术保护点】

【技术特征摘要】
1.一种图文数据处理方法，其特征在于，所述方法由计算机设备执行，所述方法包括：获取第一图文数据，所述第一图文数据中包含至少一个图片以及至少一个文本；对所述第一图文数据进行特征提取，以将所述第一图文数据映射至统一视觉文本表示空间，获得所述第一图文数据的数据特征；所述统一视觉文本表示空间是基于第一图文数据样本，并以所述第一图文数据样本中的文本之间的语义相关度为约束构建的特征空间；所述第一图文数据样本中包含至少一个第一图片样本，以及所述第一图片样本对应的至少两个不同语言的文本样本，且所述第一图片样本对应的至少两个不同语言的文本样本不互为译文；将所述第一图文数据的数据特征发送给任务处理组件，由所述任务处理组件基于所述数据特征输出目标任务的处理结果；所述目标任务是基于图文数据的分类或回归任务。2.根据权利要求1所述的方法，其特征在于，所述对所述第一图文数据进行特征提取，以将所述第一图文数据映射至统一视觉文本表示空间，获得所述第一图文数据的数据特征，包括：将所述第一图文数据输入第一特征提取模型，获得所述第一特征提取模型输出的所述第一图文数据的数据特征；所述第一特征提取模型，是基于第二特征提取模型构建的机器学习网络；所述第二特征提取模型是基于第一图文数据样本，并以所述第一图文数据样本中的文本之间的语义相关度为约束进行机器学习训练得到的机器学习模型。3.根据权利要求2所述的方法，其特征在于，所述方法还包括：基于所述第一图文数据样本构建第一锚点样本、第一正例样本以及第一负例样本；将所述第一锚点样本、所述第一正例样本以及所述第一负例样本输入所述第二特征提取模型，获得所述第二特征提取模型输出的第一样本特征；基于所述第一样本特征，以所述第一图文数据样本中的文本之间的语义相关度为约束，获取第一损失函数值；通过所述第一损失函数值对所述第二特征提取模型进行参数更新。4.根据权利要求3所述的方法，其特征在于，所述第一锚点样本包含第一锚点图文样本和第一锚点文本样本；所述第一正例样本包含至少一个第一正例图文样本以及至少一个第一正例文本样本；所述第一负例样本包含至少一个第一负例图文样本以及至少一个第一负例文本样本；所述第一锚点图文样本、所述第一正例图文样本以及所述第一负例图文样本分别包含一个图片
‑
文本对，且所述第一锚点图文样本、所述第一正例图文样本以及所述第一负例图文样本包含相同的第一图片；所述第一正例图文样本中的文本以及所述第一锚点图文样本中的文本分别与所述第一图片语义匹配，所述第一负例图文样本中的文本与所述第一图片语义不匹配；所述第一锚点文本样本包含所述第一锚点图文样本中的文本，所述第一正例文本样本包含所述第一正例图文样本中文本，所述第一负例文本样本包含所述第一负例图文样本中的文本；所述将所述第一锚点样本、所述第一正例样本以及所述第一负例样本输入所述第二特征提取模型，获得所述第二特征提取模型输出的第一样本特征，包括：将所述第一锚点图文样本、所述第一正例图文样本以及所述第一负例图文样本输入所
述第二特征提取模型，获得所述第一锚点图文样本的样本特征、所述第一正例图文样本的样本特征、以及所述第一负例图文样本的样本特征；将所述第一锚点文本样本、所述第一正例文本样本以及所述第一负例文本样本输入所述第二特征提取模型，获得所述第一锚点文本样本的样本特征、所述第一正例文本样本的样本特征以及所述第一负例文本样本的样本特征；所述基于所述第一样本特征，以所述第一图文数据样本中的文本之间的语义相关度为约束，获取第一损失函数值，包括：基于所述第一锚点图文样本的样本特征、所述第一正例图文样本的样本特征、所述第一负例图文样本的样本特征、所述第一锚点文本样本的样本特征、所述第一正例文本样本的样本特征以及所述第一负例文本样本的样本特征，获取语义相关度信息；所述语义相关度信息用于指示所述第一图文数据样本中的文本之间的语义相关度；基于所述语义相关度信息生成语义相关度损失函数值；基于所述第一锚点图文样本的样本特征、所述第一正例图文样本的样本特征、以及所述第一负例图文样本的样本特征，生成第一对比学习损失函数值；基于所述语义相关度损失函数值，以及所述第一对比学习损失函数值获取所述第一损失函数值。5.根据权利要求4所述的方法，其特征在于，所述基于所述第一锚点图文样本的样本特征、所述第一正例图文样本的样本特征、所述第一负例图文样本的样本特征、所述第一锚点文本样本的样本特征、所述第一正例文本样本的样本特征以及所述第一负例文本样本的样本特征，获取语义相关度信息，包括：对所述第一锚点图文样本的样本特征、所述第一正例图文样本的样本特征、以及所述第一负例图文样本的样本特征进行归一化处理，获得所述语义相关度信息中的第一相关度分布信息；对所述第一锚点文本样本的样本特征、所述第一正例文本样本的样本特征以及所述第一负例文本样本的样本特征进行归一化处理，获得所述语义相关度信息中的第二相关度分布信息；所述基于所述语义相关度信息生成语义相关度损失函数值，包括：对所述第一相关度分布信息和所述第二相关度分布信息计算KL散度，获得所述语义相关度损失函数值。6.根据权利要求4所述的方法，其特征在于，所述方法还包括：基于所述第一锚点文本样本的样本特征、所述第一正例文本样本的样本特征以及所述第一负例文本样本的样本特征，生成第二损失函数值；通过所述第二损失函数值对所述第二特征提取模型进行参数更新。7.根据权利要求2所述的方法，其特征在于，所述方法还包括：基于第二图文数据样本构建第二锚点图文样本、第二正例图文样本以及第二负例图文样本；所述第二图文数据样本中包含至少一个第二图片样本，以及所述第二图片样本对应的至少两个不同语言的文本样本，且所述第二图片样本对应的至少两个不同语言的文本样本互为译文；所述第二锚点图文样本、所述第二正例图文样本以及所述第二负例图文样本分别包含一个图片
‑
文本对，且所述第二锚点图文样本、所述第二正例图文样本以及所述第
二负例图文样本包含相同的第二图片；所述第二正例图文样本中的文本以及所述第二锚点图文样本中的文本分别与所述第二图片语义匹配，所述第二负例图文样本中的文本与所述第二图片语义不匹配；将所述第二锚点图文样本、所述第二正例图文样本以及所述第二负例图文样本输入所述第二特征提取模型，获得所述第二锚点图文样本...

【专利技术属性】
技术研发人员：周楚伦，孟凡东，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人