一种多模态数据匹配方法、装置、设备及存储介质制造方法及图纸

技术编号:30075895 阅读:18 留言:0更新日期:2021-09-18 08:30
本申请实施例涉及数据处理技术领域,具体涉及一种多模态数据匹配方法、装置、设备及存储介质,旨在实现低质量的跨模态数据的快速匹配。所述方法包括:将获取的多种单模态数据进行分类,得到多个数据集,其中,同一数据集中包括模态相同的多个单模态数据;对所述多个数据集中每个数据集的单模态数据进行特征提取,得到该数据集中多个所述单模态数据的高层特征,并将该数据集中的多个高层特征放入该数据集对应的特征数据集中;分别对每个所述特征数据集中的高层特征进行基于参考点的结构表征,得到所述特征数据集对应的参考表征;将多个特征数据集各自对应的参考表征输入预训练好的共同空间网络中,得到多组跨模态匹配的数据。得到多组跨模态匹配的数据。得到多组跨模态匹配的数据。

【技术实现步骤摘要】
一种多模态数据匹配方法、装置、设备及存储介质


[0001]本申请实施例涉及数据处理
,具体而言,涉及一种多模态数据匹配方法、装置、设备及存储介质。

技术介绍

[0002]随着互联网等新兴技术的大规模兴起,人类社会每天都在产生种类繁多且体量巨大的数据,文本、图像等数据更是互联网数据中最常见的数据。这些数据之间具有广泛的潜在关联,具有很高的利用价值,发现这些数据之间的潜在关联是人工智能和信息
的重要研究方向,但文本、图像属于不同模态的数据,具有非结构化、异构、语义稀疏的特点,想要同时利用这些跨模态数据难度较大。现有技术中,想要很好的利用跨模态数据,需要对不同模态的数据进行人工标注,使其相匹配。
[0003]现有技术中存在的问题是,人工对大量跨模态数据进行标注,耗费人力物力,并且无法充分利用单模态数据。

技术实现思路

[0004]本申请实施例提供一种多模态数据匹配方法、装置、设备及存储介质,旨在实现低质量的跨模态数据的快速匹配。
[0005]本申请实施例第一方面提供一种多模态数据匹配方法,所述方法包括:
[0006]将获取的多种单模态数据进行分类,得到多个数据集,其中,同一数据集中包括模态相同的多个单模态数据;
[0007]对所述多个数据集中每个数据集的单模态数据进行特征提取,得到该数据集中多个所述单模态数据的高层特征,并将该数据集中的多个高层特征放入该数据集对应的特征数据集中;
[0008]分别对每个所述特征数据集中的高层特征进行基于参考点的结构表征,得到所述特征数据集对应的参考表征;
[0009]将多个特征数据集各自对应的参考表征输入预训练好的共同空间网络中,得到多组跨模态匹配的数据。
[0010]可选地,分别对每个所述特征数据集中的高层特征进行基于参考点的结构表征,得到所述特征数据集对应的参考表征,包括:
[0011]针对每个特征数据集执行以下步骤:
[0012]确定该特征数据集中的参考点数量,并确定该特征数据集中的参考点;
[0013]确定该特征数据集中的每个高层特征与该特征数据集中所有参考点的相似度;
[0014]将该特征数据集中的每个高层特征表示为该高层特征与对应参考点的相似度向量,得到多个高层特征分别对应的相似度向量,并将多个相似度向量的集合作为所述特征数据集的参考表征。
[0015]可选地,将多个特征数据集各自对应的参考表征输入预训练好的共同空间网络
中,得到多组跨模态匹配的数据,包括:
[0016]通过所述预训练好的共同空间网络,将所述多个单模态数据中的每个单模态数据的参考表征与其对应的不同模态的参考表征进行对齐;
[0017]计算所述多个单模态数据的参考表征与其对应的不同模态的参考表征的相似度,得到不同模态数据之间的相似度矩阵;
[0018]根据所述相似度矩阵,得到所述多组跨模态匹配的数据。
[0019]可选地,所述共同空间网络通过以下步骤得到:
[0020]收集多种单模态数据;
[0021]对所述多种单模态数据进行配对,得到多组配对样本;
[0022]将所述多组配对样本输入所述共同空间网络中,对所述共同空间网络进行训练,得到预训练好的共同空间网络。
[0023]可选地,确定每个所述特征数据集中的参考点,包括:
[0024]对所述特征数据集中的高层特征进行预聚类,得到与确定的所述参考点数量相等的聚类簇;
[0025]选择所述聚类簇的聚类中心,将所述聚类中心作为所述特征数据集的参考点。
[0026]可选地,所述方法还包括:
[0027]确定所述多个特征数据集中的一个特征数据集中的预设数量的参考点;
[0028]查询所预设数量的参考点在剩余特征数据集中对应的多个跨模态相似对象;
[0029]将所述多个跨模态相似对象设置为所述剩余特征数据集中的参考点。
[0030]本申请实施例第二方面提供一种多模态数据匹配装置,所述装置包括:
[0031]数据分类模块,用于将获取的多种单模态数据进行分类,得到多个数据集,其中,同一数据集中包括模态相同的多个单模态数据;
[0032]特征提取模块,用于对所述多个数据集中每个数据集的单模态数据进行特征提取,得到该数据集中多个所述单模态数据的高层特征,并将该数据集中的多个高层特征放入该数据集对应的特征数据集中;
[0033]结构表征模块,用于分别对每个所述特征数据集中的高层特征进行基于参考点的结构表征,得到所述特征数据集对应的参考表征;
[0034]跨模态匹配模块,用于将多个特征数据集各自对应的参考表征输入预训练好的共同空间网络中,得到多组跨模态匹配的数据。
[0035]可选地,所述结构表征模块包括:
[0036]针对每个特征数据集执行以下步骤:
[0037]第一参考点确定子模块,用于确定该特征数据集中的参考点数量,并确定该特征数据集中的参考点;
[0038]第一相似度计算子模块,用于确定该特征数据集中的每个高层特征与该特征数据集中所有参考点的相似度;
[0039]参考表征子模块,用于将该特征数据集中的每个高层特征表示为该高层特征与对应参考点的相似度向量,得到多个高层特征分别对应的相似度向量,并将多个相似度向量的集合作为所述特征数据集的参考表征。
[0040]可选地,所述跨模态匹配模块包括:
[0041]特征对齐子模块,用于通过所述预训练好的共同空间网络,将所述多个单模态数据中的每个单模态数据的参考表征与其对应的不同模态的参考表征进行对齐;
[0042]第二相似度计算子模块,用于计算所述多个单模态数据的参考表征与其对应的不同模态的参考表征的相似度,得到不同模态数据之间的相似度矩阵;
[0043]跨模态匹配子模块,用于根据所述相似度矩阵,得到所述多组跨模态匹配的数据。
[0044]可选地,所述共同空间网络通过以下装置执行的步骤得到:
[0045]数据收集子模块,用于收集多种单模态数据;
[0046]样本配对子模块,用于对所述多种单模态数据进行配对,得到多组配对样本;
[0047]预训练子模块,用于将所述多组配对样本输入所述共同空间网络中,对所述共同空间网络进行训练,得到预训练好的共同空间网络。
[0048]可选地,所述参考点确定子模块包括:
[0049]特征聚类子模块,用于对所述特征数据集中的高层特征进行预聚类,得到与确定的所述参考点数量相等的聚类簇;
[0050]参考点选择子模块,用于选择所述聚类簇的聚类中心,将所述聚类中心作为所述特征数据集的参考点。
[0051]可选地,所述参考点确定子模块还包括:
[0052]第二参考点确定子模块,用于确定所述多个特征数据集中的一个特征数据集中的预设数量的参考点;
[0053]参考点查询子模块,用于查询所预设数量的参考点在剩余特征数据集中对应的多个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态数据匹配方法,其特征在于,所述方法包括:将获取的多种单模态数据进行分类,得到多个数据集,其中,同一数据集中包括模态相同的多个单模态数据;对所述多个数据集中每个数据集的单模态数据进行特征提取,得到该数据集中多个所述单模态数据的高层特征,并将该数据集中的多个高层特征放入该数据集对应的特征数据集中;分别对每个所述特征数据集中的高层特征进行基于参考点的结构表征,得到所述特征数据集对应的参考表征;将多个特征数据集各自对应的参考表征输入预训练好的共同空间网络中,得到多组跨模态匹配的数据。2.根据权利要求1所述的方法,其特征在于,分别对每个所述特征数据集中的高层特征进行基于参考点的结构表征,得到所述特征数据集对应的参考表征,包括:针对每个特征数据集执行以下步骤:确定该特征数据集中的参考点数量,并确定该特征数据集中的参考点;确定该特征数据集中的每个高层特征与该特征数据集中所有参考点的相似度;将该特征数据集中的每个高层特征表示为该高层特征与对应参考点的相似度向量,得到多个高层特征分别对应的相似度向量,并将多个相似度向量的集合作为所述特征数据集的参考表征。3.根据权利要求1所述的方法,其特征在于,将多个特征数据集各自对应的参考表征输入预训练好的共同空间网络中,得到多组跨模态匹配的数据,包括:通过所述预训练好的共同空间网络,将所述多个单模态数据中的每个单模态数据的参考表征与其对应的不同模态的参考表征进行对齐;计算所述多个单模态数据的参考表征与其对应的不同模态的参考表征的相似度,得到不同模态数据之间的相似度矩阵;根据所述相似度矩阵,得到所述多组跨模态匹配的数据。4.根据权利要求1所述的方法,其特征在于,所述共同空间网络通过以下步骤得到:收集多种单模态数据;对所述多种单模态数据进行配...

【专利技术属性】
技术研发人员:刘艺郑奇斌刁兴春李蒙蒙秦伟
申请(专利权)人:北京大数据先进技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1