跨模态对齐方法、装置、电子设备和存储介质制造方法及图纸

技术编号:38498141 阅读:10 留言:0更新日期:2023-08-15 17:07
本公开提供一种跨模态对齐方法、跨模态对齐装置、电子设备和计算机可读存储介质。方法包括:获取第一模态信息和第二模态信息,并将第一模态信息分解成多个第一元素,将第二模态信息分解成多个第二元素;根据第二模态信息的第二特征信息,计算每个第一元素与第二模态信息的第一相似度,并根据第一模态信息的第一特征信息,计算每个第二元素与第一模态信息的第二相似度;根据多个第一元素的多个第一相似度和多个第二元素的多个第二相似度,计算第一和第二模态信息的整体相似度;根据整体相似度,对齐第一和第二模态信息。根据本公开,能够强化两种模态信息之间的对应关系,减小不相关的噪声部分的影响,实现更好的后续模型训练效果。果。果。

【技术实现步骤摘要】
跨模态对齐方法、装置、电子设备和存储介质


[0001]本公开涉及机器学习
,尤其涉及一种跨模态对齐方法、跨模态对齐装置、电子设备和计算机可读存储介质。

技术介绍

[0002]现有技术中存在通过多模态预训练模型来实现多种多模态下游任务(例如文字检索视频)的技术。预训练模型的训练过程需要投入大量的低成本收集的数据。例如,针对视频任务,预训练过程需要投入视频和与之对应的解说文本或字幕文本等。但是,这样的视频和文字之间的对应关系或对齐效果非常微弱,存在大量噪声,导致后续的预训练效果不佳。因此,本领域亟需一种能够加强两种模态信息之间的对齐效果,从而提升多模态模型的训练或预训练效果的技术。

技术实现思路

[0003]为此,本公开致力于提供一种跨模态对齐方法、跨模态对齐装置、电子设备和计算机可读存储介质,其能够强化两种模态信息之间的对应关系,尽量减小不相关的噪声部分的影响,从而实现更好的后续模型训练或预训练效果。
[0004]在一方面,本公开提供一种跨模态对齐方法,包括:获取第一模态信息和第二模态信息,并将第一模态信息分解成多个第一元素,将第二模态信息分解成多个第二元素;根据第二模态信息的第二特征信息,计算每个第一元素与第二模态信息的第一相似度,并根据第一模态信息的第一特征信息,计算每个第二元素与第一模态信息的第二相似度;根据多个第一元素的多个第一相似度和多个第二元素的多个第二相似度,计算第一和第二模态信息的整体相似度;根据整体相似度,对齐第一和第二模态信息。
[0005]根据本方面,通过将两种模态信息分解为多个元素,并针对每个元素计算相似度,能够使得与另一模态信息相关的元素凸显出来,不相关的元素得到抑制。这样,在后续计算整体相似度的时候,相关元素能够产生更大影响,不相关元素对计算结果影响较小,从而使得两种模态信息的相似度计算更加准确,实现更好的对齐效果。
[0006]根据本公开一特别实施例,第一特征信息包括第一特征向量矩阵,第一特征向量矩阵每行由每个第一元素的特征向量对应生成,第二特征信息包括第二特征向量矩阵,第二特征向量矩阵每行由每个第二元素的特征向量对应生成。
[0007]根据本实施例,通过针对元素构建特征向量,并针对模态信息构建特征向量矩阵,能够通过数学工具将模态信息的特征表现出来,便于通过算法来实现模态信息及其元素的处理和利用。
[0008]根据本公开一特别实施例,根据第二模态信息的第二特征信息,计算每个第一元素与第二模态信息的第一相似度,并根据第一模态信息的第一特征信息,计算每个第二元素与第一模态信息的第二相似度,包括:计算每个第一元素与每个第二元素之间的相似度,得到交叉相似度矩阵;将交叉相似度矩阵每行及每列中的多个相似度数值转化成权重系
数,得到第一权重系数矩阵及第二权重系数矩阵;采用第一权重系数矩阵对第二特征向量矩阵进行加权计算,得到第二加权特征向量矩阵;采用第二权重系数矩阵对第一特征向量矩阵进行加权计算,得到第一加权特征向量矩阵;计算第二加权特征向量矩阵中的行向量与第一特征向量矩阵中对应的行向量之间的相似度,得到每个第一元素与第二模态信息的第一相似度;计算第一加权特征向量矩阵中的行向量与第二特征向量矩阵中对应的行向量之间的相似度,得到每个第二元素与第一模态信息的第二相似度。
[0009]根据本实施例,通过矩阵运算计算元素的特征向量和模态信息的特征向量矩阵之间的相似度,能够利用成熟的数学计算方法得出每个元素与另一模态信息之间的准确相似度,从而为后续计算做好准备。
[0010]根据本公开一特别实施例,根据多个第一元素的多个第一相似度和多个第二元素的多个第二相似度,计算第一和第二模态信息的整体相似度,包括:根据多个第一相似度,优化第一特征信息;根据多个第二相似度,优化第二特征信息;根据优化后的第一和第二特征信息,计算整体相似度。
[0011]根据本实施例,根据相似度来优化特征信息,从而根据优化后的特征信息来计算整体相似度,能够利用相似度所反映出来的数学关系,改变特征信息的数值,从而改变最终计算出的整体相似度,使得整体相似度更能反映出元素与元素之间相似度的大小关系,凸显出相似度较大的元素对整体相似度的影响力。
[0012]根据本公开一特别实施例,根据多个第一相似度,优化第一特征信息,包括:根据多个第一相似度,优化第一特征信息的第一特征向量矩阵,得到第一模态信息的第一全局特征向量。其中,根据多个第二相似度,优化第二特征信息,包括:根据多个第二相似度,优化第二特征信息的第二特征向量矩阵,得到第二模态信息的第二全局特征向量。其中,根据优化后的第一和第二特征信息,计算整体相似度,包括:根据第一和第二全局特征向量,计算整体相似度。
[0013]根据本实施例,通过计算全局特征向量,并将全局特征向量作为优化后的特征信息,能够使得模态信息的特征信息得到降维和简化,从而更加便于后续的整体相似度的计算。
[0014]根据本公开一特别实施例,根据多个第一相似度,优化第一特征向量矩阵,得到第一模态信息的第一全局特征向量,包括:将多个第一相似度转化为权重系数,得到第一权重系数向量;采用第一权重系数向量对第一特征向量矩阵进行加权计算,得到第一全局特征向量。其中,根据多个第二相似度,优化第二特征向量矩阵,得到第二模态信息的第二全局特征向量,包括:将多个第二相似度转化为权重系数,得到第二权重系数向量;采用第二权重系数向量对第二特征向量矩阵进行加权计算,得到第二全局特征向量。
[0015]根据本实施例,通过将相似度转化为权重系数,以对模态信息的特征向量矩阵进行加权计算,能够使得模态信息的特征向量矩阵中与另一模态信息相似度较高的部分得到凸显,相似度较低的部分得到抑制,从而在后续计算中能够更加准确地反映模态信息之间的相似性。
[0016]根据本公开一特别实施例,根据整体相似度,对齐第一和第二模态信息,包括:采用整体相似度标注第一和第二模态信息的对齐指数;基于对齐指数将第二模态信息与第一模态信息进行对齐。
[0017]根据本实施例,通过将整体相似度作为第一和第二模态信息之间对齐性的标注,有利于改变模型训练效果,通过标注更加准确的数据实现更好的模型训练,提升模型在跨模态任务中的表现。
[0018]根据本公开一特别实施例,第一模态信息包括文本,第一元素包括词,第二模态信息包括视频,第二元素包括帧。
[0019]根据本实施例,本公开技术方案特别适用于文本和视频之间的对齐。视频当中存在大量噪声帧,即大量视频帧没有对应的文字描述,因此适合于通过本公开的技术方案进行去噪和提纯,从而更好地实现文本与视频两种模态之间的对齐。
[0020]在另一方面,本公开提供一种跨模态对齐装置,包括:获取模块,用于获取第一模态信息和第二模态信息,并将第一模态信息分解成多个第一元素,将第二模态信息分解成多个第二元素;第一计算模块,用于根据第二模态信息的第二特征信息,计算每个第一元素与第二模态信息的第一相似度,并根据第一模态信息的第一特征信息,计算每个第二元素与第本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种跨模态对齐方法,包括:获取第一模态信息和第二模态信息,并将所述第一模态信息分解成多个第一元素,将所述第二模态信息分解成多个第二元素;根据所述第二模态信息的第二特征信息,计算每个所述第一元素与所述第二模态信息的第一相似度,并根据所述第一模态信息的第一特征信息,计算每个所述第二元素与所述第一模态信息的第二相似度;根据所述多个第一元素的多个第一相似度和所述多个第二元素的多个第二相似度,计算所述第一模态信息和所述第二模态信息的整体相似度;根据所述整体相似度,对齐所述第一模态信息和所述第二模态信息。2.根据权利要求1所述的跨模态对齐方法,其中,所述第一特征信息包括第一特征向量矩阵,所述第一特征向量矩阵每行由每个第一元素的特征向量对应生成,所述第二特征信息包括第二特征向量矩阵,所述第二特征向量矩阵每行由每个第二元素的特征向量对应生成。3.根据权利要求2所述的跨模态对齐方法,其中,所述根据所述第二模态信息的第二特征信息,计算每个所述第一元素与所述第二模态信息的第一相似度,并根据所述第一模态信息的第一特征信息,计算每个所述第二元素与所述第一模态信息的第二相似度,包括:计算每个第一元素与每个第二元素之间的相似度,得到交叉相似度矩阵;将所述交叉相似度矩阵每行及每列中的多个相似度数值转化成权重系数,得到第一权重系数矩阵及第二权重系数矩阵;采用所述第一权重系数矩阵对所述第二特征向量矩阵进行加权计算,得到第二加权特征向量矩阵;采用所述第二权重系数矩阵对所述第一特征向量矩阵进行加权计算,得到第一加权特征向量矩阵;计算所述第二加权特征向量矩阵中的行向量与所述第一特征向量矩阵中对应的行向量之间的相似度,得到每个所述第一元素与所述第二模态信息的第一相似度;计算所述第一加权特征向量矩阵中的行向量与所述第二特征向量矩阵中对应的行向量之间的相似度,得到每个所述第二元素与所述第一模态信息的第二相似度。4.根据权利要求1所述的跨模态对齐方法,其中,所述根据所述多个第一元素的多个第一相似度和所述多个第二元素的多个第二相似度,计算所述第一模态信息和所述第二模态信息的整体相似度,包括:根据所述多个第一相似度,优化所述第一特征信息;根据所述多个第二相似度,优化所述第二特征信息;根据优化后的所述第一特征信息和所述第二特征信息,计算所述整体相似度。5.根据权利要求4所述的跨模态对齐方法,其中,其中,所述根据所述多个第一相似度,优化所述第一特征信息,包括:根据所述多个第一相似度,优化所述第一特征信息的第一特征向量矩阵,得到所述第一模态信息的第一全局特征向量;其中,所述根据所...

【专利技术属性】
技术研发人员:柳儒杨黄靖佳何栋梁吴兴龙
申请(专利权)人:北京字跳网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1