跨模态特征提取、检索以及模型的训练方法、装置及介质制造方法及图纸

技术编号:35638276 阅读:24 留言:0更新日期:2022-11-19 16:28
本公开提供了一种跨模态特征提取、检索以及模型的训练方法、装置及介质,涉及人工智能技术领域,具体涉及深度学习、图像处理、计算机视觉技术领域。具体实现方案为:获取待处理数据,所述待处理数据对应至少两类第一模态;在述待处理数据中确定第二模态的第一数据,所述第二模态为所述第一模态中的任一类模态;对所述第一数据进行语义实体提取,得到语义实体;基于所述第一数据和所述语义实体,并采用预先训练的跨模态特征提取模型,获取所述第一数据的语义编码特征。本公开的技术,能够有效地提高跨模态应用中的特征提取的准确性,进而提高跨模态应用如跨模态检索的效率。跨模态应用如跨模态检索的效率。跨模态应用如跨模态检索的效率。

【技术实现步骤摘要】
跨模态特征提取、检索以及模型的训练方法、装置及介质


[0001]本公开涉及人工智能
,具体涉及深度学习、图像处理、计算机视觉
,尤其涉及一种跨模态特征提取、检索以及模型的训练方法、装置及介质。

技术介绍

[0002]近年来短视频应用吸引了互联网中的一大部分流量,这一现象一方面使得互联网中产生了大量的视频内容,有了大量的数据积累,另一方面如何从海量的视频中检索到用户所需的对应内容,以及如何识别用户生产的视频内容,使其在后续能够被更好的利用,获得更加准确的流量引流和内容分类管理等,都对视频理解和视频领域的跨模态检索技术都提出了新的要求。
[0003]基于视频和文本的跨模态的检索方案中,需要分别获取视频的特征和对应的文本的特征,进而实现跨模态检索。其中视频的特征基于视频特征融合的方法来实现。例如,可以先提取视频的不同类型特征,如音频、自动语音识别(Automatic Speech Recognition;ASR)文本、物体检测、动作识别等特征。对于每种类型的特征使用专用的特征提取器来提取。接下来,再通过多种类型特征融合,得到视频的全局特征。与此同时,使用专用编码器提取文本的特征。最后,在公共的全局语义空间进行语义特征对齐,得到跨模态的语义相似度,进而实现检索。

技术实现思路

[0004]本公开提供了一种跨模态特征提取、检索以及模型的训练方法、装置及介质。
[0005]根据本公开的一方面,提供了一种跨模态特征提取方法,包括:
[0006]获取待处理数据,所述待处理数据对应至少两类第一的各模态信息;
[0007]在所述待处理数据中确定第二模态的第一数据,所述第二模态为所述第一模态中的任一类模态;
[0008]对于各所述模态信息,对所述第一数据模态信息进行语义实体提取,得到所述模态信息对应的多个语义实体;
[0009]对于各所述模态信息,基于所述模态信息第一数据以及对应的和所述多个语义实体,并采用预先训练的跨模态特征提取模型,获取所述模态信息第一数据的语义编码特征。
[0010]根据本公开的另一方面,提供了一种跨模态检索方法,包括:
[0011]对查询信息进行语义实体提取,得到多至少两个第一语义实体;所述查询信息为对应第一模态的信息;
[0012]从获取数据库中获取的各条数据的第二模态的信息第一信息;所述第二模态与所述第一模态不相同;
[0013]基于所述查询信息和对应的所述多个第一语义实体基于所述查询信息、所述第一语义实体、所述数据库中的各条所述数据的所述第二模态的信息第一信息、和预先训练的跨模态特征提取模型,在所述数据库中进行跨模态的检索,得到与所述查询信息对应的检
索结果信息,所述检索结果信息对应所述第二模态。
[0014]根据本公开的再一方面,提供了一种跨模态特征提取模型的训练方法,包括:
[0015]采集获取包括至少两条训练数据的多条训练数据组,各条所述训练数据对应至少两类第一模态中包括各模态信息;;
[0016]在所述训练数据组中确定第二模态的第一数据和第三模态的第二数据,所述第二模态和所述第三模态分别为所述第一模态的任一类模态;且所述第二模态与所述第三模态不同;
[0017]对于各所述训练数据中的各所述模态信息,对所述模态信息第一数据和所述第二数据分别进行语义实体抽取,得到至少两个多个第一训练语义实体和至少两个第二训练语义实体;
[0018]基于所述多条第一训练数据中各所述训练数据对应的各所述模态信息以及、对应的所述多个至少两个第一训练语义实体、所述第二数据和所述至少两个第二训练语义实体,对跨模态特征提取模型进行训练。
[0019]根据本公开的再另一方面,提供了一种跨模态特征提取装置,包括:
[0020]数据获取模块,用于获取待处理数据的各模态信息获取待处理数据,所述待处理数据对应至少两类第一模态;
[0021]数据确定模块,用于在所述待处理数据中确定第二模态的第一数据,所述第二模态为所述第一模态中的任一类模态;
[0022]实体提取模块,用于对于各所述模态信息,对所述模态信息进行语义实体提取,得到所述模态信息对应的多个语义实体对所述第一数据进行语义实体提取,得到语义实体;
[0023]特征获取模块,用于对于各所述模态信息,基于所述模态信息以及对应的所述多个语义实体,采用预先训练的跨模态特征提取模型,获取所述模态信息的语义编码特征基于所述第一数据和所述语义实体,并采用预先训练的跨模态特征提取模型,获取所述第一数据的语义编码特征。根据本公开的再另一方面,提供了一种跨模态检索装置,包括:
[0024]实体提取模块,用于对查询信息进行语义实体提取,得到至少两个第一语义实体;所述查询信息对应第一模态对查询信息进行语义实体提取,得到多个第一语义实体;所述查询信息为第一模态的信息;
[0025]信息获取模块,用于从数据库中获取第二模态的第一信息;所述第二模态与所述第一模态不相同获取数据库中的各条数据的第二模态的信息;所述第二模态与所述第一模态不相同;
[0026]检索模块,用于基于所述查询信息、所述第一语义实体、所述第一信息、和预先训练的跨模态特征提取模型,在所述数据库中进行跨模态的检索,得到与所述查询信息对应的检索结果信息,所述检索结果信息对应所述第二模态基于所述查询信息和对应的所述多个第一语义实体、所述数据库中的各条所述数据的所述第二模态的信息和预先训练的跨模态特征提取模型,在所述数据库中进行跨模态的检索。
[0027]根据本公开的再另一方面,提供了一种跨模态特征提取模型的训练装置,包括:
[0028]采集获取模块,用于获取包括至少两条训练数据的训练数据组,所述训练数据对应至少两类第一模态;采集多条训练数据,各条所述训练数据中包括各模态信息;
[0029]确定模块,用于在所述训练数据组中确定第二模态的第一数据和第三模态的第二
数据,所述第二模态和所述第三模态分别为所述第一模态的任一类模态;且所述第二模态与所述第三模态不同;
[0030]实体抽取模块,用于对于各所述训练数据中的各所述模态信息,对所述模态信息进行语义实体抽取,得到多个训练语义实体;对所述第一数据和所述第二数据分别进行语义实体抽取,得到至少两个第一训练语义实体和至少两个第二训练语义实体;
[0031]训练模块,用于基于所述多条训练数据中各所述训练数据对应的各所述模态信息以及对应的所述多个训练语义实体,对跨模态特征提取模型进行训练。基于所述第一数据、所述至少两个第一训练语义实体、所述第二数据和所述至少两个第二训练语义实体,对跨模态特征提取模型进行训练。
[0032]根据本公开的再另一方面,提供了一种电子设备,包括:
[0033]至少一个处理器;以及
[0034]与所述至少一个处理器通信连接的存储器;其中,
[0035]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种跨模态应用中的特征提取方法,包括:获取待处理数据,所述待处理数据对应至少两类第一模态;在所述待处理数据中确定第二模态的第一数据,所述第二模态为所述第一模态中的任一类模态;对所述第一数据进行语义实体提取,得到语义实体;基于所述第一数据和所述语义实体,并采用预先训练的跨模态特征提取模型,获取所述第一数据的语义编码特征。2.根据权利要求1所述的方法,其中,所述第二模态为视频模态;所述对所述第一数据进行语义实体提取,得到语义实体,包括:采用预先训练的语义实体提取模型,提取所述第一数据中各视频帧的所述语义实体。3.根据权利要求1所述的方法,其中,所述第二模态为文本模态;所述对所述第一数据进行语义实体提取,得到语义实体,包括:对所述第一数据中各词语进行语义角色标注;基于所述语义角色,获取所述语义实体。4.根据权利要求1

3任一所述的方法,其中,所述基于所述第一数据和所述语义实体,并采用预先训练的跨模态特征提取模型,获取所述第一数据的语义编码特征,包括:基于所述语义实体,并采用所述跨模态特征提取模型中的实体编码模块,获取所述第一数据的语义实体编码特征;基于所述第一数据,并采用所述跨模态特征提取模型中的全局语义特征提取模块,获取所述第一数据的全局语义特征;基于所述语义实体编码特征、所述全局语义特征、和预设的权重配比,并采用所述跨模态特征提取模型中的融合模块,获取所述第一数据的语义编码特征。5.根据权利要求4所述的方法,其中,若所述语义实体的数量包括至少两个时,所述基于所述语义实体,并采用所述跨模态特征提取模型中的实体编码模块,获取所述第一数据的语义实体编码特征,包括:基于各所述语义实体,并采用所述实体编码模块,获取各所述语义实体的编码特征和对应的注意力信息;基于各所述语义实体的编码特征和对应的注意力信息,获取所述第一数据的语义实体编码特征。6.一种跨模态检索方法,包括:对查询信息进行语义实体提取,得到至少两个第一语义实体;所述查询信息对应第一模态;从数据库中获取第二模态的第一信息;所述第二模态与所述第一模态不相同;基于所述查询信息、所述第一语义实体、所述第一信息、和预先训练的跨模态特征提取模型,在所述数据库中进行跨模态的检索,得到与所述查询信息对应的检索结果信息,所述检索结果信息对应所述第二模态。7.根据权利要求6所述的方法,其中,所述基于所述查询信息、所述第一语义实体、所述第一信息、和预先训练的跨模态特征提取模型,在所述数据库中进行跨模态的检索,得到与所述查询信息对应的检索结果信息,包括:
基于所述查询信息和所述第一语义实体,并采用所述跨模态特征提取模型,获取所述查询信息的第一语义编码特征;获取所述第一信息的第二语义编码特征;基于所述第一语义编码特征和所述第二语义编码特征,在所述数据库中进行跨模态的检索,得到所述检索结果信息。8.根据权利要求7所述的方法,其中,所述获取所述第一信息的第二语义编码特征,包括:对所述第一信息进行语义实体提取,得到至少两个第二语义实体;基于所述第一信息和所述第二语义实体,并采用所述跨模态特征提取模型,获取所述第二语义编码特征。9.根据权利要求7所述的方法,其中,所述获取所述第一信息的第二语义编码特征,包括:从所述数据库中获取所述第二语义编码特征。10.根据权利要求9所述的方法,其中,所述方法还包括:对所述第一信息进行语义实体提取,得到所述第二语义实体;基于所述第一信息和所述第二语义实体,并采用所述跨模态特征提取模型,获取所述第二语义编码特征;将所述语义编码特征存储在所述数据库中。11.根据权利要求10所述的方法,其中,所述方法还包括:在所述数据库中获取所述第一模态对应的第二信息;对所述第二信息进行语义实体提取,得到至少两个第三语义实体;基于所述第二信息和所述第三语义实体,并采用所述跨模态特征提取模型,获取所述第二信息的第三语义编码特征;将所述第三语义编码特征存储在所述数据库中。12.一种跨模态特征提取模型的训练方法,包括:获取包括至少两条训练数据的训练数据组,所述训练数据对应至少两类第一模态;在所述训练数据组中确定第二模态的第一数据和第三模态的第二数据,所述第二模态和所述第三模态分别为所述第一模态的任一类模态;且所述第二模态与所述第三模态不同;对所述第一数据和所述第二数据分别进行语义实体抽取,得到至少两个第一训练语义实体和至少两个第二训练语义实体;基于所述第一数据、所述至少两个第一训练语义实体、所述第二数据和所述至少两个第二训练语义实体,对跨模态特征提取模型进行训练。13.根据权利要求12所述的方法,其中,基于所述第一数据、所述至少两个第一训练语义实体、所述第二数据和所述至少两个第二训练语义实体,对跨模态特征提取模型进行训练,包括:基于所述第一数据和所述至少两个第一训练语义实体,采用所述跨模态特征提取模型,获取所述第一数据的语义编码特征;基于所述第二数据和所述至少两个第二训练语义实体,采用所述跨模态特征提取模
型,获取所述第二数据的语义编码特征;基于所述第一数据的语义编码特征和所述第二数据的语义编码特征,构建跨模态检索的损失函数;若所述损失函数不收敛,调整所述跨模态特征提取模型的参数。14.根据权利要求13所述的方法,其中,基于所述第一数据的语义编码特征和所述第二数据的语义编码特征,构建跨模态检索的损失函数,包括:基于所述第一数据的语义编码特征和所述第二数据的语义编码特征,,分别构建第二模态到第三模态进行信息检索的第一子损失函数和第三模态到第二模态进行信息检索的第二子损失函数;将所述第一子损失函数和所述第二子损失函数相加,得到所述跨模态检索的损失函数。15.一种跨模态应用中的特征提取装置,包括:数据获取模块,用于获取待处理数据,所述待处理数据对应至少两类第一模态;数据确定模块,用于在所述待处理数据中确定第二模态的第一数据,所述第二模态为所述第一模态中的任一类模态;实体提取模块,用于对所述第一数据...

【专利技术属性】
技术研发人员:汪浩然何栋梁李甫丁二锐
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1