跨模态特征提取、检索以及模型的训练方法、装置及介质制造方法及图纸

技术编号：35638276 阅读：24 留言：0更新日期：2022-11-19 16:28

本公开提供了一种跨模态特征提取、检索以及模型的训练方法、装置及介质，涉及人工智能技术领域，具体涉及深度学习、图像处理、计算机视觉技术领域。具体实现方案为：获取待处理数据，所述待处理数据对应至少两类第一模态；在述待处理数据中确定第二模态的第一数据，所述第二模态为所述第一模态中的任一类模态；对所述第一数据进行语义实体提取，得到语义实体；基于所述第一数据和所述语义实体，并采用预先训练的跨模态特征提取模型，获取所述第一数据的语义编码特征。本公开的技术，能够有效地提高跨模态应用中的特征提取的准确性，进而提高跨模态应用如跨模态检索的效率。跨模态应用如跨模态检索的效率。跨模态应用如跨模态检索的效率。

全部详细技术资料下载

【技术实现步骤摘要】
跨模态特征提取、检索以及模型的训练方法、装置及介质

[0001]本公开涉及人工智能
，具体涉及深度学习、图像处理、计算机视觉
，尤其涉及一种跨模态特征提取、检索以及模型的训练方法、装置及介质。

技术介绍

[0002]近年来短视频应用吸引了互联网中的一大部分流量，这一现象一方面使得互联网中产生了大量的视频内容，有了大量的数据积累，另一方面如何从海量的视频中检索到用户所需的对应内容，以及如何识别用户生产的视频内容，使其在后续能够被更好的利用，获得更加准确的流量引流和内容分类管理等，都对视频理解和视频领域的跨模态检索技术都提出了新的要求。
[0003]基于视频和文本的跨模态的检索方案中，需要分别获取视频的特征和对应的文本的特征，进而实现跨模态检索。其中视频的特征基于视频特征融合的方法来实现。例如，可以先提取视频的不同类型特征，如音频、自动语音识别(Automatic Speech Recognition；ASR)文本、物体检测、动作识别等特征。对于每种类型的特征使用专用的特征提取器来提取。接下来，再通过多种类型特征融合，得到视频的全局特征。与此同时，使用专用编码器提取文本的特征。最后，在公共的全局语义空间进行语义特征对齐，得到跨模态的语义相似度，进而实现检索。

技术实现思路

[0004]本公开提供了一种跨模态特征提取、检索以及模型的训练方法、装置及介质。
[0005]根据本公开的一方面，提供了一种跨模态特征提取方法，包括：
[0006]获取待处理数据，所述待处理数据对应至...

【技术保护点】

【技术特征摘要】
1.一种跨模态应用中的特征提取方法，包括：获取待处理数据，所述待处理数据对应至少两类第一模态；在所述待处理数据中确定第二模态的第一数据，所述第二模态为所述第一模态中的任一类模态；对所述第一数据进行语义实体提取，得到语义实体；基于所述第一数据和所述语义实体，并采用预先训练的跨模态特征提取模型，获取所述第一数据的语义编码特征。2.根据权利要求1所述的方法，其中，所述第二模态为视频模态；所述对所述第一数据进行语义实体提取，得到语义实体，包括：采用预先训练的语义实体提取模型，提取所述第一数据中各视频帧的所述语义实体。3.根据权利要求1所述的方法，其中，所述第二模态为文本模态；所述对所述第一数据进行语义实体提取，得到语义实体，包括：对所述第一数据中各词语进行语义角色标注；基于所述语义角色，获取所述语义实体。4.根据权利要求1
‑
3任一所述的方法，其中，所述基于所述第一数据和所述语义实体，并采用预先训练的跨模态特征提取模型，获取所述第一数据的语义编码特征，包括：基于所述语义实体，并采用所述跨模态特征提取模型中的实体编码模块，获取所述第一数据的语义实体编码特征；基于所述第一数据，并采用所述跨模态特征提取模型中的全局语义特征提取模块，获取所述第一数据的全局语义特征；基于所述语义实体编码特征、所述全局语义特征、和预设的权重配比，并采用所述跨模态特征提取模型中的融合模块，获取所述第一数据的语义编码特征。5.根据权利要求4所述的方法，其中，若所述语义实体的数量包括至少两个时，所述基于所述语义实体，并采用所述跨模态特征提取模型中的实体编码模块，获取所述第一数据的语义实体编码特征，包括：基于各所述语义实体，并采用所述实体编码模块，获取各所述语义实体的编码特征和对应的注意力信息；基于各所述语义实体的编码特征和对应的注意力信息，获取所述第一数据的语义实体编码特征。6.一种跨模态检索方法，包括：对查询信息进行语义实体提取，得到至少两个第一语义实体；所述查询信息对应第一模态；从数据库中获取第二模态的第一信息；所述第二模态与所述第一模态不相同；基于所述查询信息、所述第一语义实体、所述第一信息、和预先训练的跨模态特征提取模型，在所述数据库中进行跨模态的检索，得到与所述查询信息对应的检索结果信息，所述检索结果信息对应所述第二模态。7.根据权利要求6所述的方法，其中，所述基于所述查询信息、所述第一语义实体、所述第一信息、和预先训练的跨模态特征提取模型，在所述数据库中进行跨模态的检索，得到与所述查询信息对应的检索结果信息，包括：
基于所述查询信息和所述第一语义实体，并采用所述跨模态特征提取模型，获取所述查询信息的第一语义编码特征；获取所述第一信息的第二语义编码特征；基于所述第一语义编码特征和所述第二语义编码特征，在所述数据库中进行跨模态的检索，得到所述检索结果信息。8.根据权利要求7所述的方法，其中，所述获取所述第一信息的第二语义编码特征，包括：对所述第一信息进行语义实体提取，得到至少两个第二语义实体；基于所述第一信息和所述第二语义实体，并采用所述跨模态特征提取模型，获取所述第二语义编码特征。9.根据权利要求7所述的方法，其中，所述获取所述第一信息的第二语义编码特征，包括：从所述数据库中获取所述第二语义编码特征。10.根据权利要求9所述的方法，其中，所述方法还包括：对所述第一信息进行语义实体提取，得到所述第二语义实体；基于所述第一信息和所述第二语义实体，并采用所述跨模态特征提取模型，获取所述第二语义编码特征；将所述语义编码特征存储在所述数据库中。11.根据权利要求10所述的方法，其中，所述方法还包括：在所述数据库中获取所述第一模态对应的第二信息；对所述第二信息进行语义实体提取，得到至少两个第三语义实体；基于所述第二信息和所述第三语义实体，并采用所述跨模态特征提取模型，获取所述第二信息的第三语义编码特征；将所述第三语义编码特征存储在所述数据库中。12.一种跨模态特征提取模型的训练方法，包括：获取包括至少两条训练数据的训练数据组，所述训练数据对应至少两类第一模态；在所述训练数据组中确定第二模态的第一数据和第三模态的第二数据，所述第二模态和所述第三模态分别为所述第一模态的任一类模态；且所述第二模态与所述第三模态不同；对所述第一数据和所述第二数据分别进行语义实体抽取，得到至少两个第一训练语义实体和至少两个第二训练语义实体；基于所述第一数据、所述至少两个第一训练语义实体、所述第二数据和所述至少两个第二训练语义实体，对跨模态特征提取模型进行训练。13.根据权利要求12所述的方法，其中，基于所述第一数据、所述至少两个第一训练语义实体、所述第二数据和所述至少两个第二训练语义实体，对跨模态特征提取模型进行训练，包括：基于所述第一数据和所述至少两个第一训练语义实体，采用所述跨模态特征提取模型，获取所述第一数据的语义编码特征；基于所述第二数据和所述至少两个第二训练语义实体，采用所述跨模态特征提取模
型，获取所述第二数据的语义编码特征；基于所述第一数据的语义编码特征和所述第二数据的语义编码特征，构建跨模态检索的损失函数；若所述损失函数不收敛，调整所述跨模态特征提取模型的参数。14.根据权利要求13所述的方法，其中，基于所述第一数据的语义编码特征和所述第二数据的语义编码特征，构建跨模态检索的损失函数，包括：基于所述第一数据的语义编码特征和所述第二数据的语义编码特征，，分别构建第二模态到第三模态进行信息检索的第一子损失函数和第三模态到第二模态进行信息检索的第二子损失函数；将所述第一子损失函数和所述第二子损失函数相加，得到所述跨模态检索的损失函数。15.一种跨模态应用中的特征提取装置，包括：数据获取模块，用于获取待处理数据，所述待处理数据对应至少两类第一模态；数据确定模块，用于在所述待处理数据中确定第二模态的第一数据，所述第二模态为所述第一模态中的任一类模态；实体提取模块，用于对所述第一数据...

【专利技术属性】
技术研发人员：汪浩然，何栋梁，李甫，丁二锐，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人