视频片段检索方法、装置、电子设备及存储介质制造方法及图纸

技术编号：24331329 阅读：43 留言：0更新日期：2020-05-29 19:42

本申请公开了视频片段检索方法、装置、电子设备及存储介质，涉及视频处理技术领域。具体实现方案为：采用视频片段检索模型中的视频级检索模块根据用户输入的检索信息从视频库中检索最相关的目标视频；采用所述视频片段检索模型中的片段定位模块从所述目标视频中定位与所述检索信息最相关的目标视频片段。本申请的技术方案可以实现片段粒度的视频检索，与现有技术的视频级的检索相比，能够有效地提高视频检索的准确性和检索效率。

全部详细技术资料下载

【技术实现步骤摘要】
视频片段检索方法、装置、电子设备及存储介质
本申请涉及计算机
，尤其涉及视频处理
，具体涉及一种视频片段检索方法、装置、电子设备及存储介质。
技术介绍
随着视频类业务的丰富，越来越多的场景中涉及到视频级的检索。目前的视频级的检索，主要是根据用户输入的Query文本，检索到最相关的视频。该类方法一般是将整个视频采用神经网络提取出视频特征，将Query文本用另一个神经网络提取出文本特征，针对文本特征，对视频库中的所有视频特征进行相关性排序，找到与Query文本最相关的视频，并返回给用户。但是在搜索视频时，用户输入的Query文本往往是仅和视频中的一个片段相关，并且用户也经常仅对视频中的某一个片段感兴趣。按照上述的视频检测方案都只能得到整个视频，不能定位到视频中、与Query文本最相关视频片段，因此，现有的视频检索的准确性不高。
技术实现思路
为了解决上述技术问题，本申请提供一种视频片段检索方法、装置、电子设备及存储介质，用于提高视频检索的准确性。一方面，本申请提供一种视频片段检索方法，包括：采用视频片段检索模型中的视频级检索模块根据用户输入的检索信息从视频库中检索最相关的目标视频；采用所述视频片段检索模型中的片段定位模块从所述目标视频中定位与所述检索信息最相关的目标视频片段。进一步可选地，如上所述的方法中，采用视频片段检索模型中的视频级检索模块根据用户输入的检索信息从视频库中检索最相关的目标视频，包括：基于预先训练好的帧特征提取模型和...

【技术保护点】
1.一种视频片段检索方法，其特征在于，包括：/n采用视频片段检索模型中的视频级检索模块根据用户输入的检索信息从视频库中检索最相关的目标视频；/n采用所述视频片段检索模型中的片段定位模块从所述目标视频中定位与所述检索信息最相关的目标视频片段。/n

【技术特征摘要】
1.一种视频片段检索方法，其特征在于，包括：
采用视频片段检索模型中的视频级检索模块根据用户输入的检索信息从视频库中检索最相关的目标视频；
采用所述视频片段检索模型中的片段定位模块从所述目标视频中定位与所述检索信息最相关的目标视频片段。

2.根据权利要求1所述的方法，其特征在于，采用视频片段检索模型中的视频级检索模块根据用户输入的检索信息从视频库中检索最相关的目标视频，包括：
基于预先训练好的帧特征提取模型和第一注意力机制模块，获取所述视频库中各视频的视频级特征；
基于所述检索信息，提取相应的文本特征；
分别计算各所述视频的所述视频级特征和所述文本特征的相关性；
从所述视频库中获取所述相关性最大的所述视频，作为最相关的目标视频。

3.根据权利要求2所述的方法，其特征在于，基于预先训练好的帧特征提取模型和第一注意力机制模块，获取所述视频库中各视频的视频级特征，包括：
对于所述视频库中各所述视频，采用所述帧特征提取模型，获取各视频帧的帧级别的特征；
根据各所述视频的各所述帧级别的特征和所述第一注意力机制模块，获取对应的所述视频的视频级特征。

4.根据权利要求3所述的方法，其特征在于，根据各所述视频的各所述帧级别的特征和所述第一注意力机制模块，获取对应的所述视频的视频级特征，包括：
将各所述视频的各所述帧级别特征按照在所述视频中的先后顺序输入至所述第一注意力机制模块，由所述第一注意力机制模块基于各所述视频帧的帧级别特征，融合所述视频的所述视频级特征，并输出。

5.根据权利要求2所述的方法，其特征在于，基于所述检索信息，提取相应的文本特征，包括：
将所述检索信息中的每个词进行嵌入表达后，输入至预先训练的文本特征提取模型中，获得对应的所述文本特征。

6.根据权利要求1所述的方法，其特征在于，采用所述视频片段检索模型中的片段定位模块从所述目标视频中定位与所述检索信息最相关的目标视频片段，包括：
将所述目标视频的各视频帧的帧级别的特征和所述检索信息的文本特征进行拼接得到帧级别的拼接特征；
将各所述帧级别的拼接特征，输入至预先训练好的第二注意力机制模块，获取所述第二注意力机制模块输出的、与所述检索信息最相关的所述目标视频片段的起止位置。

7.一种视频片段检索模型的训练方法，其特征在于，包括：
采集数条训练视频数据；
采用所述数条训练视频数据，对视频片段检索模型进行训练，所述视频片段检索模型包括视频级检索模块、片段定位模块和联合排序模块。

8.根据权利要求7所述的方法，其特征在于，各条所述训练视频数据中包括训练检索信息、数个训练视频、以及人工标注的所述数个训练视频中与所述训练检索信息最相关的训练视频中、与所述训练检索信息最相关的训练视频片段。

9.根据权利要求8所述的方法，其特征在于，采用所述数条训练视频数据，对视频片段检索模型进行训练，包括：
对于各条所述训练数据，采用所述视频级检索模块从所述数个训练视频中检索出所述训练检索信息最相关的N个候选训练视频；
采用所述片段定位模块从各所述候选训练视频中定位与所述训练检索信息最相关的候选视频片段，共得到N个候选视频片段；
采用所述联合排序模块对所述N个候选视频片段与所述训练检索信息的相关度进行排序，并获取与所述训练检索信息最相关的候选视频片段；
检测获取到的所述最相关的候选视频片段与标注的所述最相关的训练视频片段是否一致；
若不一致，调整所述视频级检索模块和所述片段定位模块的参数，使得获取到的所述最相关的候选视频片段趋于与标注的所述最相关的训练视频片段一致。

10.根据权利要求9所述的方法，其特征在于，采用所述联合排序模块对所述N个候选视频片段与所述训练检索信息的相关度进行排序，并获取与所述训练检索信息最相关的候选视频片段，包括：
获取所述N个候选视频片段中各所述候选视频片段的片段级特征；
获取所述训练检索信息的文本特征；
计算各所述候选视频片段的所述片段级特征与所述训练检索信息的文本特征的相关度；
从所述N个候选视频片段中获取所述相关度最大的所述候选视频片段，作为与所述训练检索信息最相关的候选视频片段。

11.根据权利要求7所述的方法，其特征在于，各条所述训练视频数据中包括数条训练检索信息、训练视频、人工标注的所述数条训练检索信息中与所述训练视频最相关的训练检索信息、以及所述训练视频中与所述最相关的训练检索信息最相关的训练视频片段。

12.根据权利要求11所述的方法，其特征在于，采用所述数条训练视频数据，对视频片段检索模型进行训练，包括：
对于各条所述训练数据，采用所述视频级检索模块从所述数条训练检索信息中检索出所述训练视频最相关的N条候选训练检索信息；
采用所述片段定位模块从所述训练视频中定位与各条所述候选训练检索信息最相关的候选视频片段，共得到N个候选视频片段；
采用所述联合排序模块对所述N个候选视频片段与所述训练视频的相关度进行排序，并获取与所述训练视频最相关的候选视频片段；
检测获取到的所述最相关的候选视频片段与标注的所述最相关的训练视频片段是否一致；
若不一致，调整所述视频级检索模块和所述片段定位模块的参数，使得获取到的所述最相关的候选视频片段趋于与标注的所述最相关的训练视频片段一致。

13.根据权利要求12所述的方法，其特征在于，采用所述联合排序模块对所述N个候选视频片段与所述训练视频的相关度进行排序，并获取与所述训练视频最相关的候选视频片段，包括：
获取所述N个候选视频片段中各所述候选视频片段的片段级特征；
获取所述训练视频的视频级特征；
计算各所述候选视频片段的所述片段级特征与所述训练视频的视频级特征的相关度；
从所述N个候选视频片段中获取所述相关度最大的所述候选视频片段，作为与所...

【专利技术属性】
技术研发人员：龙翔，周志超，李甫，何栋梁，王平，迟至真，赵翔，孙昊，文石磊，丁二锐，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人