当前位置: 首页 > 专利查询>山东大学专利>正文

视频片段检索方法、视频片段检索模型的训练方法及装置制造方法及图纸

技术编号:30652677 阅读:49 留言:0更新日期:2021-11-04 01:15
本公开关于一种视频片段检索方法、视频片段检索模型的训练方法、装置、电子设备及存储介质,该方法包括:获取待查询视频的视频特征和检索文本的文本特征;将视频特征和文本特征输入预先训练的视频片段检索模型,得到待查询视频中与检索文本匹配的候选视频片段;其中,预先训练的视频片段检索模型,为根据样本视频、样本文本以及与样本文本匹配的目标候选视频片段对待训练的视频片段检索模型进行训练得到的;其中,目标候选视频片段从候选样本视频片段库中获取,候选样本视频片段库中包括按照多种时长划分标准对样本视频进行划分得到的多组候选样本视频片段。采用本方法,有利于提高得到的目标视频片段的准确率。提高得到的目标视频片段的准确率。提高得到的目标视频片段的准确率。

【技术实现步骤摘要】
视频片段检索方法、视频片段检索模型的训练方法及装置


[0001]本公开涉及视频处理
,尤其涉及一种视频片段检索方法、视频片段检索模型的训练方法、视频片段检索方法、装置、电子设备及存储介质。

技术介绍

[0002]随着互联网技术的发展,视频数量呈爆炸式增长,尤其短视频和直播视频;为了从这些视频中快速检索得到感兴趣的目标视频片段,视频片段检索任务得到了广泛的研究关注。
[0003]相关技术中,目前的视频片段检索方法,一般是通过滑动窗口将视频划分为多种尺度的候选视频片段,并根据候选视频片段和查询文本对神经网络进行训练,以通过训练好的神经网络输出目标视频片段;但是,不同的目标视频片段的持续时间长度不一样,通过采用滑动窗口的机制,预先生成多尺度的候选视频片段,灵活性较低,难以覆盖尽可能多的潜在视频片段,导致通过神经网络检索得到的目标视频片段的准确率较低。

技术实现思路

[0004]本公开提供一种视频片段检索方法、视频片段检索模型的训练方法、装置、电子设备及存储介质,以至少解决相关技术中得到的目标视频片段的准确率较低的问题。本公开的技术方案如下:
[0005]根据本公开实施例的第一方面,提供一种视频片段检索方法,包括:
[0006]获取待查询视频的视频特征和检索文本的文本特征;
[0007]将所述视频特征和所述文本特征输入预先训练的视频片段检索模型,得到所述待查询视频中与所述检索文本匹配的候选视频片段;
[0008]其中,所述预先训练的视频片段检索模型,为根据样本视频、样本文本以及与所述样本文本匹配的目标候选视频片段对待训练的视频片段检索模型进行训练得到的;其中,所述目标候选视频片段从候选样本视频片段库中获取,所述候选样本视频片段库中包括按照多种时长划分标准对所述样本视频进行划分得到的多组候选样本视频片段,其中,每组候选样本视频片段中包括采用一种时长划分标准对所述样本视频进行划分得到的多个候选样本视频片段;不同组候选样本视频片段之间采用的时长划分标准不同。
[0009]在一示例性实施例中,所述获取待查询视频的视频特征和检索文本的文本特征,包括:
[0010]获取待查询视频的视觉特征和所述检索文本的初始文本特征;
[0011]对所述视觉特征进行映射处理,得到所述待查询视频的视频特征,以及对所述初始文本特征进行映射处理,得到处理后的初始文本特征;
[0012]通过注意力机制,对所述处理后的初始文本特征进行再次映射处理,得到所述检索文本的文本特征;所述文本特征和所述视频特征对应的特征矩阵的结构相同,且在特征矩阵中的对应位置上存在语义关联。
[0013]在一示例性实施例中,所述通过注意力机制,对所述处理后的初始文本特征进行再次映射处理,得到所述检索文本的文本特征,包括:
[0014]通过注意力机制,获取所述视频特征中每个视频帧的特征与所述处理后的初始文本特征中各单词的特征之间的注意力权重;
[0015]根据每个视频帧的特征与所述处理后的初始文本特征中各单词的特征之间的注意力权重,对所述各单词的特征进行加权求和,得到针对于每个视频帧的文本特征;
[0016]将针对于每个视频帧的文本特征进行组合,得到所述检索文本的文本特征。
[0017]在一示例性实施例中,所述预先训练的视频片段检索模型通过下述方式训练得到:
[0018]获取样本视频的样本视频特征和样本文本的样本文本特征;
[0019]将所述样本视频特征和所述样本文本特征输入待训练的视频片段检索模型,得到所述样本视频的各候选样本视频片段与所述样本文本之间的匹配度情况;
[0020]根据所述匹配度情况,从所述各候选样本视频片段中筛选出与所述样本文本匹配的目标候选视频片段;
[0021]根据所述目标候选视频片段与所述样本文本之间的匹配度情况确定损失值,根据所述损失值对所述待训练的视频片段检索模型进行训练,得到训练完成的视频片段检索模型。
[0022]在一示例性实施例中,在将所述样本视频特征和所述样本文本特征输入待训练的视频片段检索模型,得到所述样本视频的各候选样本视频片段与所述样本文本之间的匹配度情况之后,还包括:
[0023]通过所述待训练的视频片段检索模型,得到所述各候选样本视频片段的时间信息;所述时间信息包括对应的候选样本视频片段的开始时间和结束时间;
[0024]所述根据所述匹配度情况,从所述各候选样本视频片段中筛选出与所述样本文本匹配的预测样本视频片段,包括:
[0025]获取所述各候选样本视频片段中,任意两个候选样本视频片段的时间信息之间的时序交并比;
[0026]根据所述匹配度情况和所述时序交并比,得到各候选样本视频片段与所述样本文本之间的目标匹配度情况;
[0027]从所述各候选样本视频片段中筛选出所述目标匹配度情况最大的候选样本视频片段,作为与所述样本文本匹配的目标候选视频片段。
[0028]在一示例性实施例中,所述根据所述匹配度情况和所述时序交并比,得到各候选样本视频片段与所述样本文本之间的目标匹配度情况,包括:
[0029]针对每个候选样本视频片段,将所述候选样本视频片段与除所述候选样本视频片段之外的其余候选样本视频片段的时间信息之间的时序交并比,进行归一化处理,得到所述其余候选样本视频片段的匹配度情况的权重;
[0030]根据所述权重,对所述其余候选样本视频片段的匹配度情况进行加权求和处理,得到所述其余候选样本视频片段的匹配度情况总和;
[0031]将所述候选样本视频片段的匹配度情况和所述匹配度情况总和进行相加,得到所述候选样本视频片段与所述样本文本之间的目标匹配度情况。
[0032]在一示例性实施例中,所述根据所述预测样本视频片段与所述样本文本之间的匹配度情况确定损失值,包括:
[0033]将所述目标候选视频片段与除所述目标候选视频片段之外的其余候选样本视频片段的时间信息之间的时序交并比,进行归一化处理,得到所述其余候选样本视频片段的目标匹配度情况的权重;
[0034]根据所述权重,对所述其余候选样本视频片段的目标匹配度情况进行加权求和处理,得到所述其余候选样本视频片段的目标匹配度情况总和;
[0035]将所述目标候选视频片段的目标匹配度情况和所述目标匹配度情况总和进行相加,得到所述目标候选视频片段与所述样本文本之间的匹配情况;
[0036]根据所述匹配情况和预设阈值确定所述损失值。
[0037]在一示例性实施例中,所述根据所述损失值对所述待训练的视频片段检索模型进行训练,得到训练完成的视频片段检索模型,包括:
[0038]若所述损失值大于或者等于预设损失值,则根据所述损失值调整所述待训练的视频片段检索模型的模型参数;
[0039]对模型参数调整后的视频片段检索模型进行反复训练,直到根据训练后的视频片段检索模型得到的损失值小于所述预设损失值,则将所述训练后的视频片段检索模型,作为所述训练完成的视本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频片段检索方法,其特征在于,所述方法包括:获取待查询视频的视频特征和检索文本的文本特征;将所述视频特征和所述文本特征输入预先训练的视频片段检索模型,得到所述待查询视频中与所述检索文本匹配的候选视频片段;其中,所述预先训练的视频片段检索模型,为根据样本视频、样本文本以及与所述样本文本匹配的目标候选视频片段对待训练的视频片段检索模型进行训练得到的;其中,所述目标候选视频片段从候选样本视频片段库中获取,所述候选样本视频片段库中包括按照多种时长划分标准对所述样本视频进行划分得到的多组候选样本视频片段,其中,每组候选样本视频片段中包括采用一种时长划分标准对所述样本视频进行划分得到的多个候选样本视频片段;不同组候选样本视频片段之间采用的时长划分标准不同。2.根据权利要求1所述的视频片段检索方法,其特征在于,所述获取待查询视频的视频特征和检索文本的文本特征,包括:获取待查询视频的视觉特征和所述检索文本的初始文本特征;对所述视觉特征进行映射处理,得到所述待查询视频的视频特征,以及对所述初始文本特征进行映射处理,得到处理后的初始文本特征;通过注意力机制,对所述处理后的初始文本特征进行再次映射处理,得到所述检索文本的文本特征;所述文本特征和所述视频特征对应的特征矩阵的结构相同,且在特征矩阵中的对应位置上存在语义关联。3.根据权利要求2所述的视频片段检索方法,其特征在于,所述通过注意力机制,对所述处理后的初始文本特征进行再次映射处理,得到所述检索文本的文本特征,包括:通过注意力机制,获取所述视频特征中每个视频帧的特征与所述处理后的初始文本特征中各单词的特征之间的注意力权重;根据每个视频帧的特征与所述处理后的初始文本特征中各单词的特征之间的注意力权重,对所述各单词的特征进行加权求和,得到针对于每个视频帧的文本特征;将针对于每个视频帧的文本特征进行组合,得到所述检索文本的文本特征。4.根据权利要求1所述的视频片段检索方法,其特征在于,所述预先训练的视频片段检索模型通过下述方式训练得到:获取样本视频的样本视频特征和样本文本的样本文本特征;将所述样本视频特征和所述样本文本特征输入待训练的视频片段检索模型,得到所述样本视频的各候选样本视频片段与所述样本文本之间的匹配度情况;根据所述匹配度情况,从所述各候选样本视频片段中筛选出与所述样本文本匹配的目标候选视频片段;根据所述目标候选视频片段与所述样本文本之间的匹配度情况确定损失值,根据所述损失值对所述待训练的视频片段检索模型进行训练,得到训练完成的视频片段检索模型。5.一种视频片段检索模型的训练方法,其特征在于,所述方法包括:获取样本视频的样本视频特征和样本文本的样本文本特征;将所述样本视频特征和所述样本文本特征输入待训练的视频片段检索模型,得到所述样本视频的各候选样本视频片段与所述样本文本之间的匹配度情况;其中,所述各候选样本视频片段中包括按照多种时长划分标准对所述样本视频进行划分得到的多组候选样本
视频片段,其中,每组候选样本视频片段中包括采用一种时长划分标准对所述样本视频进...

【专利技术属性】
技术研发人员:聂礼强刘萌王蕴潇程志勇王英龙雷小强李岩
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1