当前位置: 首页 > 专利查询>湖南大学专利>正文

基于强化学习的对抗性视频时刻检索方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:25948789 阅读:26 留言:0更新日期:2020-10-17 03:40
本发明专利技术提供一种基于强化学习的对抗性视频时刻检索方法、装置、计算机设备和存储介质,输入完整视频和查询语句作为强化学习代理的环境信息;提取所述环境信息的查询语句特征、全局视频特征、位置特征和局部视频特征构成当前的视频时刻片段的状态;所述强化学习代理根据所述状态作出在所述时序边界移动的动作,获取执行所述动作的奖励以及根据所述奖励输出若干个更新的时序边界和局部视频特征,所述时序边界为更新后当前的视频时刻候选片段;通过贝叶斯个性化排序方法对所述时序边界和所述查询语句进行匹配,输出匹配分值,并将所述匹配分值作为奖励返回所述强化学习代理;通过对抗学习相互增强,直到收敛,得到对应所述查询语句的视频时刻片段。

【技术实现步骤摘要】
基于强化学习的对抗性视频时刻检索方法、装置、计算机设备和存储介质
本专利技术涉及视频时刻检索领域,尤其涉及一种基于强化学习的对抗性视频时刻检索方法、装置、计算机设备和存储介质。
技术介绍
视频检索,旨在从一组可能的视频集合中检索与查询语句文本所描述语义最相关的视频。由于现代生活节奏的加快和信息的不断增加,迫切需要快速找到最符合人们实际需求的相关信息,特别是在视频领域,人们已经越来越更希望浏览一个与他们的兴趣相匹配的短视频时刻而不是整个视频。为了满足这一需求,出现了在语言查询下的视频时刻检索任务,其目的是定位与查询语句语义最相关视频时刻的开始点和结束点。现有的视频时刻检索方法,如“通过语言查询的视频时刻定位”,其主要的步骤有:1、抽取视频片段特征和查询语句的特征;2、将视频片段特征和查询语句进行多模态处理,得到更丰富的语义信息;3、多层感知机分别预测视频和句子的匹配度分数和时间偏置。此方法是基于查询语句,从候选集合中选出最匹配的视频片段并增加时间偏置,其中候选集是通过滑动窗口策略切分生成的,然而为了满足定位的精确性,这种策略往往需要密集的切分,所以非常耗时,无法满足动态查询的需求,这要求视频片段的长度是变长的而不是固定的。另一方面,使用时间偏置虽然可以使定位不受限于窗口的大小,但是对偏置的预测不够稳定反而会损害到返回给查询的视频片段质量。还有通过“阅读、观察和移动:视频中根据自然语言描述的时刻定位强化学习”,主要的步骤有:1、输入完整视频和查询语句成为强化学习代理的环境;2、抽取视频全局特征,视频片段特征,视频片段定位信息和查询文本的特征构成当前时刻的状态;3、强化学习代理根据当前状态输出对定位边界移动的动作,不断重复直至定位逐渐收敛。基于强化学习实现视频时刻定位的工作是引入强化学习的第一份工作,它能摆脱对于滑动窗口候选的依赖,实现更精准的定位。但是对代理奖励的设计却没有太多的探索。现有基于强化学习的方法借助每次定位边界移动前后的交并比(IoU)来计算,这是缺乏语义探索的并且固定的奖励值导致模型缓慢和不稳定的收敛。总结来说,现有的两大类处理视频时刻检索的方法主要有两大类:基于滑动窗口候选集的排序方法和基于强化学习的定位方法以及基于滑动窗口候选集的排序方法是预先使用滑动窗口的策略将视频进行切分生成候选集,然后对候选集进行与查询文本的匹配,根据匹配度排序得到结果。显然这种方法产生了过多的片段,耗时较长,所以有学者引入强化学习把问题抽象成了一个连续性决策问题去直接定位(视频的开始帧和结束帧),尽管他们也取得了很好的效果,但对代理的奖励设计却没有太多的探索,这些方法往往不是稳定的。基于滑动窗口候选集的排序方法和基于强化学习的定位方法各有利弊,排序方法擅长对众多视频时刻候选进行排序,但无法形成一定数量的合理候选集耗时过大,而定位方法则利用强化学习代理来控制来定位边界,但不能应用于大规模检索场景效率较低。因此,有必要提供一种改进的视频时刻检索方法以解决上述问题。
技术实现思路
本专利技术克服了现有技术的不足,提供了一种基于强化学习的对抗性视频时刻检索方法、装置、计算机设备和存储介质。为达到上述目的,本专利技术解决其技术问题所采用的技术方案:提供一种基于强化学习的对抗性视频时刻检索方法,包括如下步骤:S1:输入完整视频v和查询语句q作为强化学习代理的环境信息;S2:提取所述环境信息的查询语句特征fq、全局视频特征fg、位置特征It和与所述位置特征It对应的局部视频特征fIt构成当前的视频时刻片段的状态st=[fq,fg,It,fIt],其中,t为时间步骤,位置特征It为初始的时序边界It;S3:所述强化学习代理根据所述状态st作出在所述时序边界It移动的动作at,获取执行所述动作at的奖励rt以及根据所述奖励rt输出若干个更新的时序边界It+1和与所述时序边界It+1对应的局部视频特征fIt+1,重新构成当前的视频时刻片段的状态s',此时,所述时序边界It+1为更新后当前的视频时刻候选片段;S4:通过贝叶斯个性化排序方法对所述时序边界It和所述查询语句q进行匹配,输出匹配分值,并将所述匹配分值作为奖励rt返回所述强化学习代理;S5:所述强化学习代理和所述贝叶斯个性排序方法通过对抗学习相互增强,直到收敛,得到对应所述查询语句q的视频时刻片段I=(Is,Ie),其中,Is为视频起始时刻,Ie为视频结束时刻。优选的,在步骤S3中,还包括:通过深度确定性策略梯度算法更新所述强化学习代理以输出若干个更新的时序边界It+1,所述深度确定性策略梯度算法由评论家网络、演员网络、评论家网络参数滞后网络以及演员网络参数滞后网络构成,所述评论家网络根据所述奖励rt判断所述动作at是否为最优动作,所述演员网络用于执行所述最优动作以获得更新的时序边界lt+1,所述评论家网络参数滞后网络以及所述演员网络参数滞后网络通过软更新方法更新各自滞后网络的参数。优选的,所述评论家网络通过最小化损失函数L来学习与最优策略π对应的动作值函数Q(s,a):L(ω)=Es,a,r,s'~M[(Q(s,a|ω)-r+γmaxQ*(s',a'|ω*))2]其中,Q(s,a)是所述评论家网络的动作值函数,ω是所述动作值函数Q(s,a)的变化参数,γ是所述动作值函数Q(s,a)的折扣因子,用于平衡所述奖励rt和所述动作值函数Q(s,a)的预估值之间的重要性,Q*是预设的参数滞后网络,ω*是Q*的变化参数,[s,a,r,s']均从记忆库M中采样获得,以从过去的经验中获得启示,s是未更新的视频时刻片段的状态,a是未更新的动作,a'是更新后的动作,当所述动作值函数Q(s,a)最逼近所述最优策略π时,所述强化学习代理将获得最大奖励。优选的,所述演员网络执行动作a=π(s;θ)更新所述时序边界It,通过损失函数J求所述动作值函数Q(s,a)增大方向的导数,以使所述动作值函数Q(s,a)取得最大值,求导后的策略梯度为:其中,μ为确定性策略梯度,θ为所述确定性策略梯度μ的参数。优选的,在步骤S4中,包括:S41:所述查询语句q包括标记的真实视频时刻τ=(τs、τe),提取所述查询语句q、时序边界It和真实视频时刻τ的特征,其中,τs为标记的真实视频起始时刻,τe为标记的真实视频结束时刻;S42:通过预设公共空间以及所述查询语句q的特征、时序边界It的特征和所述真实视频时刻τ的特征获取所述查询语句q的映射函数、时序边界It的映射函数以及所述真实视频时刻τ的映射函数;S43:通过元素级乘法、元素级加法和全连接获取所述查询语句q的映射函数和所述时序边界It的映射函数结合函数以及所述查询语句q的映射函数和所述真实视频时刻τ的映射函数结合函数;S44:根据所述查询语句q的映射函数和所述时序边界It的映射函数结合函数以及根据所述查询语句q的映射函数和所述真实视频时刻τ的映射函数结合函数,输出更新的时序边界It中接近所述真实视频时刻τ的本文档来自技高网
...

【技术保护点】
1.一种基于强化学习的对抗性视频时刻检索方法,其特征在于,包括:/nS1:输入完整视频v和查询语句q作为强化学习代理的环境信息;/nS2:提取所述环境信息的查询语句特征f

【技术特征摘要】
1.一种基于强化学习的对抗性视频时刻检索方法,其特征在于,包括:
S1:输入完整视频v和查询语句q作为强化学习代理的环境信息;
S2:提取所述环境信息的查询语句特征fq、全局视频特征fg、位置特征It和与所述位置特征It对应的局部视频特征fIt构成当前的视频时刻片段的状态st=[fq,fg,It,fIt],其中,t为时间步骤,位置特征It为初始的时序边界It;
S3:所述强化学习代理根据所述状态st作出在所述时序边界It移动的动作at,获取执行所述动作at的奖励rt以及根据所述奖励rt输出若干个更新的时序边界It+1和与所述时序边界It+1对应的局部视频特征fIt+1,重新构成当前的视频时刻片段的状态s',此时,所述时序边界It+1为更新后当前的视频时刻候选片段;
S4:通过贝叶斯个性化排序方法对所述时序边界It和所述查询语句q进行匹配,输出匹配分值,并将所述匹配分值作为奖励rt返回所述强化学习代理;
S5:所述强化学习代理和所述贝叶斯个性排序方法通过对抗学习相互增强,直到收敛,得到对应所述查询语句q的视频时刻片段I=(Is,Ie),其中,Is为视频起始时刻,Ie为视频结束时刻。


2.根据权利要求1所述的基于强化学习的对抗性视频时刻检索方法,其特征在于,在步骤S3中,还包括:通过深度确定性策略梯度算法更新所述强化学习代理以输出若干个更新的时序边界It+1,所述深度确定性策略梯度算法由评论家网络、演员网络、评论家网络参数滞后网络以及演员网络参数滞后网络构成,所述评论家网络根据所述奖励rt判断所述动作at是否为最优动作,所述演员网络用于执行所述最优动作以获得更新的时序边界lt+1,所述评论家网络参数滞后网络以及所述演员网络参数滞后网络通过软更新方法更新各自滞后网络的参数。


3.根据权利要求2所述的基于强化学习的对抗性视频时刻检索方法,其特征在于,所述评论家网络通过最小化损失函数L来学习与最优策略π对应的动作值函数Q(s,a):
L(ω)=Es,a,r,s'~M[(Q(s,a|ω)-r+γmaxQ*(s',a'|ω*))2]
其中,Q(s,a)是所述评论家网络的动作值函数,ω是所述动作值函数Q(s,a)的变化参数,γ是所述动作值函数Q(s,a)的折扣因子,用于平衡所述奖励rt和所述动作值函数Q(s,a)的预估值之间的重要性,Q*是预设的参数滞后网络,ω*是Q*的变化参数,[s,a,r,s']均从记忆库M中采样获得,以从过去的经验中获得启示,s是未更新的视频时刻片段的状态,a是未更新的动作,a'是更新后的动作,当所述动作值函数Q(s,a)最逼近所述最优策略π时,所述强化学习代理将获得最大奖励。


4.根据权利要求3所述的基于强化学习的对抗性视频时刻检索方法,其特征在于,所述演员网络执行动作a=π(s;θ)更新所述时序边界It,通过损失函数J求所述动作值函数Q(s,a)增大方向的导数,以使所述动作值函数Q(s,a)取得最大值,求导后的策略梯度为:



其中,μ为确定性策略梯度,θ为所述确定性策略梯度μ的参数。


5.根据权利要求1所述的基于强化学习的对抗性视频时刻检索方法,其特征在于,在步骤S4中,包括:
S41:所述查询语句q包括标记的真实视频时刻τ=(τs、τe),提取所述查询语句q、时序边界It和真实视频时刻τ的特征,其中,τs为标记的真实...

【专利技术属性】
技术研发人员:曹达曾雅文荣辉桂朱宁波陈浩秦拯
申请(专利权)人:湖南大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1