基于强化学习的对抗性视频时刻检索方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：25948789 阅读：26 留言：0更新日期：2020-10-17 03:40

本发明专利技术提供一种基于强化学习的对抗性视频时刻检索方法、装置、计算机设备和存储介质，输入完整视频和查询语句作为强化学习代理的环境信息；提取所述环境信息的查询语句特征、全局视频特征、位置特征和局部视频特征构成当前的视频时刻片段的状态；所述强化学习代理根据所述状态作出在所述时序边界移动的动作,获取执行所述动作的奖励以及根据所述奖励输出若干个更新的时序边界和局部视频特征，所述时序边界为更新后当前的视频时刻候选片段；通过贝叶斯个性化排序方法对所述时序边界和所述查询语句进行匹配，输出匹配分值，并将所述匹配分值作为奖励返回所述强化学习代理；通过对抗学习相互增强，直到收敛，得到对应所述查询语句的视频时刻片段。

全部详细技术资料下载

【技术实现步骤摘要】
基于强化学习的对抗性视频时刻检索方法、装置、计算机设备和存储介质
本专利技术涉及视频时刻检索领域，尤其涉及一种基于强化学习的对抗性视频时刻检索方法、装置、计算机设备和存储介质。
技术介绍
视频检索，旨在从一组可能的视频集合中检索与查询语句文本所描述语义最相关的视频。由于现代生活节奏的加快和信息的不断增加，迫切需要快速找到最符合人们实际需求的相关信息，特别是在视频领域，人们已经越来越更希望浏览一个与他们的兴趣相匹配的短视频时刻而不是整个视频。为了满足这一需求，出现了在语言查询下的视频时刻检索任务，其目的是定位与查询语句语义最相关视频时刻的开始点和结束点。现有的视频时刻检索方法，如“通过语言查询的视频时刻定位”，其主要的步骤有：1、抽取视频片段特征和查询语句的特征；2、将视频片段特征和查询语句进行多模态处理，得到更丰富的语义信息；3、多层感知机分别预测视频和句子的匹配度分数和时间偏置。此方法是基于查询语句，从候选集合中选出最匹配的视频片段并增加时间偏置，其中候选集是通过滑动窗口策略切分生成的，然而为了满足定位的精确性，这种策略往往需要密集的切分，所以非常耗时，无法满足动态查询的需求，这要求视频片段的长度是变长的而不是固定的。另一方面，使用时间偏置虽然可以使定位不受限于窗口的大小，但是对偏置的预测不够稳定反而会损害到返回给查询的视频片段质量。还有通过“阅读、观察和移动：视频中根据自然语言描述的时刻定位强化学习”，主要的步骤有：1、输入完整视频和查询语句成为强化学习代理的环境；2、抽取视频全局...

【技术保护点】
1.一种基于强化学习的对抗性视频时刻检索方法，其特征在于，包括：/nS1：输入完整视频v和查询语句q作为强化学习代理的环境信息；/nS2：提取所述环境信息的查询语句特征f

【技术特征摘要】
1.一种基于强化学习的对抗性视频时刻检索方法，其特征在于，包括：
S1：输入完整视频v和查询语句q作为强化学习代理的环境信息；
S2：提取所述环境信息的查询语句特征fq、全局视频特征fg、位置特征It和与所述位置特征It对应的局部视频特征fIt构成当前的视频时刻片段的状态st＝[fq,fg,It,fIt]，其中，t为时间步骤，位置特征It为初始的时序边界It；
S3：所述强化学习代理根据所述状态st作出在所述时序边界It移动的动作at,获取执行所述动作at的奖励rt以及根据所述奖励rt输出若干个更新的时序边界It+1和与所述时序边界It+1对应的局部视频特征fIt+1，重新构成当前的视频时刻片段的状态s'，此时，所述时序边界It+1为更新后当前的视频时刻候选片段；
S4：通过贝叶斯个性化排序方法对所述时序边界It和所述查询语句q进行匹配，输出匹配分值，并将所述匹配分值作为奖励rt返回所述强化学习代理；
S5：所述强化学习代理和所述贝叶斯个性排序方法通过对抗学习相互增强，直到收敛，得到对应所述查询语句q的视频时刻片段I＝(Is，Ie)，其中，Is为视频起始时刻，Ie为视频结束时刻。

2.根据权利要求1所述的基于强化学习的对抗性视频时刻检索方法，其特征在于，在步骤S3中，还包括：通过深度确定性策略梯度算法更新所述强化学习代理以输出若干个更新的时序边界It+1，所述深度确定性策略梯度算法由评论家网络、演员网络、评论家网络参数滞后网络以及演员网络参数滞后网络构成，所述评论家网络根据所述奖励rt判断所述动作at是否为最优动作，所述演员网络用于执行所述最优动作以获得更新的时序边界lt+1，所述评论家网络参数滞后网络以及所述演员网络参数滞后网络通过软更新方法更新各自滞后网络的参数。

3.根据权利要求2所述的基于强化学习的对抗性视频时刻检索方法，其特征在于，所述评论家网络通过最小化损失函数L来学习与最优策略π对应的动作值函数Q(s，a)：
L(ω)＝Es,a,r,s'～M[(Q(s,a|ω)-r+γmaxQ*(s',a'|ω*))2]
其中，Q(s，a)是所述评论家网络的动作值函数，ω是所述动作值函数Q(s，a)的变化参数，γ是所述动作值函数Q(s，a)的折扣因子，用于平衡所述奖励rt和所述动作值函数Q(s，a)的预估值之间的重要性，Q*是预设的参数滞后网络，ω*是Q*的变化参数，[s,a,r,s']均从记忆库M中采样获得，以从过去的经验中获得启示，s是未更新的视频时刻片段的状态，a是未更新的动作，a'是更新后的动作，当所述动作值函数Q(s，a)最逼近所述最优策略π时，所述强化学习代理将获得最大奖励。

4.根据权利要求3所述的基于强化学习的对抗性视频时刻检索方法，其特征在于，所述演员网络执行动作a＝π(s；θ)更新所述时序边界It，通过损失函数J求所述动作值函数Q(s，a)增大方向的导数，以使所述动作值函数Q(s，a)取得最大值，求导后的策略梯度为：

其中，μ为确定性策略梯度，θ为所述确定性策略梯度μ的参数。

5.根据权利要求1所述的基于强化学习的对抗性视频时刻检索方法，其特征在于，在步骤S4中，包括：
S41：所述查询语句q包括标记的真实视频时刻τ＝(τs、τe)，提取所述查询语句q、时序边界It和真实视频时刻τ的特征，其中，τs为标记的真实...

【专利技术属性】
技术研发人员：曹达，曾雅文，荣辉桂，朱宁波，陈浩，秦拯，
申请(专利权)人：湖南大学，
类型：发明
国别省市：湖南;43

全部详细技术资料下载我是这个专利的主人