当前位置: 首页 > 专利查询>中山大学专利>正文

一种语言描述引导的视频时序定位方法技术

技术编号:24498053 阅读:25 留言:0更新日期:2020-06-13 03:50
本发明专利技术公开了一种语言描述引导的视频时序定位方法,包括如下步骤:步骤S1,提取跨模态特征的多模态特征编码网络,以用于学习视频和自然语言的跨模态信息,获得所输入的语言和视觉模态的多模态融合表征;步骤S2,采用层次化的树状结构策略,对跨模态信息进行层次化分解;步骤S3,采用渐进强化学习机制,通过两个任务导向的奖励来提供正确的学分分配,鼓励树状结构中的不同策略的相互促进,本发明专利技术通过基于树结构的渐进强化学习框架来模拟人类由粗到精的决策过程,可以有效地分解复杂的动作策略,在增加搜索空间的同时减少搜索步骤的数量,以更合理的方式获得更令人印象深刻的结果。

A method of video timing location guided by language description

【技术实现步骤摘要】
一种语言描述引导的视频时序定位方法
本专利技术涉及计算机视觉
,特别是涉及一种基于树状结构和渐进强化学习来实现语言描述引导的视频时序定位方法。
技术介绍
自然语言的视频时序定位这一任务是计算机视觉和视频分析领域新兴的又具有挑战性的任务。其目标是确定未修剪视频中与给定自然语言对应的片段的时间边界。该任务与动作时序定位任务十分相关的,与动作时序定位任务相比,该任务更具挑战性:1)其不仅没有预定义的动作列表与标签,而且可能包含复杂的描述。2)该任务需要模型能够建立语言模态与视觉模态的关系,对多模态特征进行建模,对自然语言和视频内容有深入的理解。自然语言的视频时序定位任务涉及到视频分析、多模态表示、多模态交互、信息检索等许多高层的人工智能任务。基于时间滑动窗口的遍历排序方法近年来在该领域取得了非常好的成绩。该方法首先通过设置滑动窗口来生成大量的候选边界框,接着把候选边界的视频信息送到匹配网络中得到置信度得分,最后根据置信度得分来获得整个视频的定位/预测结果。然而,该方法依赖于外部滑动窗口的匹配和排序,导致了效率低下,边界框的不灵活性和额外的空间消耗,而且该方法也偏离了人的感知机制。
技术实现思路
为克服上述现有技术存在的不足,本专利技术之目的在于提供一种语言描述引导的视频时序定位方法,以通过基于树结构的渐进强化学习框架来模拟人类由粗到精的决策过程,可以有效地分解复杂的动作策略,在增加搜索空间的同时减少搜索步骤的数量,以更合理的方式获得更令人印象深刻的结果。为达上述目的,本专利技术提出一种语言描述引导的视频时序定位方法,包括如下步骤:步骤S1,提取跨模态特征的多模态特征编码网络,以用于学习视频和自然语言的跨模态信息,获得所输入的语言和视觉模态的多模态融合表征;步骤S2,采用层次化的树状结构策略,对跨模态信息进行层次化分解;步骤S3,采用渐进强化学习机制,通过两个任务导向的奖励来提供正确的学分分配,鼓励树状结构中的不同策略的相互促进。优选地,步骤S1进一步包括:步骤S100,利用3D卷积神经网络提取输入视频的全局和当前边界框内视频的局部特征;步骤S101,利用Skip-thought技术提取自然语言描述的全局表示;步骤S102,根据上述特征,利用门关注机制提取语言和视觉模态的多模态融合表征。优选地,于步骤S1中,利用3D卷积神经网络提取输入视频的全局特征Vg和当前边界框内视频的局部表示然后利用Skip-thought技术来提取自然语言描述的全局表示E,最后采用门注意力机制来获取多模态表示:其中,和是分别表示全局与局部的多模态关注表示,σ是激活函数logisticsigmoid,表示向量点乘。优选地,于步骤S2中,所述树状结构策略包含根策略和叶策略,所述根策略决定主要依赖哪个子叶策略,叶策略对应于五个高级语义分支,所选的语义分支通过相应的子网络推理一个该分支下更加精炼的动作。优选地,所述五个高级语义分支分别为尺度变化,左显著移动,右显著移动,左精细调整以及右精细调整。优选地,步骤S3进一步包括:步骤S300,利用外部奖赏训练叶策略的actor分支;步骤S301,用MSE损失函数训练叶策略的critic分支;步骤S302,利用外部奖赏和内部奖赏相结合的方法来训练根策略的actor分支;步骤S303,利用MSE损失函数训练根策略的critic分支;步骤S304,基于渐进强化学习机制,根据迭代次数计算目前选择的策略并训练。优选地,于步骤S300中,所述叶策略的奖励函数揭示了原始动作对当前环境的影响,其在外部环境中直接获得:其中ε代表的是奖励系数,Ut代表的是当前时刻的IoU大小。优选地,所述根策略的奖励函数设计如下:为遍历所有可能的分支,并将相应的原始操作推理到环境中,生成5个不同的IoU中的最大IoU。优选地,于步骤S304中,所述渐进强化学习机制为:对于每一组k迭代,渐进强化学习保持一个策略固定,只训练另一个策略,当达到k次迭代时,它会切换训练的策略。优选地,基于树形结构策略的渐进强化学习的交替训练过程概括为:其中是一个指示训练策略选择的二进制变量,i表示整个训练过程中的迭代次数,是取除法运算的下限整数,mod是模函数,Lleaf为训练所述叶策略的损失函数,Lroot为训练所述根策略的损失函数。与现有技术相比,本专利技术一种语言描述引导的视频时序定位方法通过提取跨模态特征的多模态特征编码网络,学习视频和自然语言的跨模态信息以获得语言和视觉模态的多模态融合表征,并采用层次化的树状结构策略,对跨模态信息进行层次化分解,最后采用渐进强化学习机制,通过两个任务导向的奖励来提供正确的学分分配,鼓励树状结构中的不同策略的相互促进,本可以有效地分解复杂的动作策略,在增加搜索空间的同时减少搜索步骤的数量,以更合理的方式获得更令人印象深刻的结果。附图说明图1为本专利技术一种语言描述引导的视频时序定位方法的步骤流程图;图2为本专利技术具体实施例中语言描述引导的视频时序定位的流程图。具体实施方式以下通过特定的具体实例并结合附图说明本专利技术的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本专利技术的其它优点与功效。本专利技术亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本专利技术的精神下进行各种修饰与变更。图1为本专利技术一种语言描述引导的视频时序定位方法的步骤流程图,图2为本专利技术具体实施例中语言描述引导的视频时序定位的流程图。如图1及图2所示,本专利技术一种语言描述引导的视频时序定位方法,包括如下步骤:步骤S1,提取跨模态特征的多模态特征编码网络,以用于学习视频和自然语言的跨模态信息,获得所输入的语言和视觉模态的多模态融合表征。在本专利技术具体实施例中,利用3D卷积网络提取视频的全局与局部特征,利用Skip-thought来提取自然语言的全局信息,并将门关注机制应用到上述特征获得语言和视觉模态的多模态融合表征。在本专利技术中,所述自然语言为描述视频中某个时刻的发生的事情,本专利技术的任务则是根据该自然语言定位视频的片段。具体地,步骤S1进一步包括:步骤S100,利用C3D(一种3D卷积神经网络)提取输入视频的全局和当前边界框内视频的局部特征;步骤S101,利用Skip-thought技术提取自然语言描述的全局表示;步骤S102,根据上述特征,利用门关注机制提取所述自然语言和视觉模态的多模态融合表征。具体地,于本步骤中,利用C3D的fc6层中提取输入视频的全局特征Vg和当前边界框内视频的局部表示接着利用Skip-thought技术来提取自然语言描述的全局表示E,最后采用门注意力机制来获取多模态表示:其中,和是分别表示全局与局部的多模态关本文档来自技高网...

【技术保护点】
1.一种语言描述引导的视频时序定位方法,包括如下步骤:/n步骤S1,提取跨模态特征的多模态特征编码网络,以用于学习视频和自然语言的跨模态信息,获得所输入的语言和视觉模态的多模态融合表征;/n步骤S2,采用层次化的树状结构策略,对跨模态信息进行层次化分解;/n步骤S3,采用渐进强化学习机制,通过两个任务导向的奖励来提供正确的学分分配,鼓励树状结构中的不同策略的相互促进。/n

【技术特征摘要】
1.一种语言描述引导的视频时序定位方法,包括如下步骤:
步骤S1,提取跨模态特征的多模态特征编码网络,以用于学习视频和自然语言的跨模态信息,获得所输入的语言和视觉模态的多模态融合表征;
步骤S2,采用层次化的树状结构策略,对跨模态信息进行层次化分解;
步骤S3,采用渐进强化学习机制,通过两个任务导向的奖励来提供正确的学分分配,鼓励树状结构中的不同策略的相互促进。


2.如权利要求1所述的一种语言描述引导的视频时序定位方法,其特征在于,步骤S1进一步包括:
步骤S100,利用3D卷积神经网络提取输入视频的全局和当前边界框内视频的局部特征;
步骤S101,利用Skip-thought技术提取自然语言描述的全局表示;
步骤S102,根据上述特征,利用门关注机制提取语言和视觉模态的多模态融合表征。


3.如权利要求2所述的一种语言描述引导的视频时序定位方法,其特征在于:于步骤S1中,利用3D卷积神经网络提取输入视频的全局特征Vg和当前边界框内视频的局部表示然后利用Skip-thought技术来提取自然语言描述的全局表示E,最后采用门注意力机制来获取多模态表示:






其中,和分别表示全局与局部的多模态关注表示,σ是激活函数logisticsigmoid,⊙表示向量点乘。


4.如权利要求3所述的一种语言描述引导的视频时序定位方法,其特征在于:于步骤S2中,所述树状结构策略包含根策略和叶策略,所述根策略决定主要依赖哪个子叶策略,叶策略对应于五个高级语义分支,所选的语义分支通过相应的子网络推理一个该分支下更加精炼的动作。


5.如权利要求4所述的一种语言描述引导的视频时序定位方法,其特征在于:所述五个高级语义分支分别为尺度变化,左显著移动,右显著移动,左精细调整以及右精细调...

【专利技术属性】
技术研发人员:李冠彬吴捷林倞
申请(专利权)人:中山大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1