一种语言描述引导的视频时序定位方法技术

技术编号：24498053 阅读：25 留言：0更新日期：2020-06-13 03:50

本发明专利技术公开了一种语言描述引导的视频时序定位方法，包括如下步骤：步骤S1，提取跨模态特征的多模态特征编码网络，以用于学习视频和自然语言的跨模态信息，获得所输入的语言和视觉模态的多模态融合表征；步骤S2，采用层次化的树状结构策略，对跨模态信息进行层次化分解；步骤S3,采用渐进强化学习机制，通过两个任务导向的奖励来提供正确的学分分配，鼓励树状结构中的不同策略的相互促进，本发明专利技术通过基于树结构的渐进强化学习框架来模拟人类由粗到精的决策过程，可以有效地分解复杂的动作策略，在增加搜索空间的同时减少搜索步骤的数量，以更合理的方式获得更令人印象深刻的结果。

A method of video timing location guided by language description

全部详细技术资料下载

【技术实现步骤摘要】
一种语言描述引导的视频时序定位方法
本专利技术涉及计算机视觉
，特别是涉及一种基于树状结构和渐进强化学习来实现语言描述引导的视频时序定位方法。
技术介绍
自然语言的视频时序定位这一任务是计算机视觉和视频分析领域新兴的又具有挑战性的任务。其目标是确定未修剪视频中与给定自然语言对应的片段的时间边界。该任务与动作时序定位任务十分相关的，与动作时序定位任务相比，该任务更具挑战性：1)其不仅没有预定义的动作列表与标签，而且可能包含复杂的描述。2)该任务需要模型能够建立语言模态与视觉模态的关系，对多模态特征进行建模，对自然语言和视频内容有深入的理解。自然语言的视频时序定位任务涉及到视频分析、多模态表示、多模态交互、信息检索等许多高层的人工智能任务。基于时间滑动窗口的遍历排序方法近年来在该领域取得了非常好的成绩。该方法首先通过设置滑动窗口来生成大量的候选边界框，接着把候选边界的视频信息送到匹配网络中得到置信度得分，最后根据置信度得分来获得整个视频的定位/预测结果。然而，该方法依赖于外部滑动窗口的匹配和排序，导致了效率低下，边界框的不灵活性和额外的空间消耗，而且该方法也偏离了人的感知机制。
技术实现思路
为克服上述现有技术存在的不足，本专利技术之目的在于提供一种语言描述引导的视频时序定位方法，以通过基于树结构的渐进强化学习框架来模拟人类由粗到精的决策过程，可以有效地分解复杂的动作策略，在增加搜索空间的同时减少搜索步骤的数量，以更合理的方式获得更令人印象深刻的结果。为达上述目的，本专利技术提出...

【技术保护点】
1.一种语言描述引导的视频时序定位方法，包括如下步骤：/n步骤S1，提取跨模态特征的多模态特征编码网络，以用于学习视频和自然语言的跨模态信息，获得所输入的语言和视觉模态的多模态融合表征；/n步骤S2，采用层次化的树状结构策略，对跨模态信息进行层次化分解；/n步骤S3,采用渐进强化学习机制，通过两个任务导向的奖励来提供正确的学分分配，鼓励树状结构中的不同策略的相互促进。/n

【技术特征摘要】
1.一种语言描述引导的视频时序定位方法，包括如下步骤：
步骤S1，提取跨模态特征的多模态特征编码网络，以用于学习视频和自然语言的跨模态信息，获得所输入的语言和视觉模态的多模态融合表征；
步骤S2，采用层次化的树状结构策略，对跨模态信息进行层次化分解；
步骤S3,采用渐进强化学习机制，通过两个任务导向的奖励来提供正确的学分分配，鼓励树状结构中的不同策略的相互促进。

2.如权利要求1所述的一种语言描述引导的视频时序定位方法，其特征在于，步骤S1进一步包括：
步骤S100，利用3D卷积神经网络提取输入视频的全局和当前边界框内视频的局部特征；
步骤S101，利用Skip-thought技术提取自然语言描述的全局表示；
步骤S102，根据上述特征，利用门关注机制提取语言和视觉模态的多模态融合表征。

3.如权利要求2所述的一种语言描述引导的视频时序定位方法，其特征在于:于步骤S1中，利用3D卷积神经网络提取输入视频的全局特征Vg和当前边界框内视频的局部表示然后利用Skip-thought技术来提取自然语言描述的全局表示E，最后采用门注意力机制来获取多模态表示：

其中，和分别表示全局与局部的多模态关注表示，σ是激活函数logisticsigmoid，⊙表示向量点乘。

4.如权利要求3所述的一种语言描述引导的视频时序定位方法，其特征在于:于步骤S2中，所述树状结构策略包含根策略和叶策略，所述根策略决定主要依赖哪个子叶策略，叶策略对应于五个高级语义分支，所选的语义分支通过相应的子网络推理一个该分支下更加精炼的动作。

5.如权利要求4所述的一种语言描述引导的视频时序定位方法，其特征在于:所述五个高级语义分支分别为尺度变化，左显著移动，右显著移动，左精细调整以及右精细调...

【专利技术属性】
技术研发人员：李冠彬，吴捷，林倞，
申请(专利权)人：中山大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人