一种基于全局-局部感知动作目标生成视频描述的方法技术

技术编号：42679302 阅读：16 留言：0更新日期：2024-09-10 12:30

本发明专利技术公开了一种基于全局‑局部感知动作目标生成视频描述的方法，包括步骤：数据准备，给定一段视频，2D、3D‑CNN从视频中提取的多模态特征；区域特征的抽取，目标检测器从输入视频片段中提取局部区域特征；特征编码，组件提取编码器Cxe映射一个区域特征；特征解码，组件提取‑解码器Cxd然后生成词性标记，即主题、谓词、对象；最后，训练生成视频描述内容。本方法克服现孤立的视频帧可能会受到运动模糊或遮挡的影响的问题，提升了视觉特征到语义特征转化准确性，最大程度产生最优的视频字幕描述，更精准的描述动作行为。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术实施例涉及计算机视觉领域，尤其涉及一种基于全局-局部感知动作目标视频描述的方法。

技术介绍

1、近些年来，随着互联网技术的飞速发展，网络流量呈现了爆发式的增长，视频数据成为了网络上人们获取信息的主要渠道之一。为了能更好的服务大众，与视频理解相关的视频描述技术受到越来越多的研究者们的关注，然而面对每天都在爆炸性增长的视频数据，依靠人工来对视频进行标记已经是一项不可能完成的任务。利用人工智能技术来实现对视频的字幕描述的生成已经成为了当今的研究热点。

2、视频字幕具有很大的社会相关性，在许多现实世界的应用中都有价值，包括字幕生成、盲人辅助和自动驾驶旁白。然而，孤立的视频帧可能会受到运动模糊或遮挡的影响，这给字幕任务的视觉理解带来了很大的混乱。到目前为止，最先进的方法还不能充分地对视频帧之间的全局-局部表示进行建模，以生成字幕，这给改进留下了很大的空间。

技术实现思路

1、专利技术目的：为克服现孤立的视频帧可能会受到运动模糊或遮挡的影响的问题，视觉特征到语义特征转化准确性低的问题，本文提出了一种全新的全局-局部感知动作目标生成视频描述的模型架构。

2、本专利技术针对现孤立的视频帧可能会受到运动模糊或遮挡的影响的问题，提出了一种全新的全局-设计了一种新的全局局部编码器，生成丰富的语义词汇，以获得跨帧视频内容的描述粒度。其技术依据是一种增量训练策略，该策略以增量的方式组织模型学习，以产生最优的字幕行为。通过这种方法进行训练，可以在最大程度产生最优的视频字幕描述

3、(1)给定一段视频，2d、3d-cnn从视频中提取的多模态特征；

4、(2)目标检测器从输入视频片段中提取局部区域特征；

5、本专利技术针对将全局-局部感知动作目标应用在视频描述任务上视觉特征到语义特征转化准确性低的问题，提出了一种由基于自注意力的组件提取编码器和组件提取解码器组成的网络，将上述步骤得到的特征作为组件提取编码器的输入序列，编码过程包括以下步骤：

6、(1)利用公式来绘制场景中多个对象之间的全局依赖关系；

7、(2)利用公式(q，k，v)＝(rcwq，rcw k，rcwv)来确定空间位置；

8、(3)利用公式rc＝relu([w1t r1；wbt vb])来提供了区域的中心坐标、宽度和高度信息。

9、基于常规编码器-解码器框架的现有方法的局限性在于描述中生成的动作与视频中的动态内容之间的对应关系。为此，我们首先针对视频中的动作，然后用它来指导字幕过程，从而克服了这个问题。具体解码方式包括以下步骤：

10、(1)以全局rgb特征设置为主题的查询，利用公式

11、s＝arg max pθ(w|vb′，vr)；

12、pθ(w|vb′，vr)＝softmax(wstfatt(vr′，vb′，vb′))得到主题词。

13、(2)利用公式

14、a＝arg max pθ(w|s，vm)；

15、pθ(w|s，vm)＝softmax(wat relu([es；vm′]))对视频中的主题和时间变化对谓词进行解码。

16、(3)利用公式

17、o＝arg max pθ(w|a，vb′)；

18、pθ(w|a，vb′)＝softmax(wot fatt(eo，vb′，vb′))给定谓词和场景表示，对对象进行解码

本文档来自技高网...

【技术保护点】

1.一种基于全局-局部感知动作目标生成视频描述的方法，其特征在于，包括步骤：

2.如权利要求1所述的基于全局-局部感知动作目标生成视频描述的方法，其特征在于，步骤S1中得到的多模态特征包括2D CNN的RGB特征、C3D网络的时间特征。计算的方法包括步骤：

3.如权利要求1所述的基于全局-局部感知动作目标生成视频描述的方法，其特征在于，目标检测器得到的的局部区域特征。计算的方法包括步骤：

4.如权利要求1所述的基于全局-局部感知动作目标生成视频描述的方法，其特征在于，步骤S3中所述使用组件提取编码器Cxe，映射一个区域特征Vb＝(V1b，…Vkb)的输入序列。计算的方法包括步骤：

5.如权利要求1所述的基于全局-局部感知动作目标生成视频描述的方法，其特征在于，步骤S4中组件提取解码器Cxd进行解码。为了定位视频中的动作，我们首先从权利要求4所述自参与场景表示中解码主题。计算的方法包括步骤：

6.如权利要求1所述的基于全局-局部感知动作目标生成视频描述的方法，其特征在于，步骤S5中生成视频描述内容，用LSTM实现字幕生成。

...

【技术特征摘要】

1.一种基于全局-局部感知动作目标生成视频描述的方法，其特征在于，包括步骤：

2.如权利要求1所述的基于全局-局部感知动作目标生成视频描述的方法，其特征在于，步骤s1中得到的多模态特征包括2d cnn的rgb特征、c3d网络的时间特征。计算的方法包括步骤：

3.如权利要求1所述的基于全局-局部感知动作目标生成视频描述的方法，其特征在于，目标检测器得到的的局部区域特征。计算的方法包括步骤：

4.如权利要求1所述的基于全局-局部感知动作目标生成视频描述的方法，其特征在于，步骤s3中所述使用组件提取编码器cxe...

【专利技术属性】
技术研发人员：姚智洪，刘斌，
申请(专利权)人：南京工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人