一种基于全局-局部感知动作目标生成视频描述的方法技术

技术编号:42679302 阅读:23 留言:0更新日期:2024-09-10 12:30
本发明专利技术公开了一种基于全局‑局部感知动作目标生成视频描述的方法,包括步骤:数据准备,给定一段视频,2D、3D‑CNN从视频中提取的多模态特征;区域特征的抽取,目标检测器从输入视频片段中提取局部区域特征;特征编码,组件提取编码器Cxe映射一个区域特征;特征解码,组件提取‑解码器Cxd然后生成词性标记,即主题、谓词、对象;最后,训练生成视频描述内容。本方法克服现孤立的视频帧可能会受到运动模糊或遮挡的影响的问题,提升了视觉特征到语义特征转化准确性,最大程度产生最优的视频字幕描述,更精准的描述动作行为。

【技术实现步骤摘要】

本专利技术实施例涉及计算机视觉领域,尤其涉及一种基于全局-局部感知动作目标视频描述的方法。


技术介绍

1、近些年来,随着互联网技术的飞速发展,网络流量呈现了爆发式的增长,视频数据成为了网络上人们获取信息的主要渠道之一。为了能更好的服务大众,与视频理解相关的视频描述技术受到越来越多的研究者们的关注,然而面对每天都在爆炸性增长的视频数据,依靠人工来对视频进行标记已经是一项不可能完成的任务。利用人工智能技术来实现对视频的字幕描述的生成已经成为了当今的研究热点。

2、视频字幕具有很大的社会相关性,在许多现实世界的应用中都有价值,包括字幕生成、盲人辅助和自动驾驶旁白。然而,孤立的视频帧可能会受到运动模糊或遮挡的影响,这给字幕任务的视觉理解带来了很大的混乱。到目前为止,最先进的方法还不能充分地对视频帧之间的全局-局部表示进行建模,以生成字幕,这给改进留下了很大的空间。


技术实现思路

1、专利技术目的:为克服现孤立的视频帧可能会受到运动模糊或遮挡的影响的问题,视觉特征到语义特征转化准确性低的问题,本文提出了一种本文档来自技高网...

【技术保护点】

1.一种基于全局-局部感知动作目标生成视频描述的方法,其特征在于,包括步骤:

2.如权利要求1所述的基于全局-局部感知动作目标生成视频描述的方法,其特征在于,步骤S1中得到的多模态特征包括2D CNN的RGB特征、C3D网络的时间特征。计算的方法包括步骤:

3.如权利要求1所述的基于全局-局部感知动作目标生成视频描述的方法,其特征在于,目标检测器得到的的局部区域特征。计算的方法包括步骤:

4.如权利要求1所述的基于全局-局部感知动作目标生成视频描述的方法,其特征在于,步骤S3中所述使用组件提取编码器Cxe,映射一个区域特征Vb=(V1b,…Vkb)的输...

【技术特征摘要】

1.一种基于全局-局部感知动作目标生成视频描述的方法,其特征在于,包括步骤:

2.如权利要求1所述的基于全局-局部感知动作目标生成视频描述的方法,其特征在于,步骤s1中得到的多模态特征包括2d cnn的rgb特征、c3d网络的时间特征。计算的方法包括步骤:

3.如权利要求1所述的基于全局-局部感知动作目标生成视频描述的方法,其特征在于,目标检测器得到的的局部区域特征。计算的方法包括步骤:

4.如权利要求1所述的基于全局-局部感知动作目标生成视频描述的方法,其特征在于,步骤s3中所述使用组件提取编码器cxe...

【专利技术属性】
技术研发人员:姚智洪刘斌
申请(专利权)人:南京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1