【技术实现步骤摘要】
本专利技术实施例涉及计算机视觉领域,尤其涉及一种基于全局-局部感知动作目标视频描述的方法。
技术介绍
1、近些年来,随着互联网技术的飞速发展,网络流量呈现了爆发式的增长,视频数据成为了网络上人们获取信息的主要渠道之一。为了能更好的服务大众,与视频理解相关的视频描述技术受到越来越多的研究者们的关注,然而面对每天都在爆炸性增长的视频数据,依靠人工来对视频进行标记已经是一项不可能完成的任务。利用人工智能技术来实现对视频的字幕描述的生成已经成为了当今的研究热点。
2、视频字幕具有很大的社会相关性,在许多现实世界的应用中都有价值,包括字幕生成、盲人辅助和自动驾驶旁白。然而,孤立的视频帧可能会受到运动模糊或遮挡的影响,这给字幕任务的视觉理解带来了很大的混乱。到目前为止,最先进的方法还不能充分地对视频帧之间的全局-局部表示进行建模,以生成字幕,这给改进留下了很大的空间。
技术实现思路
1、专利技术目的:为克服现孤立的视频帧可能会受到运动模糊或遮挡的影响的问题,视觉特征到语义特征转化准确性低的
...【技术保护点】
1.一种基于全局-局部感知动作目标生成视频描述的方法,其特征在于,包括步骤:
2.如权利要求1所述的基于全局-局部感知动作目标生成视频描述的方法,其特征在于,步骤S1中得到的多模态特征包括2D CNN的RGB特征、C3D网络的时间特征。计算的方法包括步骤:
3.如权利要求1所述的基于全局-局部感知动作目标生成视频描述的方法,其特征在于,目标检测器得到的的局部区域特征。计算的方法包括步骤:
4.如权利要求1所述的基于全局-局部感知动作目标生成视频描述的方法,其特征在于,步骤S3中所述使用组件提取编码器Cxe,映射一个区域特征Vb=(V
...【技术特征摘要】
1.一种基于全局-局部感知动作目标生成视频描述的方法,其特征在于,包括步骤:
2.如权利要求1所述的基于全局-局部感知动作目标生成视频描述的方法,其特征在于,步骤s1中得到的多模态特征包括2d cnn的rgb特征、c3d网络的时间特征。计算的方法包括步骤:
3.如权利要求1所述的基于全局-局部感知动作目标生成视频描述的方法,其特征在于,目标检测器得到的的局部区域特征。计算的方法包括步骤:
4.如权利要求1所述的基于全局-局部感知动作目标生成视频描述的方法,其特征在于,步骤s3中所述使用组件提取编码器cxe...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。