【技术实现步骤摘要】
一种基于生成对抗网络的视频密集事件描述方法
本专利技术属于深度学习和图像识别领域,更具体地,涉及一种基于生成对抗网络的视频密集事件描述方法。
技术介绍
近几年来,随着高清视频监控的逐步推广普及、短视频社交软件及直播软件等视频app的火爆发展,视频的数据爆炸式上升。而如何对这些海量的视频数据进行智能化分析,也成为视觉分析领域的一大热点。一般来说,视频密集事件描述算法是针对一个视频进行多个描述,包括三个部分,一是视频特征提取,二是视频时序动作检测,三是视频描述生成。其中,视频描述生成任务是为视频生成相对应的自然语言描述,目前主流的方法有语言模板的描述生成和基于序列学习的描述生成两种方法。基于语言模板的描述生成需要提前设置好语言模板,通过得到关键字配合对应模板来生成句子序列。RohrbachA.等人便使用了这种方法,首先通过two-steps来获得固定的主语、宾语、动词等关键字,在搭配设定好的语言模板来生成句子描述。基于序列学习的描述生成方法是VenugopalanS.等人先提出的,其使用卷积神经网络(Convolutio ...
【技术保护点】
1.一种基于生成对抗网络的视频密集事件描述方法,其特征在于,包括:/nS1.构建视频密集事件描述网络;所述视频动作描述网络包括:视频特征提取模块、时序动作特征提取模块、自然语言编码器和鉴别器;/n所述视频特征提取模块,用于对输入视频进行帧提取,并对提取到的视频帧进行特征提取,得到视频帧特征;所述时序动作特征提取模块,用于利用视频前向传播与反向传播的特点进行视频帧特征学习,得到各个时序动作特征;所述自然语言编码器,用于利用注意力机制融合视频帧特征与时序动作特征,得到自然语句;所述鉴别器,用于强化自然语句的准确性;/nS2.对所述视频密集事件描述网络进行迭代训练,得到训练好的视 ...
【技术特征摘要】
1.一种基于生成对抗网络的视频密集事件描述方法,其特征在于,包括:
S1.构建视频密集事件描述网络;所述视频动作描述网络包括:视频特征提取模块、时序动作特征提取模块、自然语言编码器和鉴别器;
所述视频特征提取模块,用于对输入视频进行帧提取,并对提取到的视频帧进行特征提取,得到视频帧特征;所述时序动作特征提取模块,用于利用视频前向传播与反向传播的特点进行视频帧特征学习,得到各个时序动作特征;所述自然语言编码器,用于利用注意力机制融合视频帧特征与时序动作特征,得到自然语句;所述鉴别器,用于强化自然语句的准确性;
S2.对所述视频密集事件描述网络进行迭代训练,得到训练好的视频密集事件描述模型;
S3.将待描述的视频输入训练好的视频密集事件描述模型,得到视频密集事件描述结果。
2.根据权利要求1所述的一种基于生成对抗网络的视频密集事件描述方法,其特征在于,所述视频特征提取模块由多个交替连接的三维卷积网络与池化层构成。
3.根据权利要求1所述的一种基于生成对抗网络的视频密集事件描述方法,其特征在于,所述时序动作特征提取模块采用时序分析模型。
4.根据权利要求1-3任一项所述的一种基于生成对抗网络的视频密集事件描述方法,其特征在于,所述利用视频前向传播与反向传播的特点进行视频帧特征学习,得到各个时序动作特征,具体包括:
01.将视频帧特征输入至时序分析模型,得到正向时序特征Ef={e1,e2…,en};其中,n表示视频帧特征数;
02.将视频帧特征逆向后,输入至时序分析模型,得到反向时序特征Eb={e′1,e′2...,e′n};
03.由Etotal=Ef+Eb得到视频整体的时序动作特征;
04.将视频整体的时序动作特征Etotal输入至全连接层,得到以时间节点t为终点的k个尺度的区间置信度{p1,p2...,pk};其中,k为以时间节点t为终点的时间区间的个数;
05.通过设定的阈值筛选出置信度高的区间,得到L个时序动作特征V={v1,v2,v3,...vL};其中,为设定的阈值,Z={z1,z2...,zL}表示L个时序动作特征对应的视频帧特征。
5.根据权利要求1或4所述的一种基于生成对抗网...
【专利技术属性】
技术研发人员:李玉华,朱志杰,李瑞轩,辜希武,
申请(专利权)人:华中科技大学,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。