【技术实现步骤摘要】
基于生成对抗网络的视频描述方法及系统
本公开涉及计算机视觉及自然语言处理
,特别是涉及基于生成对抗网络的视频描述方法及系统。
技术介绍
本部分的陈述仅仅是提到了与本公开相关的
技术介绍
,并不必然构成现有技术。对于大多数人来讲,即使三岁的孩子都可以出色的完成“看图说话”或者“看视频说话”任务。但是对于计算机来说,这显然不是一个简单的任务。随着深度学习的发展,计算机视觉与自然语言处理任务得到了极大的发展,视觉描述任务也因此受到了广泛的重视。视觉描述的生成可以应用于多种场景,如帮助人工智能体和视障人士理解当前场景,将海量监控视频转化为文字形式,便于留存以及检索,为视频快速添加字幕等实际场景。根据视觉信息的不同表现形式,视觉描述任务可以分为图像描述任务以及视频描述任务。图像描述的生成已经被广泛认为是一项非常具有挑战性的任务,与之相比,视频描述的生成更为困难。在图像描述生成任务中,计算机只需要识别一张图片中的显著目标,以及目标间的关系,并将目标以及目标之间的关系用一段自然语言描述出来。而在视频描述任务中,视频中出现 ...
【技术保护点】
1.基于生成对抗网络的视频描述方法,其特征是,包括:/n获取待描述视频;/n将待描述视频输入到训练好的生成对抗网络中,训练好的生成对抗网络生成器的编码器提取带有视频时序信息的视觉特征,生成器的解码器对所述视觉特征进行解码,输出待描述视频的描述语句。/n
【技术特征摘要】
1.基于生成对抗网络的视频描述方法,其特征是,包括:
获取待描述视频;
将待描述视频输入到训练好的生成对抗网络中,训练好的生成对抗网络生成器的编码器提取带有视频时序信息的视觉特征,生成器的解码器对所述视觉特征进行解码,输出待描述视频的描述语句。
2.如权利要求1所述的方法,其特征是,所述生成对抗网络,包括:相互连接的生成器和判别器;
所述生成器,包括依次连接的编码器、解码器和重构器;
所述编码器包括串联的第一深度卷积神经网络和第一双向循环神经网络;第一双向循环神经网络的输出端与解码器连接;
所述解码器包括串联的第一循环神经网络和第二循环神经网络;第二循环神经网络的输出端与重构器连接。
3.如权利要求2所述的方法,其特征是,所述判别器,包括并联的第一分支和第二分支,所述第一分支包括串联的第二深度卷积神经网络和第二双向循环神经网络,所述第二分支包括第三循环神经网络;
所述第二双向循环神经网络的输出端和第三循环神经网络的输出端均与内积单元的输入端连接;内积单元的输出端与二分类器的输入端连接,二分类器的输出端用于输出判别器的判别结果。
4.如权利要求1所述的方法,其特征是,所述训练好的生成对抗网络,具体训练步骤包括:
对生成器单独进行训练,得到单独训练好的生成器;
对判别器单独进行训练,得到单独训练好的判别器;
将单独训练好的生成器和单独训练好的判别器进行连接,得到初始化生成对抗网络;对初始化生成对抗网络进行训练,得到训练好的生成对抗网络。
5.如权利要求4所述的方法,其特征是,对生成器单独进行训练,得到训练好的生成器;具体步骤包括:
构建训练集;所述训练集,包括:若干个训练视频,每个训练视频均设有已知的描述语句;
对训练视频进行采样,得到训练帧;将得到的训练帧,通过第一深度卷积神经网络进行空间特征提取,得到空间特征;
生成器的第一双向循环神经网络对空间特征进行特征提取,得到带有视频时序信息的第一视觉特征向量;
解码器的第一循环神经网络对已知的描述语句进行处理得到已知描述语句的特征,解码器的第二循环神经网络对已知描述语句的特征和第一视觉特征向量进行处理,得到生成的描述语句;
计算生成的描述语句与已知描述语句之间的第一最大似然估计值;
重构器对解码得到的描述语句进行重构,生成视频向量;
计算生成视频向量与第一视觉特征向量之间的第二最大似然估计值;
对第一最大似然估计值与第二最大似然估计值进行求和,当求和结果小于设定阈值时,停止训练,得到单独训练好的生成器;否则,继续训练。
6.如权利要求4所述的方法,其特征是,对判别器单独进行训练,得到训练好的判别器...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。