一种视频描述数据处理方法、装置以及存储介质制造方法及图纸

技术编号:33202971 阅读:19 留言:0更新日期:2022-04-24 00:43
本发明专利技术提供一种视频描述数据处理方法、装置以及存储介质,属于图像处理技术领域,方法包括:S1:导入视频数据,并构建编码器和多个顺序排列的LSTM长短期记忆网络;S2:通过编码器对视频数据进行编码得到视觉特征向量;S3:导入真实词向量,并将LSTM长短期记忆网络、视觉特征向量以及真实词向量为一组,并依次对每组LSTM长短期记忆网络进行判断分析得到视频描述信息;S4:对视频描述信息进行损失分析得到目标视频描述模型;S5:导入待测视频数据,通过目标视频描述模型对待测视频数据进行视频描述得到视频描述结果。本发明专利技术解决了数据分布不一致的问题,能够让生成的词更贴近真实标签,进而提高了生成描述的准确性。进而提高了生成描述的准确性。进而提高了生成描述的准确性。

【技术实现步骤摘要】
一种视频描述数据处理方法、装置以及存储介质


[0001]本专利技术主要涉及图像处理
,具体涉及一种视频描述数据处理方法、装置以及存储介质。

技术介绍

[0002]目前,基础的训练模型在训练时只会使用真实的标签作为数据输入,而测试的时候只能把生成值作为输入,这就造成了训练和测试间的不匹配问题。同时,现有的基础模型生成的描述与真实标签往往不够贴切,降低了模型的准确率。

技术实现思路

[0003]本专利技术所要解决的技术问题是针对现有技术的不足,提供一种视频描述数据处理方法、装置以及存储介质。
[0004]本专利技术解决上述技术问题的技术方案如下:一种视频描述数据处理方法,包括如下步骤:
[0005]S1:导入视频数据,并构建视频描述模型,所述视频描述模型包括编码器和多个顺序排列的LSTM长短期记忆网络;
[0006]S2:通过所述编码器对所述视频数据进行编码,得到视觉特征矩阵,所述视觉特征矩阵包括分别与多个所述LSTM长短期记忆网络一一对应的视觉特征向量;
[0007]S3:导入与所述视觉特征向量对应的真实词向量,并将所述LSTM长短期记忆网络、所述视觉特征向量以及所述真实词向量为一组,并依次对每组LSTM长短期记忆网络进行判断分析,得到视频描述信息;
[0008]S4:对所述视频描述信息进行损失分析,得到目标视频描述模型;
[0009]S5:导入待测视频数据,通过所述目标视频描述模型对所述待测视频数据进行视频描述,得到视频描述结果。
[0010]本专利技术解决上述技术问题的另一技术方案如下:一种视频描述数据处理装置,包括:
[0011]模型构建模块,用于导入视频数据,并构建视频描述模型,所述视频描述模型包括编码器和多个顺序排列的LSTM长短期记忆网络;
[0012]编码器处理模块,通过所述编码器对所述视频数据进行编码,得到视觉特征矩阵,所述视觉特征矩阵包括分别与多个所述LSTM长短期记忆网络一一对应的视觉特征向量;
[0013]判断分析模块,用于导入与所述视觉特征向量对应的真实词向量,并将所述LSTM长短期记忆网络、所述视觉特征向量以及所述真实词向量为一组,并依次对每组LSTM长短期记忆网络进行判断分析,得到视频描述信息;
[0014]损失分析模块,用于对所述视频描述信息进行损失分析,得到目标视频描述模型;
[0015]视频描述结果获得模块,用于导入待测视频数据,通过所述目标视频描述模型对所述待测视频数据进行视频描述,得到视频描述结果。
[0016]本专利技术解决上述技术问题的另一技术方案如下:一种视频描述数据处理装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,当所述处理器执行所述计算机程序时,实现如上所述的视频描述数据处理方法。
[0017]本专利技术解决上述技术问题的另一技术方案如下:一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的视频描述数据处理方法。
[0018]本专利技术的有益效果是:通过编码器对视频数据的编码得到视觉特征向量,将LSTM长短期记忆网络、视觉特征向量以及真实词向量为一组,并依次对每组LSTM长短期记忆网络的判断分析得到视频描述信息,对视频描述信息的损失分析得到目标视频描述模型,通过目标视频描述模型对待测视频数据的视频描述得到视频描述结果,解决了数据分布不一致的问题,能够让生成的词更贴近真实标签,进而提高了生成描述的准确性。
附图说明
[0019]图1为本专利技术实施例提供的一种视频描述数据处理方法的流程示意图;
[0020]图2为本专利技术实施例提供的一种视频描述数据处理装置的模块框图。
具体实施方式
[0021]以下结合附图对本专利技术的原理和特征进行描述,所举实例只用于解释本专利技术,并非用于限定本专利技术的范围。
[0022]图1为本专利技术实施例提供的一种视频描述数据处理方法的流程示意图。
[0023]如图1所示,一种视频描述数据处理方法,包括如下步骤:
[0024]S1:导入视频数据,并构建视频描述模型,所述视频描述模型包括编码器和多个顺序排列的LSTM长短期记忆网络;
[0025]S2:通过所述编码器对所述视频数据进行编码,得到视觉特征矩阵,所述视觉特征矩阵包括分别与多个所述LSTM长短期记忆网络一一对应的视觉特征向量;
[0026]S3:导入与所述视觉特征向量对应的真实词向量,并将所述LSTM长短期记忆网络、所述视觉特征向量以及所述真实词向量为一组,并依次对每组LSTM长短期记忆网络进行判断分析,得到视频描述信息;
[0027]S4:对所述视频描述信息进行损失分析,得到目标视频描述模型;
[0028]S5:导入待测视频数据,通过所述目标视频描述模型对所述待测视频数据进行视频描述,得到视频描述结果。
[0029]应理解地,所述LSTM长短期记忆网络是一种时间循环神经网络,是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的,所有的RNN都具有一种重复神经网络模块的链式形式。在标准RNN中,这个重复的结构模块只有一个非常简单的结构,例如一个tanh层。
[0030]上述实施例中,通过编码器对视频数据的编码得到视觉特征向量,将LSTM长短期记忆网络、视觉特征向量以及真实词向量为一组,并依次对每组LSTM长短期记忆网络的判断分析得到视频描述信息,对视频描述信息的损失分析得到目标视频描述模型,通过目标视频描述模型对待测视频数据的视频描述得到视频描述结果,解决了数据分布不一致的问
题,能够让生成的词更贴近真实标签,进而提高了生成描述的准确性。
[0031]可选地,作为本专利技术的一个实施例,所述编码器包括2D

CNN卷积神经网络和3D

CNN卷积神经网络,所述视频数据包括多个帧图像,所述步骤S2中,通过所述编码器对所述视频数据进行编码,得到视觉特征矩阵的过程包括:
[0032]通过所述2D

CNN卷积神经网络分别对各个所述帧图像进行二维特征提取,得到与所述帧图像对应的二维特征;
[0033]通过所述3D

CNN卷积神经网络对多个所述帧图像进行三维特征提取,得到三维特征;
[0034]对多个所述二维特征和所述三维特征进行拼接,得到视觉特征矩阵。
[0035]应理解地,选取一段视频(即所述视频数据),输入到视频描述模型的编码器(即所述编码器)中,提取出视频的视觉特征(即所述视觉特征矩阵)。
[0036]应理解地,所述2D

CNN卷积神经网络是指卷积核在输入图像的二维空间进行滑窗操作,2D卷积只考虑到了空间的特征,而没有考虑时间的特征。2D

CNN的输入和输出数据是3维的。主要用于图像数据。
[0037]应理解地,所述3D
...

【技术保护点】

【技术特征摘要】
1.一种视频描述数据处理方法,其特征在于,包括如下步骤:S1:导入视频数据,并构建视频描述模型,所述视频描述模型包括编码器和多个顺序排列的LSTM长短期记忆网络;S2:通过所述编码器对所述视频数据进行编码,得到视觉特征矩阵,所述视觉特征矩阵包括分别与多个所述LSTM长短期记忆网络一一对应的视觉特征向量;S3:导入与所述视觉特征向量对应的真实词向量,并将所述LSTM长短期记忆网络、所述视觉特征向量以及所述真实词向量为一组,并依次对每组LSTM长短期记忆网络进行判断分析,得到视频描述信息;S4:对所述视频描述信息进行损失分析,得到目标视频描述模型;S5:导入待测视频数据,通过所述目标视频描述模型对所述待测视频数据进行视频描述,得到视频描述结果。2.根据权利要求1所述的视频描述数据处理方法,其特征在于,所述编码器包括2D

CNN卷积神经网络和3D

CNN卷积神经网络,所述视频数据包括多个帧图像,所述步骤S2中,通过所述编码器对所述视频数据进行编码,得到视觉特征矩阵的过程包括:通过所述2D

CNN卷积神经网络分别对各个所述帧图像进行二维特征提取,得到与所述帧图像对应的二维特征;通过所述3D

CNN卷积神经网络对多个所述帧图像进行三维特征提取,得到三维特征;对多个所述二维特征和所述三维特征进行拼接,得到视觉特征矩阵。3.根据权利要求1所述的视频描述数据处理方法,其特征在于,所述步骤S3中,依次对每组LSTM长短期记忆网络进行判断分析,得到视频描述信息的过程包括:S31:将所述真实词向量作为输入词向量,对所有LSTM长短期记忆网络的数量进行统计,得到LSTM长短期记忆网络总数;S32:每组LSTM长短期记忆网络中,通过所述LSTM长短期记忆网络对所述输入词向量进行解码,得到待处理词向量,并将所述LSTM长短期记忆网络的排列位数作为训练执行次数;S33:对所述训练执行次数和所述LSTM长短期记忆网络总数进行采样率的计算,得到采样率;S34:判断所述采样率是否大于预设判断值,若是,则将所述真实词向量和下一个视觉特征向量作为所述输入词向量,并返回步骤S32;若否,则将所述待处理词向量和下一个视觉特征向量作为所述输入词向量,并返回步骤S32,直至处理完所有的LSTM长短期记忆网络,从而得到多个待处理词向量,并根据所有的待处理词向量得到视频描述信息。4.根据权利要求3所述的视频描述数据处理方法,其特征在于,所述步骤S33的过程包括:通过第一式对所述训练执行次数和所述LSTM长短期记忆网络总数进行采样率的计算,得到采样率,所述第一式为:其中,P为采样率,epoch为训练执行次数,max_epoch为LSTM长短期记忆网络总数。5.根据权利要求1所述的视频描述数据处理方法,其特征在于,所述步骤S4的过程包括:
利用Spacy Tagging Tool工具对所述视频描述信息进行序列标注,得到多个词性标签;导入与所述词性标签对应的真实标签,并利用交叉熵损失算法计算所有的词性标签以及所有的真实标...

【专利技术属性】
技术研发人员:蔡晓东王湘晴
申请(专利权)人:桂林远望智能通信科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1