【技术实现步骤摘要】
一种视频描述数据处理方法、装置以及存储介质
[0001]本专利技术主要涉及图像处理
,具体涉及一种视频描述数据处理方法、装置以及存储介质。
技术介绍
[0002]目前,基础的训练模型在训练时只会使用真实的标签作为数据输入,而测试的时候只能把生成值作为输入,这就造成了训练和测试间的不匹配问题。同时,现有的基础模型生成的描述与真实标签往往不够贴切,降低了模型的准确率。
技术实现思路
[0003]本专利技术所要解决的技术问题是针对现有技术的不足,提供一种视频描述数据处理方法、装置以及存储介质。
[0004]本专利技术解决上述技术问题的技术方案如下:一种视频描述数据处理方法,包括如下步骤:
[0005]S1:导入视频数据,并构建视频描述模型,所述视频描述模型包括编码器和多个顺序排列的LSTM长短期记忆网络;
[0006]S2:通过所述编码器对所述视频数据进行编码,得到视觉特征矩阵,所述视觉特征矩阵包括分别与多个所述LSTM长短期记忆网络一一对应的视觉特征向量;
[0007]S3:导入与所述视觉特征向量对应的真实词向量,并将所述LSTM长短期记忆网络、所述视觉特征向量以及所述真实词向量为一组,并依次对每组LSTM长短期记忆网络进行判断分析,得到视频描述信息;
[0008]S4:对所述视频描述信息进行损失分析,得到目标视频描述模型;
[0009]S5:导入待测视频数据,通过所述目标视频描述模型对所述待测视频数据进行视频描述,得到视频描述结果。
[001
【技术保护点】
【技术特征摘要】
1.一种视频描述数据处理方法,其特征在于,包括如下步骤:S1:导入视频数据,并构建视频描述模型,所述视频描述模型包括编码器和多个顺序排列的LSTM长短期记忆网络;S2:通过所述编码器对所述视频数据进行编码,得到视觉特征矩阵,所述视觉特征矩阵包括分别与多个所述LSTM长短期记忆网络一一对应的视觉特征向量;S3:导入与所述视觉特征向量对应的真实词向量,并将所述LSTM长短期记忆网络、所述视觉特征向量以及所述真实词向量为一组,并依次对每组LSTM长短期记忆网络进行判断分析,得到视频描述信息;S4:对所述视频描述信息进行损失分析,得到目标视频描述模型;S5:导入待测视频数据,通过所述目标视频描述模型对所述待测视频数据进行视频描述,得到视频描述结果。2.根据权利要求1所述的视频描述数据处理方法,其特征在于,所述编码器包括2D
‑
CNN卷积神经网络和3D
‑
CNN卷积神经网络,所述视频数据包括多个帧图像,所述步骤S2中,通过所述编码器对所述视频数据进行编码,得到视觉特征矩阵的过程包括:通过所述2D
‑
CNN卷积神经网络分别对各个所述帧图像进行二维特征提取,得到与所述帧图像对应的二维特征;通过所述3D
‑
CNN卷积神经网络对多个所述帧图像进行三维特征提取,得到三维特征;对多个所述二维特征和所述三维特征进行拼接,得到视觉特征矩阵。3.根据权利要求1所述的视频描述数据处理方法,其特征在于,所述步骤S3中,依次对每组LSTM长短期记忆网络进行判断分析,得到视频描述信息的过程包括:S31:将所述真实词向量作为输入词向量,对所有LSTM长短期记忆网络的数量进行统计,得到LSTM长短期记忆网络总数;S32:每组LSTM长短期记忆网络中,通过所述LSTM长短期记忆网络对所述输入词向量进行解码,得到待处理词向量,并将所述LSTM长短期记忆网络的排列位数作为训练执行次数;S33:对所述训练执行次数和所述LSTM长短期记忆网络总数进行采样率的计算,得到采样率;S34:判断所述采样率是否大于预设判断值,若是,则将所述真实词向量和下一个视觉特征向量作为所述输入词向量,并返回步骤S32;若否,则将所述待处理词向量和下一个视觉特征向量作为所述输入词向量,并返回步骤S32,直至处理完所有的LSTM长短期记忆网络,从而得到多个待处理词向量,并根据所有的待处理词向量得到视频描述信息。4.根据权利要求3所述的视频描述数据处理方法,其特征在于,所述步骤S33的过程包括:通过第一式对所述训练执行次数和所述LSTM长短期记忆网络总数进行采样率的计算,得到采样率,所述第一式为:其中,P为采样率,epoch为训练执行次数,max_epoch为LSTM长短期记忆网络总数。5.根据权利要求1所述的视频描述数据处理方法,其特征在于,所述步骤S4的过程包括:
利用Spacy Tagging Tool工具对所述视频描述信息进行序列标注,得到多个词性标签;导入与所述词性标签对应的真实标签,并利用交叉熵损失算法计算所有的词性标签以及所有的真实标...
【专利技术属性】
技术研发人员:蔡晓东,王湘晴,
申请(专利权)人:桂林远望智能通信科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。