一种视频描述数据处理方法、装置以及存储介质制造方法及图纸

技术编号：33202971 阅读：19 留言：0更新日期：2022-04-24 00:43

本发明专利技术提供一种视频描述数据处理方法、装置以及存储介质，属于图像处理技术领域，方法包括：S1：导入视频数据，并构建编码器和多个顺序排列的LSTM长短期记忆网络；S2：通过编码器对视频数据进行编码得到视觉特征向量；S3：导入真实词向量，并将LSTM长短期记忆网络、视觉特征向量以及真实词向量为一组，并依次对每组LSTM长短期记忆网络进行判断分析得到视频描述信息；S4：对视频描述信息进行损失分析得到目标视频描述模型；S5：导入待测视频数据，通过目标视频描述模型对待测视频数据进行视频描述得到视频描述结果。本发明专利技术解决了数据分布不一致的问题，能够让生成的词更贴近真实标签，进而提高了生成描述的准确性。进而提高了生成描述的准确性。进而提高了生成描述的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种视频描述数据处理方法、装置以及存储介质

[0001]本专利技术主要涉及图像处理
，具体涉及一种视频描述数据处理方法、装置以及存储介质。

技术介绍

[0002]目前，基础的训练模型在训练时只会使用真实的标签作为数据输入，而测试的时候只能把生成值作为输入，这就造成了训练和测试间的不匹配问题。同时，现有的基础模型生成的描述与真实标签往往不够贴切，降低了模型的准确率。

技术实现思路

[0003]本专利技术所要解决的技术问题是针对现有技术的不足，提供一种视频描述数据处理方法、装置以及存储介质。
[0004]本专利技术解决上述技术问题的技术方案如下：一种视频描述数据处理方法，包括如下步骤：
[0005]S1：导入视频数据，并构建视频描述模型，所述视频描述模型包括编码器和多个顺序排列的LSTM长短期记忆网络；
[0006]S2：通过所述编码器对所述视频数据进行编码，得到视觉特征矩阵，所述视觉特征矩阵包括分别与多个所述LSTM长短期记忆网络一一对应的视觉特征向量；
[0007]S3：导入与所述视觉特征向量对应的真实词向量，并将所述LSTM长短期记忆网络、所述视觉特征向量以及所述真实词向量为一组，并依次对每组LSTM长短期记忆网络进行判断分析，得到视频描述信息；
[0008]S4：对所述视频描述信息进行损失分析，得到目标视频描述模型；
[0009]S5：导入待测视频数据，通过所述目标视频描述模型对所述待测视频数据进行视频描述，得到视频描述结果。
[001

【技术保护点】

【技术特征摘要】
1.一种视频描述数据处理方法，其特征在于，包括如下步骤：S1：导入视频数据，并构建视频描述模型，所述视频描述模型包括编码器和多个顺序排列的LSTM长短期记忆网络；S2：通过所述编码器对所述视频数据进行编码，得到视觉特征矩阵，所述视觉特征矩阵包括分别与多个所述LSTM长短期记忆网络一一对应的视觉特征向量；S3：导入与所述视觉特征向量对应的真实词向量，并将所述LSTM长短期记忆网络、所述视觉特征向量以及所述真实词向量为一组，并依次对每组LSTM长短期记忆网络进行判断分析，得到视频描述信息；S4：对所述视频描述信息进行损失分析，得到目标视频描述模型；S5：导入待测视频数据，通过所述目标视频描述模型对所述待测视频数据进行视频描述，得到视频描述结果。2.根据权利要求1所述的视频描述数据处理方法，其特征在于，所述编码器包括2D
‑
CNN卷积神经网络和3D
‑
CNN卷积神经网络，所述视频数据包括多个帧图像，所述步骤S2中，通过所述编码器对所述视频数据进行编码，得到视觉特征矩阵的过程包括：通过所述2D
‑
CNN卷积神经网络分别对各个所述帧图像进行二维特征提取，得到与所述帧图像对应的二维特征；通过所述3D
‑
CNN卷积神经网络对多个所述帧图像进行三维特征提取，得到三维特征；对多个所述二维特征和所述三维特征进行拼接，得到视觉特征矩阵。3.根据权利要求1所述的视频描述数据处理方法，其特征在于，所述步骤S3中，依次对每组LSTM长短期记忆网络进行判断分析，得到视频描述信息的过程包括：S31：将所述真实词向量作为输入词向量，对所有LSTM长短期记忆网络的数量进行统计，得到LSTM长短期记忆网络总数；S32：每组LSTM长短期记忆网络中，通过所述LSTM长短期记忆网络对所述输入词向量进行解码，得到待处理词向量，并将所述LSTM长短期记忆网络的排列位数作为训练执行次数；S33：对所述训练执行次数和所述LSTM长短期记忆网络总数进行采样率的计算，得到采样率；S34：判断所述采样率是否大于预设判断值，若是，则将所述真实词向量和下一个视觉特征向量作为所述输入词向量，并返回步骤S32；若否，则将所述待处理词向量和下一个视觉特征向量作为所述输入词向量，并返回步骤S32，直至处理完所有的LSTM长短期记忆网络，从而得到多个待处理词向量，并根据所有的待处理词向量得到视频描述信息。4.根据权利要求3所述的视频描述数据处理方法，其特征在于，所述步骤S33的过程包括：通过第一式对所述训练执行次数和所述LSTM长短期记忆网络总数进行采样率的计算，得到采样率，所述第一式为：其中，P为采样率，epoch为训练执行次数，max_epoch为LSTM长短期记忆网络总数。5.根据权利要求1所述的视频描述数据处理方法，其特征在于，所述步骤S4的过程包括：
利用Spacy Tagging Tool工具对所述视频描述信息进行序列标注，得到多个词性标签；导入与所述词性标签对应的真实标签，并利用交叉熵损失算法计算所有的词性标签以及所有的真实标...

【专利技术属性】
技术研发人员：蔡晓东，王湘晴，
申请(专利权)人：桂林远望智能通信科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人