【技术实现步骤摘要】
一种视频描述方法、装置以及存储介质
[0001]本专利技术主要涉及图像处理
,具体涉及一种视频描述方法、装置以及存储介质。
技术介绍
[0002]目前视频描述遇到的挑战主要有机器翻译的准确指标和大量人工标注的成本问题。目前常用的视频描述方法是将视频提取特征,在将特征输入进解码模型进行输出描述,再将模型预测的描述与人工的描述作对比,从而训练视频描述模型生成更好的描述。在这个过程中,被提取的特征并没有很好的被利用,特征之间的联系不是很紧密,从而导致描述不是很准确,其次传统的模型需要人工监督,这样会导致大量的人工成本增加,且传统模型的训练过程是在文字特征层面进行训练,而视频理解主要是对图片特征层面解读,所以在文字层面训练会导致模型描述的准确性降低。
技术实现思路
[0003]本专利技术所要解决的技术问题是针对现有技术的不足,提供一种视频描述方法、装置以及存储介质。
[0004]本专利技术解决上述技术问题的技术方案如下:一种视频描述方法,包括如下步骤:
[0005]S1:导入视频数据集,所述视频 ...
【技术保护点】
【技术特征摘要】
1.一种视频描述方法,其特征在于,包括如下步骤:S1:导入视频数据集,所述视频数据集包括多个视频数据,并分别对各个所述视频数据进行第一次融合分析,得到与各个所述视频数据对应的第一融合特征;S2:构建训练模型,根据多个所述第一融合特征对所述训练模型进行训练,得到目标视频描述模型;S3:分别对各个所述视频数据进行第二次融合分析,得到与各个所述视频数据对应的第二融合特征;S4:通过所述目标视频描述模型对多个所述第二融合特征进行视频描述,得到视频描述结果。2.根据权利要求1所述的视频描述方法,其特征在于,所述步骤S1中,分别对各个所述视频数据进行第一次融合分析,得到与各个所述视频数据对应的第一融合特征的过程包括:基于卷积神经网络,通过所述卷积神经网络分别对各个所述视频数据进行第一次特征提取,得到与各个所述视频数据对应的第一2D视觉特征以及与各个所述视频数据对应的第一3D运动特征;分别对各个所述第一2D视觉特征以及与各个所述视频数据对应的第一3D运动特征进行第一门控融合,得到与各个所述视频数据对应的第一融合特征。3.根据权利要求2所述的视频描述方法,其特征在于,所述分别对各个所述第一2D视觉特征以及与各个所述视频数据对应的第一3D运动特征进行第一门控融合,得到与各个所述视频数据对应的第一融合特征的过程包括:通过第一式分别计算各个所述第一2D视觉特征以及与各个所述视频数据对应的第一3D运动特征的融合特征,得到与各个所述视频数据对应的第一融合特征,所述第一式为:xi=σ(W*rm+b)*fm+fm,其中,xi为第一融合特征,σ为非线性激活函数,W和b均为学习参数,rm为2D第一视觉特征,fm为第一3D运动特征。4.根据权利要求2所述的视频描述方法,其特征在于,所述步骤S2的过程包括:构建训练网络,所述训练网络包括视觉特征重构网络和原始视频描述模型;基于LSTM长短期记忆网络,通过所述LSTM长短期记忆网络分别对各个所述第一融合特征进行解码,得到与各个所述第一融合特征对应的隐藏状态信息;通过所述视觉特征重构网络分别对各个所述隐藏状态信息进行特征重构,得到与各个所述第一融合特征对应的第二2D视觉特征以及与各个所述第一融合特征对应的第二3D运动特征;分别计算各个所述第二2D视觉特征以及与各个所述视频数据对应的第一2D视觉特征的相似度损失,得到与各个所述视频数据对应的2D特征相似度损失值;分别计算各个所述第二3D运动特征以及与各个所述视频数据对应的第一3D运动特征的相似度损失,得到与各个所述视频数据对应的3D特征相似度损失值;判断所有的2D特征相似度损失值以及所有的3D特征相似度损失值是否均大于预设判断阈值,若是,则根据多个所述2D特征相似度损失值和多个所述3D特征相似度损失值对所述原始视频描述模型进行参数更新,并返回步骤S2中,再次通过所述视觉特...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。