一种基于句子语义的视频描述方法、装置及存储介质制造方法及图纸

技术编号:34334617 阅读:40 留言:0更新日期:2022-07-31 02:44
本发明专利技术涉及一种基于句子语义的视频描述方法、装置及存储介质,属于技术领域;方法包括步骤:将视觉特征和运动特征进行拼接融合,将目标视频特征对应的描述词袋转换为文本特征,根据视觉词、目标视频特征及其对应的文本特征构建损失函数模型,以及计算每个单词在句中出现的概率,根据概率得到句子级别损失函数,通过句子级别损失函数和损失函数模型进行损失迭代计算,得到最终的视频描述信息;本发明专利技术有助于提高预测长度的准确性,从而生成的视频描述信息更完整。述信息更完整。述信息更完整。

A video description method, device and storage medium based on sentence semantics

【技术实现步骤摘要】
一种基于句子语义的视频描述方法、装置及存储介质


[0001]本专利技术主要涉及计算机视觉
,具体涉及一种基于句子语义的视频描述方法、装置及存储介质。

技术介绍

[0002]近数十年以来伴随着互联网技术和信息传输技术的飞速发展,人们面临的媒体数据从最初的文字发展成为图像,再到现如今的视频。视频数据已经成为全世界范围内信息传播的重要载体,也是信息的重要存储形式之一。手机和面向用户的拍照设备的普遍出现,使得视频数据被快速生产、存储、上传,数量巨大且无组织,对庞大的视频数据进行有效的组织管理是使用视频所带来的巨大难题。
[0003]视频描述是视频理解的子任务,旨在通过对视频内容的理解,并以自然语言的形式描述出来。然而对机器来说,视频描述是一项非常困难的任务,机器需要理解视频内容,才能用自然语言去描述它。视频的描述文本涉及到许多背景知识的理解以及视频中的物体、人物、动作、场景、人与物关系等内容的检测,且需要根据对视频内容的理解生成语法正确、描述准确的自然语言文本。因此,视频描述不仅在技术发展方面有重要的研究意义,而且对人们生活各方面的帮助有本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于句子语义的视频描述方法,其特征在于,包括如下步骤:导入数据集,所述数据集包括多个视频及描述对以及与各个所述视频及描述对对应的描述词袋;将各个所述视频及描述对中的视频分别进行视觉特征和运动特征提取,将每个所述视频对应的视觉特征和运动特征进行拼接融合,得到目标视频特征,并通过词嵌入方式将目标视频特征对应的描述词袋转换为文本特征;对所述目标视频特征进行句子长度的预测,并结合预设的标签对预测的句子长度信息进行损失计算,得到含有标签的句子长度信息;将所述含有标签的句子长度信息解码生成视觉词,并根据所述视觉词、所述目标视频特征及其对应的文本特征构建损失函数模型;通过所述视觉词计算所述文本特征中每个单词在句中出现的概率;根据所述概率得到句子级别损失函数,通过所述句子级别损失函数和所述损失函数模型进行损失迭代计算,得到最终的视频描述信息。2.根据权利要求1所述的视频描述方法,其特征在于,还包括对拼接融合后的视觉特征和运动特征进行紧凑处理的步骤,具体为:通过highway网络对拼接融合后的视觉特征和运动特征进行紧凑处理。3.根据权利要求1所述的视频描述方法,其特征在于,所述对所述目标视频特征进行句子长度的预测,具体为:通过第一式对所述目标视频特征进行句子长度的预测,所述第一式为:L=Soft max(ReLU(MP(V)W
l1
)W
l2
),其中,MP表示平均池化,RELU和Softmax表示激活函数,和表示权重参数。4.根据权利要求1所述的视频描述方法,其特征在于,所述根据所述视觉词、所述目标视频特征及其对应的文本特征构建损失函数模型,具体为:所述损失函数模型为:其中,V表示所述目标视频特征及其对应的文本特征,Y
vis
表示视觉词,Y
obs
表示生成过程中未掩盖的词,Y
mask
表示生成过程中掩盖的词,λ表示可调整的参数。5.根据权利要求1所述的视频描述方法,其特征在于,所述通过所述视觉词计算所述文本特征中每个单词在句中出现的概率,具体为:通过第二式计算视觉词的单词级别分数,所述第二式为:s
t
=W
g
h
t
+b
g
,其中,h
t
表示视觉词,W
g
,b
g
表示学习训练参数;通过第三式和所述单词级别分数计算每个单词在句中出现的概率,所述第三式为:其中,...

【专利技术属性】
技术研发人员:蔡晓东周美欣
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1