视频描述生成模型的获取方法、视频描述生成方法及装置制造方法及图纸

技术编号:23315241 阅读:18 留言:0更新日期:2020-02-11 17:50
本公开提供一种视频描述生成模型的获取方法、视频描述生成方法、装置、电子设备及计算机可读存储介质,所述视频描述生成模型的获取方法包括:从预设视频库中获取多个视频;对于每个视频,识别所述视频中的每一视频帧以提取该视频帧中的文字;合并每个视频的视频帧对应的文字,作为所述视频的视频描述;将多个视频分别对应的视频帧及视频描述作为训练样本进行训练,获取视频描述生成模型。本公开实施例能够有效减少人工标注成本。

Video description generation model acquisition method, video description generation method and device

【技术实现步骤摘要】
视频描述生成模型的获取方法、视频描述生成方法及装置
本公开涉及人工智能
,尤其涉及一种视频描述生成模型的获取方法、视频描述生成方法、装置、电子设备及计算机可读存储介质。
技术介绍
在互联网、大数据稳定发展的时代背景下,多媒体信息的需求呈现爆发式增长,传统的信息处理技术已无法应对多媒体数据在标注、描述等任务上的需求,例如,随着当前互联网视频数量的爆炸式增长,对于视频描述的需求日益上升。视频描述(VideoCaptioning)是一种为视频生成内容描述信息的技术。在人工智能领域,通常采用视频描述生成模型自动为视频生成视频描述。专利技术人在实现本公开的过程中发现:在视频描述生成模型训练阶段,训练样本的获取非常困难,需要大量的人工标注,而且少量标注人员标注也会导致标注风格同质化,导致生成的描述语言不符合大众的需求。
技术实现思路
有鉴于此,本公开实施例提供一种视频描述生成模型的获取方法、视频描述生成方法、装置、电子设备及计算机可读存储介质。本公开的第一方面提供了一种视频描述生成模型的获取方法,所述方法具体包括:从预设视频库中获取多个视频;对于每个视频,识别所述视频中的每一视频帧以提取该视频帧中的文字;合并每个视频的视频帧对应的文字,作为所述视频的视频描述;将多个视频分别对应的视频帧及视频描述作为训练样本进行训练,获取视频描述生成模型。可选地,在所述识别所述视频中的每一视频帧以提取该视频帧中的文字之后,还包括:对于每一视频帧对应的文字,将其与预存的标语文本进行匹配,删除匹配一致的文字。可选地,在所述识别所述视频中的每一视频帧以提取该视频帧中的文字之后,还包括:对所述视频中所有视频帧对应的文字进行分词,获取多个词序列;删除出现频率不小于设定值的词序列。可选地,在所述识别所述视频中的每一视频帧以提取该视频帧中的文字之后,还包括:对于每个视频中的每一视频帧,将所述视频帧与该视频中的其他视频帧一一进行比较,以确定所述视频帧与其他任一视频帧是否相似;若是,删除其中一个视频帧,并将两个视频帧分别对应的文字进行合并,作为未删除的视频帧对应的文字。可选地,还包括:对所述未删除的视频帧对应的文字进行分词以获取多个词序列;删除出现频率不小于第一指定值或者不大于第二指定值的词序列。可选地,通过预先建立的分类网络确定所述视频帧与其他任一视频帧是否相似;所述分类网络包括输入层、差分层、拼接层、卷积层以及输出层;所述输入层用于获取输入的两个视频帧;所述差分层用于将所述两个视频帧进行相减操作,获取差分图像;所述拼接层用于拼接所述差分图像及所述两个视频帧,获取拼接图像;所述卷积层用于对所述拼接图像进行特征提取,生成特征向量;所述输出层用于根据所述特征向量输出相似结果。可选地,所述视频描述生成模型包括编码器网络和解码器网络;所述编码器网络用于提取输入的多个视频帧的特征,生成视频的视觉特征;所述解码器网络用于根据所述视觉特征依次生成解码词,并将生成的各个解码词组合成视频描述。可选地,所述编码器网络包括输入层、多个卷积层以及拼接层;所述输入层用于获取输入的多个视频帧;所述多个卷积层分别用于提取多个视频帧的特征;所述拼接层用于将多个视频帧的特征进行拼接,生成视觉特征。可选地,所述解码器网络为长短期记忆网络。可选地,所述将多个视频分别对应的视频帧及视频描述作为训练样本进行训练,获取视频描述生成模型,包括:将所述视频帧输入指定的视频描述生成模型,得到预测描述;根据所述预测描述与所述视频帧对应的视频描述之间的差异,调整所述视频描述生成模型的参数,得到训练完成后的模型。可选地,所述根据所述预测描述与所述视频帧对应的视频描述之间的差异,调整所述视频描述生成模型的参数包括:分别获取所述预测描述的特征向量以及所述视频帧对应的视频描述的特征向量;根据所述预测描述的特征向量与所述视频帧对应的视频描述的特征向量之间的差异,调整所述视频描述生成模型的参数。可选地,所述根据所述预测描述的特征向量与所述视频帧对应的视频描述的特征向量之间的差异,调整所述视频描述生成模型的参数,包括:根据所述预测描述的特征向量与所述视频帧对应的视频描述的特征向量之间的距离,确定所述预测描述与所述视频帧对应的视频描述是否相似;根据相似结果调整所述视频描述生成模型的参数。可选地,所述特征向量为词向量。可选地,所述距离为余弦距离。根据本公开实施例的第二方面,提供一种视频描述生成方法,包括:获取目标视频;将所述目标视频的视频帧作为预先建立的视频描述生成模型的输入,以从所述视频描述生成模型中获取所述目标视频对应的视频描述;其中,所述视频描述生成模型基于多个视频分别对应的视频帧及视频描述训练得到,每个视频的视频描述的生成包括:识别所述视频中的每一视频帧以提取该视频帧中的文字,合并所述视频的视频帧对应的文字,作为所述视频的视频描述。可选地,在所述获取目标视频之后,还包括:对于所述目标视频中的每一视频帧,将所述视频帧与该目标视频中的其他视频帧一一进行比较,以确定所述视频帧与其他任一视频帧是否相似;若是,删除其中一个视频帧。可选地,通过预先建立的分类网络确定所述视频帧与其他任一视频帧是否相似;所述分类网络包括输入层、差分层、拼接层、卷积层以及输出层;所述输入层用于获取输入的两个视频帧;所述差分层用于将所述两个视频帧进行相减操作,获取差分图像;所述拼接层用于拼接所述差分图像及所述两个视频帧,获取拼接图像;所述卷积层用于对所述拼接图像进行特征提取,生成特征向量;所述输出层用于根据所述特征向量输出相似结果。可选地,所述视频描述生成模型包括编码器网络和解码器网络;所述编码器网络用于提取输入的多个视频帧的特征,生成目标视频的视觉特征;所述解码器网络用于根据所述视觉特征依次生成解码词,并将生成的各个解码词组合成视频描述。可选地,所述编码器网络包括输入层、多个卷积层以及拼接层;所述输入层用于获取输入的多个视频帧;所述多个卷积层分别用于提取多个视频帧的特征;所述拼接层用于将多个视频帧的特征进行拼接,生成视觉特征。可选地,所述解码器网络为长短期记忆网络。根据本公开实施例的第三方面,提供一种视频描述生成模型的获取装置,所述装置包括:视频获取模块,用于从预设视频库中获取多个视频;文字提取模块,用于对于每个视频,识别所述视频中的每一视频帧以提取该视频帧中的文字;视频描述获取模块,用于合并每个视频的视频帧对应的文字,作为所述视频的视频描述;模型训练模块,用于将多个视频分别对应的视频帧及视频描述作为训练样本进行训练,获取视频本文档来自技高网...

【技术保护点】
1.一种视频描述生成模型的获取方法,其特征在于,包括:/n从预设视频库中获取多个视频;/n对于每个视频,识别所述视频中的每一视频帧以提取该视频帧中的文字;/n合并每个视频的视频帧对应的文字,作为所述视频的视频描述;/n将多个视频分别对应的视频帧及视频描述作为训练样本进行训练,获取视频描述生成模型。/n

【技术特征摘要】
1.一种视频描述生成模型的获取方法,其特征在于,包括:
从预设视频库中获取多个视频;
对于每个视频,识别所述视频中的每一视频帧以提取该视频帧中的文字;
合并每个视频的视频帧对应的文字,作为所述视频的视频描述;
将多个视频分别对应的视频帧及视频描述作为训练样本进行训练,获取视频描述生成模型。


2.根据权利要求1所述的方法,其特征在于,在所述识别所述视频中的每一视频帧以提取该视频帧中的文字之后,还包括:
对于每一视频帧对应的文字,将其与预存的标语文本进行匹配,删除匹配一致的文字。


3.根据权利要求1所述的方法,其特征在于,在所述识别所述视频中的每一视频帧以提取该视频帧中的文字之后,还包括:
对所述视频中所有视频帧对应的文字进行分词,获取多个词序列;
删除出现频率不小于设定值的词序列。


4.根据权利要求1所述的方法,其特征在于,在所述识别所述视频中的每一视频帧以提取该视频帧中的文字之后,还包括:
对于每个视频中的每一视频帧,将所述视频帧与该视频中的其他视频帧一一进行比较,以确定所述视频帧与其他任一视频帧是否相似;
若是,删除其中一个视频帧,并将两个视频帧分别对应的文字进行合并,作为未删除的视频帧对应的文字。


5.一种视频描述生成方法,其特征在于,包括:
获取目标视频;
将所述目标视频的视频帧作为视频描述生成模型的输入,以从所述视频描述生成模型中获取所述目标视频对应的视频描述;其中,所述视频描述生成模型基于多个视频分别对应的视频帧及视频描述训练得到,每个视频的视频描述的生成包括:识别所述视频中的每一视频帧以提取该视频帧中的文字,合并所述视...

【专利技术属性】
技术研发人员:张水发李岩
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1