本发明专利技术公开了一种基于深度学习模型的视频描述生成方法及装置,该方法包括将与待处理视频对应的至少两帧图像输入至预设的第一深度学习模型,得到与每帧图像对应的包含时间顺序信息的特征向量;基于每个特征向量在预设的文本向量库中确定出第一文本向量,并根据每个特征向量以及相应的第一文本向量,得到第二文本向量;根据与待处理视频对应的所有第二文本向量以及预设的第二深度学习模型,得到目标描述语句
【技术实现步骤摘要】
一种基于深度学习模型的视频描述生成方法及装置
[0001]本申请涉及计算机视觉领域,特别的涉及一种基于深度学习模型的视频描述生成方法及装置
。
技术介绍
[0002]随着互联网时代的发展,以短视频为代表的动态多媒体内容在互联网上的流量占比逐年增加
。
视频作为与人类日常感知最为接近的方式,与单独的图片相比,能在有限的时间内传递比图片更多的信息,更符合当下人们快节奏的生活方式
。
然而,随着大量视频信息的涌现,人们急需一种合理有效的方法来过滤和筛选视频内容
。
视频描述生成技术可以作为一种解决方案,用于自动地生成视频的文字描述,从而帮助人们快速了解视频内容,筛选出有效的视频
。
视频描述生成技术可以对一段视频内容生成对应的描述文本,从而帮助人们快速有效地筛选视频,并且该技术在儿童教育
、
视力受损人士的生活辅助
、
医学图像分析
、
智慧城市
、
移动智能终端等领域都起到了重要的作用
。
[0003]现有的视频描述生成技术主要基于卷积神经网络
、
循环神经网络或深度残差网络等架构来进行特征提取,以实现视频描述生成
。
然而,这些技术都采用了被动生成模式,也即将常见的高频表达文字作为视觉描述语句,但是这种方式所得到的视频描述语句大都存在较为简单
、
空洞以及缺乏多样性等问题,且容易丢失关键性的信息
。
专利技术内容
[0004]本申请为解决上述提到的视频描述语句空洞
、
缺乏多样性以及容易丢失关键性信息的问题,本申请实施例提供了一种基于深度学习模型的视频描述生成方法及装置,其技术方案如下:第一方面,本申请实施例提供了一种基于深度学习模型的视频描述生成方法,包括:将与待处理视频对应的至少两帧图像输入至预设的第一深度学习模型,得到与每帧图像对应的包含时间顺序信息的特征向量;其中,预设的第一深度学习模型由至少两帧标记有时间顺序信息的样本图像训练得到;基于每个特征向量在预设的文本向量库中确定出第一文本向量,并根据每个特征向量以及相应的第一文本向量,得到第二文本向量;根据与待处理视频对应的所有第二文本向量以及预设的第二深度学习模型,得到目标描述语句;其中,预设的第二深度学习模型由样本文本向量以及与样本文本向量对应的描述语句训练得到
。
[0005]在第一方面的一种可选方案中,在将与待处理视频对应的至少两帧图像输入至预设的第一深度学习模型之前,还包括:根据待处理视频的时长以及预设的帧数阈值,确定出时间间隔;基于时间间隔,从待处理视频中提取出至少两帧图像
。
[0006]在第一方面的又一种可选方案中,基于每个特征向量在预设的文本向量库中确定出第一文本向量,包括:对每个特征向量进行转换处理,得到相应的映射向量;基于每个映射向量,在预设的文本向量库中确定出第一文本向量
。
[0007]在第一方面的又一种可选方案中,根据每个特征向量以及相应的第一文本向量,得到第二文本向量,包括:对特征向量以及第一文本向量进行序列化处理,分别得到第一字符串以及第二字符串;按照预设的拼接顺序对第一字符串以及第二字符串进行拼接处理,得到目标字符串;对目标字符串进行反序列化处理,得到第二文本向量
。
[0008]在第一方面的又一种可选方案中,根据与待处理视频对应的所有第二文本向量以及预设的第二深度学习模型,得到目标描述语句,包括:当所有第二文本向量的个数超过预设的数值时,根据所有第二文本向量中的时间顺序信息,将所有第二文本向量分为至少两组;其中,每组包含的第二文本向量的个数为大于或等于2的正整数;将每组中的第二文本向量合并成目标文本向量,并根据所有目标文本向量以及预设的第二深度学习模型,得到目标描述语句
。
[0009]在第一方面的又一种可选方案中,根据所有目标文本向量以及预设的第二深度学习模型,得到目标描述语句,包括:对每个目标文本向量进行序列化处理,得到与每个目标文本向量对应的第三字符串;将每个第三字符串输入至预设的第二深度学习模型,得到初始描述语句;对所有初始描述语句进行拼接处理,得到目标描述语句
。
[0010]在第一方面的又一种可选方案中,根据与待处理视频对应的所有第二文本向量以及预设的第二深度学习模型,得到目标描述语句,还包括:当所有第二文本向量的个数未超过预设的数值时,对每个第二文本向量进行序列化处理,得到与每个第二文本向量对应的第四字符串;将所有第四字符串输入至预设的第二深度学习模型,得到目标描述语句
。
[0011]第二方面,本申请实施例提供了一种基于深度学习模型的视频描述生成装置,包括:第一处理模块,用于将与待处理视频对应的至少两帧图像输入至预设的第一深度学习模型,得到与每帧图像对应的包含时间顺序信息的特征向量;其中,预设的第一深度学习模型由至少两帧标记有时间顺序信息的样本图像训练得到;第二处理模块,用于基于每个特征向量在预设的文本向量库中确定出第一文本向量,并根据每个特征向量以及相应的第一文本向量,得到第二文本向量;第三处理模块,用于根据与待处理视频对应的所有第二文本向量以及预设的第二深度学习模型,得到目标描述语句;其中,预设的第二深度学习模型由样本文本向量以及与样本文本向量对应的描述语句训练得到
。
[0012]第三方面,本申请实施例还提供了一种基于深度学习模型的视频描述生成装置,包括处理器以及存储器;处理器与存储器连接;存储器,用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于实现本申请实施例第一方面或第一方面的任意一种实现方式提供的基于深度学习模型的视频描述生成方法
。
[0013]第四方面,本申请实施例提供了一种计算机存储介质,计算机存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时,可实现本申请实施例第一方面或第一方面的任意一种实现方式提供的基于深度学习模型的视频描述生成方法
。
[0014]本说明书一些实施例提供的技术方案带来的有益效果至少包括:在视频描述生成过程中,将与待处理视频对应的至少两帧图像输入至预设的第一深度学习模型,得到与每帧图像对应的包含时间顺序信息的特征向量;基于每个特征向量在预设的文本向量库中确定出第一文本向量,并根据每个特征向量以及相应的第一文本向量,得到第二文本向量;根据与待处理视频对应的所有第二文本向量以及预设的第二深度学习模型,得到目标描述语句
。
通过将视频拆分为图像,并在基于第一深度学习模型的图像特征提取过程中添加了时间顺序信息,实现了更丰富的视频特征的提取,从而通过预设的第二深度学习模型生成与视频对应的多样性描述语句
。
附图说明
[0015]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需使用的附图作简单本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.
一种基于深度学习模型的视频描述生成方法,其特征在于,包括:将与待处理视频对应的至少两帧图像输入至预设的第一深度学习模型,得到与每帧图像对应的包含时间顺序信息的特征向量;其中,所述预设的第一深度学习模型由至少两帧标记有时间顺序信息的样本图像训练得到;基于每个所述特征向量在预设的文本向量库中确定出第一文本向量,并根据每个所述特征向量以及相应的所述第一文本向量,得到第二文本向量;根据与待处理视频对应的所有所述第二文本向量以及预设的第二深度学习模型,得到目标描述语句;其中,所述预设的第二深度学习模型由样本文本向量以及与所述样本文本向量对应的描述语句训练得到
。2.
根据权利要求1所述的方法,其特征在于,在所述将与待处理视频对应的至少两帧图像输入至预设的第一深度学习模型之前,还包括:根据所述待处理视频的时长以及预设的帧数阈值,确定出时间间隔;基于所述时间间隔,从所述待处理视频中提取出至少两帧图像
。3.
根据权利要求1所述的方法,其特征在于,所述基于每个所述特征向量在预设的文本向量库中确定出第一文本向量,包括:对每个所述特征向量进行转换处理,得到相应的映射向量;基于每个所述映射向量,在预设的文本向量库中确定出第一文本向量
。4.
根据权利要求1所述的方法,其特征在于,所述根据每个所述特征向量以及相应的所述第一文本向量,得到第二文本向量,包括:对所述特征向量以及所述第一文本向量进行序列化处理,分别得到第一字符串以及第二字符串;按照预设的拼接顺序对所述第一字符串以及所述第二字符串进行拼接处理,得到目标字符串;对所述目标字符串进行反序列化处理,得到第二文本向量
。5.
根据权利要求1所述的方法,其特征在于,所述根据与待处理视频对应的所有所述第二文本向量以及预设的第二深度学习模型,得到目标描述语句,包括:当所有所述第二文本向量的个数超过预设的数值时,根据所有所述第二文本向量中的时间顺序信息,将所有所述第二文本向量分为至少两组;其中,每组包含的所述第二文本向量的个数为大于或等于2的正整数;将每组中的所述第二文本向量合并成目标文本向量,并根据所有所述目标文本向量以及预设的第二深度学习模型,得到目标描述语句
...
【专利技术属性】
技术研发人员:杨志杰,金磊,雷达,刘硕,柳明,陈久红,
申请(专利权)人:中国电子科技集团公司第五十二研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。