视频描述生成方法、装置、设备以及存储介质制造方法及图纸

技术编号:33918156 阅读:51 留言:0更新日期:2022-06-25 20:35
本公开提供了视频描述生成方法、装置、设备以及存储介质,涉及人工智能领域,尤其涉及知识图谱、深度学习、计算机视觉、视频处理等技术领域。具体实现方案为:获取待处理的目标视频,通过提取目标视频的视觉特征,并根据目标视频的视觉特征获取目标视频的知识增强特征,再将目标视频的视觉特征以及知识增强特征作为视频描述生成模型的输入,获取模型输出的目标视频对应的视频描述文本。其中,目标视频的知识增强特征包括目标视频的事件特征以及目标视频中目标对象之间的关系特征的至少一项。上述过程引入知识增强特征,可提升模型对视频语义的深层理解,从而生成高质量的视频描述文本。本。本。

【技术实现步骤摘要】
视频描述生成方法、装置、设备以及存储介质


[0001]本公开涉及人工智能领域的知识图谱、深度学习、计算机视觉、视频处理等
,尤其涉及一种视频描述生成方法、装置、设备以及存储介质。

技术介绍

[0002]视频描述生成(video captioning)是利用机器学习技术,将视频生成对应的自然语言语句,其广泛适用于人机交互场景,如帮助视力受损人员进行视频内容的描述、视频标题或摘要生成等。
[0003]相关技术中,视频描述生成大多是基于序列到序列(sequence to sequence)的生成方法,其主要做法是采用编码器

解码器(encoder

decode)框架,通过编码器编码视频,再通过解码器生成文本序列。然而,相关技术对视频的特征分析不够全面,进而影响视频描述的质量。

技术实现思路

[0004]本公开提供了一种视频描述生成方法、装置、设备以及存储介质。
[0005]根据本公开的第一方面,提供了一种视频描述生成方法,包括:
[0006]获取待处理的目标视频,所述目标视频包括多个目标对象;
[0007]提取所述目标视频的视觉特征;
[0008]根据所述目标视频的视觉特征获取所述目标视频的知识增强特征,所述知识增强特征包括所述目标视频的事件特征以及所述目标视频中目标对象之间的关系特征的至少一项;
[0009]将所述目标视频的所述视觉特征以及所述知识增强特征输入视频描述生成模型,得到所述目标视频对应的视频描述文本。
[0010]根据本公开的第二方面,提供了一种视频描述生成装置,包括:
[0011]获取模块,用于获取待处理的目标视频,所述目标视频包括多个目标对象;
[0012]特征提取模块,用于提取所述目标视频的视觉特征;
[0013]特征分析模块,用于根据所述目标视频的视觉特征获取所述目标视频的知识增强特征,所述知识增强特征包括所述目标视频的事件特征以及所述目标视频中目标对象之间的关系特征的至少一项;
[0014]处理模块,用于将所述目标视频的所述视觉特征以及所述知识增强特征输入视频描述生成模型,得到所述目标视频对应的视频描述文本。
[0015]根据本公开的第三方面,提供了一种电子设备,包括:
[0016]至少一个处理器;以及
[0017]与所述至少一个处理器通信连接的存储器;其中,
[0018]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述的方法。
[0019]根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行第一方面所述的方法。
[0020]根据本公开的第五方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序,所述计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面所述的方法。
[0021]根据本公开的技术可提高视频描述文本的质量。
[0022]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0023]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0024]图1为本公开实施例提供的一种视频描述生成框架的示意图;
[0025]图2为本公开实施例提供的一种应用场景的示意图;
[0026]图3为本公开实施例提供的一种视频描述生成方法的流程示意图;
[0027]图4为本公开实施例提供的一种视频描述生成方法的流程示意图;
[0028]图5为本公开实施例提供的视频描述生成模型的结构示意图;
[0029]图6为本公开实施例提供的一种视频描述生成方法的流程示意图;
[0030]图7为本公开实施例提供的一种视频描述生成方法的流程示意图;
[0031]图8为本公开实施例提供的一种视频描述生成装置的结构示意图;
[0032]图9为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
[0033]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0034]视频描述生成在生活中具有广泛的应用价值。在互联网领域,视频描述生成技术具有视频搜索、视频摘要、问答系统等应用。在安防领域,视频描述生成技术具有异常事件识别、人车分析等应用。在机器人领域,视频描述生成技术具有导航、定位、抓取等应用。在扶残助残方面,视频描述生成技术对盲人提供视频导航,如将电影或短视频描述给盲人等应用。
[0035]目前,现有的视频描述生成主要有以下方法:
[0036]第一,基于模板的方法。基于模板的视频描述生成技术,是较早期的视频处理方法,其方法流程是先预测出句子中的重点组件,如句子中的主谓宾,然后通过模板将它们组合起来,生成视频描述语句。随着技术的进步,也有将模板与深度学习结合起来的技术应用,基于模板和语言模型去规范化句子的生成。
[0037]第二,基于序列到序列的生成方法,该方法是目前比较主流的视频描述生成方法,其主要做法是采用编码器

解码器框架,通过编码器编码视频,再通过解码器生成文本序
列。
[0038]第三,一些其他方法。近年来,基于生成对抗网络(GAN)和增强学习(Reinforcement Learning)的方法也被广泛应用于各类任务中。自然,在视频描述生成任务上也有相关工作。不过,总体来看以特殊设计的GAN或者RL为创新点的工作在视频描述生成任务上所占比例不是太大,主要原因可能是GAN和RL在其他任务上体现出的固有问题,例如RL的训练难。
[0039]上述第一种方案需要消耗大量的人力成本,效率低,生成的描述语句僵化。上述第二种方案通过序列到序列的模型没有显式的规范化,生成的描述语句有一定的语法错误或逻辑错误。上述第三种方案训练困难,整体的可操作性不强。
[0040]综上所述,以上三种方案,存在结果不可控、生成描述语句太泛或过于抽象等问题,无法从视频语义理解角度阐述视频内容。
[0041]针对上述问题,本公开提供一种视频描述生成方法,在基础的视频描述生成模型的输入端增加至少一项知识增强特征的序列表示,使得视频描述生成模型能够捕获更加细节的特征数据,从而提高模型输出的视频描述文本的质量。其中,知识增强特征包括视频中目标对象之间的关系特征,和/或,视频中正在发生的事件本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频描述生成方法,包括:获取待处理的目标视频,所述目标视频包括多个目标对象;提取所述目标视频的视觉特征;根据所述目标视频的视觉特征获取所述目标视频的知识增强特征,所述知识增强特征包括所述目标视频的事件特征以及所述目标视频中目标对象之间的关系特征的至少一项;将所述目标视频的所述视觉特征以及所述知识增强特征输入视频描述生成模型,得到所述目标视频对应的视频描述文本。2.根据权利要求1所述的方法,其中,所述视觉特征包括外观特征、动作特征以及对象特征的至少一项;所述提取所述目标视频的视觉特征,包括:采用二维卷积神经网络提取所述目标视频中每帧图像的外观特征;和/或采用三维卷积神经网络提取所述目标视频中每帧图像的动作特征,所述动作特征用于指示目标对象的动作属性;和/或采用目标检测算法提取所述目标视频中每帧图像的目标对象的对象特征。3.根据权利要求1或2所述的方法,其中,所述根据所述目标视频的视觉特征获取所述目标视频的知识增强特征,包括:根据所述目标视频的外观特征以及动作特征,获取所述目标视频的事件特征。4.根据权利要求3所述的方法,其中,所述根据所述目标视频的外观特征以及动作特征,获取所述目标视频的事件特征,包括:将所述目标视频的外观特征以及动作特征进行拼接,得到拼接后的特征;将所述拼接后的特征输入事件检测模型,得到所述目标视频对应的事件类型;根据预先构建的事件知识图谱以及所述目标视频对应的事件类型,获取所述目标视频对应的事件类型的向量表示;所述事件知识图谱包括多种事件类型的向量表示。5.根据权利要求1或2所述的方法,其中,所述根据所述目标视频的视觉特征获取所述目标视频的知识增强特征,包括:根据所述目标视频中每帧图像的对象特征,获取所述目标视频中目标对象之间的关系特征。6.根据权利要求1或5所述的方法,其中,所述目标对象之间的关系特征包括单帧图像中目标对象之间的关系特征以及帧间图像目标对象之间的关系特征的至少一项。7.根据权利要求5所述的方法,其中,所述根据所述目标视频中每帧图像的对象特征,获取所述目标视频中目标对象之间的关系特征,包括:将所述目标视频中每帧图像的对象特征输入预设的对象关系编码器,获取所述目标视频中每帧图像中目标对象之间的关系特征。8.根据权利要求5所述的方法,其中,所述根据所述目标视频中每帧图像的对象特征,获取所述目标视频中目标对象之间的关系特征,包括:将所述目标视频中每帧图像的对象特征输入预设的对象关系编码器,获取所述目标视频中每帧图像中目标对象之间的关系特征;根据所述目标视频中每帧图像中目标对象之间的关系特征,以及所述目标视频中每帧图像的对象特征,获取所述目标视频中帧间图像目标对象之间的关系特征。9.根据权利要求8所述的方法,其中,所述根据所述目标视频中每帧图像中目标对象之
间的关系特征,以及所述目标视频中每帧图像的对象特征,获取所述目标视频中帧间图像目标对象之间的关系特征,包括:将所述目标视频中每帧图像的目标对象之间的关系特征,以及所述目标视频中每帧图像的对象特征输入图卷积网络,获取所述目标视频中帧间图像目标对象之间的关系特征。10.根据权利要求1至9任一项所述的方法,其中,所述将所述目标视频的所述视觉特征以及所述知识增强特征输入视频描述生成模型,得到所述目标视频对应的视频描述文本,包括:将所述目标视频的所述视觉特征中的外观特征以及动作特征进行拼接,得到拼接后的特征;将所述拼接后的特征、所述事件特征以及所述关系特征同时输入所述视频描述生成模型的编码模块进行编码处理,再通过所述视频描述生成模型的解码模块进行解码处理,获得所述目标视频对应的视频描述文本。11.一种视频描述生成装置,包括:获取模块,用于获取待处理的目标视频,所述目标视频包括多个目标对象;特征提取模块,用于提取所述目标视频的视觉特征;特征分析模块,用于根据所述目标视频的视觉特征获取所述...

【专利技术属性】
技术研发人员:汪琦冯知凡柴春光朱勇
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1