【技术实现步骤摘要】
视频描述生成方法、装置、设备以及存储介质
[0001]本公开涉及人工智能领域的知识图谱、深度学习、计算机视觉、视频处理等
,尤其涉及一种视频描述生成方法、装置、设备以及存储介质。
技术介绍
[0002]视频描述生成(video captioning)是利用机器学习技术,将视频生成对应的自然语言语句,其广泛适用于人机交互场景,如帮助视力受损人员进行视频内容的描述、视频标题或摘要生成等。
[0003]相关技术中,视频描述生成大多是基于序列到序列(sequence to sequence)的生成方法,其主要做法是采用编码器
‑
解码器(encoder
‑
decode)框架,通过编码器编码视频,再通过解码器生成文本序列。然而,相关技术对视频的特征分析不够全面,进而影响视频描述的质量。
技术实现思路
[0004]本公开提供了一种视频描述生成方法、装置、设备以及存储介质。
[0005]根据本公开的第一方面,提供了一种视频描述生成方法,包括:
[0006]获取待处理的目标视频,所述目标视频包括多个目标对象;
[0007]提取所述目标视频的视觉特征;
[0008]根据所述目标视频的视觉特征获取所述目标视频的知识增强特征,所述知识增强特征包括所述目标视频的事件特征以及所述目标视频中目标对象之间的关系特征的至少一项;
[0009]将所述目标视频的所述视觉特征以及所述知识增强特征输入视频描述生成模型,得到所述目标视频对应的视频描述文本。 ...
【技术保护点】
【技术特征摘要】
1.一种视频描述生成方法,包括:获取待处理的目标视频,所述目标视频包括多个目标对象;提取所述目标视频的视觉特征;根据所述目标视频的视觉特征获取所述目标视频的知识增强特征,所述知识增强特征包括所述目标视频的事件特征以及所述目标视频中目标对象之间的关系特征的至少一项;将所述目标视频的所述视觉特征以及所述知识增强特征输入视频描述生成模型,得到所述目标视频对应的视频描述文本。2.根据权利要求1所述的方法,其中,所述视觉特征包括外观特征、动作特征以及对象特征的至少一项;所述提取所述目标视频的视觉特征,包括:采用二维卷积神经网络提取所述目标视频中每帧图像的外观特征;和/或采用三维卷积神经网络提取所述目标视频中每帧图像的动作特征,所述动作特征用于指示目标对象的动作属性;和/或采用目标检测算法提取所述目标视频中每帧图像的目标对象的对象特征。3.根据权利要求1或2所述的方法,其中,所述根据所述目标视频的视觉特征获取所述目标视频的知识增强特征,包括:根据所述目标视频的外观特征以及动作特征,获取所述目标视频的事件特征。4.根据权利要求3所述的方法,其中,所述根据所述目标视频的外观特征以及动作特征,获取所述目标视频的事件特征,包括:将所述目标视频的外观特征以及动作特征进行拼接,得到拼接后的特征;将所述拼接后的特征输入事件检测模型,得到所述目标视频对应的事件类型;根据预先构建的事件知识图谱以及所述目标视频对应的事件类型,获取所述目标视频对应的事件类型的向量表示;所述事件知识图谱包括多种事件类型的向量表示。5.根据权利要求1或2所述的方法,其中,所述根据所述目标视频的视觉特征获取所述目标视频的知识增强特征,包括:根据所述目标视频中每帧图像的对象特征,获取所述目标视频中目标对象之间的关系特征。6.根据权利要求1或5所述的方法,其中,所述目标对象之间的关系特征包括单帧图像中目标对象之间的关系特征以及帧间图像目标对象之间的关系特征的至少一项。7.根据权利要求5所述的方法,其中,所述根据所述目标视频中每帧图像的对象特征,获取所述目标视频中目标对象之间的关系特征,包括:将所述目标视频中每帧图像的对象特征输入预设的对象关系编码器,获取所述目标视频中每帧图像中目标对象之间的关系特征。8.根据权利要求5所述的方法,其中,所述根据所述目标视频中每帧图像的对象特征,获取所述目标视频中目标对象之间的关系特征,包括:将所述目标视频中每帧图像的对象特征输入预设的对象关系编码器,获取所述目标视频中每帧图像中目标对象之间的关系特征;根据所述目标视频中每帧图像中目标对象之间的关系特征,以及所述目标视频中每帧图像的对象特征,获取所述目标视频中帧间图像目标对象之间的关系特征。9.根据权利要求8所述的方法,其中,所述根据所述目标视频中每帧图像中目标对象之
间的关系特征,以及所述目标视频中每帧图像的对象特征,获取所述目标视频中帧间图像目标对象之间的关系特征,包括:将所述目标视频中每帧图像的目标对象之间的关系特征,以及所述目标视频中每帧图像的对象特征输入图卷积网络,获取所述目标视频中帧间图像目标对象之间的关系特征。10.根据权利要求1至9任一项所述的方法,其中,所述将所述目标视频的所述视觉特征以及所述知识增强特征输入视频描述生成模型,得到所述目标视频对应的视频描述文本,包括:将所述目标视频的所述视觉特征中的外观特征以及动作特征进行拼接,得到拼接后的特征;将所述拼接后的特征、所述事件特征以及所述关系特征同时输入所述视频描述生成模型的编码模块进行编码处理,再通过所述视频描述生成模型的解码模块进行解码处理,获得所述目标视频对应的视频描述文本。11.一种视频描述生成装置,包括:获取模块,用于获取待处理的目标视频,所述目标视频包括多个目标对象;特征提取模块,用于提取所述目标视频的视觉特征;特征分析模块,用于根据所述目标视频的视觉特征获取所述...
【专利技术属性】
技术研发人员:汪琦,冯知凡,柴春光,朱勇,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。