视频描述文本生成方法、装置、设备和介质制造方法及图纸

技术编号:22167017 阅读:18 留言:0更新日期:2019-09-21 10:37
本发明专利技术实施例公开了一种视频描述文本生成方法、装置、设备和介质,涉及数字图像处理与自然语言处理领域。该方法包括:根据预设描述词语与待描述视频的相关度,从所述预设描述词语中确定候选描述词语;根据所述待描述视频的视觉特征,从所述候选描述词语中选择目标描述文本中的各位置词语,以生成所述待描述视频的目标描述文本。本发明专利技术实施例提供一种视频描述文本生成方法、装置、设备和介质,以提高视频描述文本的准确率。

Video Description Text Generation Method, Device, Equipment and Media

【技术实现步骤摘要】
视频描述文本生成方法、装置、设备和介质
本专利技术实施例涉及数字图像处理与自然语言处理领域,尤其涉及一种视频描述文本生成方法、装置、设备和介质。
技术介绍
目前,视频资源已经变成人们获取信息最流行和喜爱的方式,尤其是在一些视频APP出现后,每天刷视频已经成为很多人必不可少的休闲娱乐方式。为了更好的服务于用户,需要将视频中最核心的信息用文本形式表达,以便进行推荐展示。因此必须有一种方法能够对于给定的视频输出该视频的核心内容信息。将视频内容用文本描述的专业术语是“video2caption”,它是计算机视觉领域当前最热的研究方向之一。目前video2caption的方法大致分为2大类:一类是基于模板形式,算法首先根据视频预测有哪些主谓宾信息,然后根据这些主谓宾和模板信息构造视频描述文本;另外一类是基于生成的形式,该形式一般是采用深度学习的方法,输入视频,深度学习神经网络直接输出视频的描述文本,而不需要构建模板信息。现有方法的主要问题在于:描述生成效果差,巨大的词汇搜索空间使得词汇的选择变得十分困难,导致最终生成的质量不尽人意。
技术实现思路
本专利技术实施例提供一种视频描述文本生成方法、装置、设备和介质,以提高视频描述文本的准确率。第一方面,本专利技术实施例提供了一种视频描述文本生成方法,该方法包括:根据预设描述词语与待描述视频的相关度,从所述预设描述词语中确定候选描述词语,其中所述候选描述词语的数量小于所述预设描述词语的数量;根据所述待描述视频的视觉特征,从所述候选描述词语中选择目标描述文本中的各位置词语,以生成所述待描述视频的目标描述文本。第二方面,本专利技术实施例还提供了一种视频描述文本生成装置,该装置包括:候选词语确定模块,用于根据预设描述词语与待描述视频的相关度,从所述预设描述词语中确定候选描述词语,其中所述候选描述词语的数量小于所述预设描述词语的数量;描述文本生成模块,用于根据所述待描述视频的视觉特征,从所述候选描述词语中选择目标描述文本中的各位置词语,以生成所述待描述视频的目标描述文本。第三方面,本专利技术实施例还提供了一种电子设备,所述设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本专利技术实施例中任一项所述的视频描述文本生成方法。第四方面,本实施例还提供了一种可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如本专利技术实施例中任一项所述的视频描述文本生成方法。本专利技术实施例通过从所述预设描述词语中确定候选描述词语,其中所述候选描述词语的数量小于所述预设描述词语的数量;根据所述待描述视频的视觉特征,从所述候选描述词语中,而非全量的预设描述词语中,选择目标描述文本中的各位置词语,从而缩小词语搜索空间。通过根据预设描述词语与待描述视频的相关度,从所述预设描述词语中确定候选描述词语,使得搜索空间中包括待描述视频的相关词语。相比在全量预设描述词语构成的巨大词语搜索空间中进行词语的搜索,本实施例通过在包括待描述视频的相关词语的缩小词语搜索空间进行词语的搜索,可以实现对目标描述文本中词语的快速准确搜索。附图说明图1是本专利技术实施例一提供的一种视频描述文本生成方法的流程图;图2是本专利技术实施例二提供的一种视频描述文本生成方法的流程图;图3是本专利技术实施例三提供的一种视频描述文本生成方法的流程图;图4是本专利技术实施例四提供的一种视频描述文本生成方法的流程图;图5是本专利技术实施例五提供的一种视频描述文本生成装置的结构示意图;图6是本专利技术实施例六提供的一种设备的结构示意图。具体实施方式专利技术人在实现本专利技术的过程中发现:目前业界还没有针对
技术介绍
所提问题的解决方案,当前研究的方向主要集中在如何提取更多的视频信息,更好的评价规则等问题。对于减少网络生成搜索空间方面还仅限于优化网络结构、减少参数量等方面。并且专利技术人还发现:基于encoder-decoder(编码-解码)的深度学习框架的传统解码方法,在生成目标视频文本时,每步都是使用词汇表中的全部词语(该词语的数量多达20000多个)作为预测空间;然后选择概率最大的词汇作为输出。但是,针对某个视频而言,其涉及到的词汇一般不会超过100个,因此如果可以有效的减少预测时使用的词汇表大小(也即词语数量)就可以生成质量更高的目标描述文本。下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1为本专利技术实施例一提供的一种视频描述文本生成方法的流程图。本实施例可适用于将视频内容用文本进行准确描述的情况。典型地,本实施可适用于文章自动生成(AlgorithmGeneratedContent,AGC)应用中。该方法可以由一种视频描述文本生成装置来执行,该装置可以由软件和/或硬件的方式实现。参见图1,本实施例提供的视频描述文本生成方法包括:S110、根据预设描述词语与待描述视频的相关度,从所述预设描述词语中确定候选描述词语。其中,预设描述词语是预设的文本描述词语。相比候选描述词语,预设描述词语的数量较大,覆盖较全。具体地,预设描述词语可以从网络中抓取。典型地,预设描述词语可以在对视频内容文本描述模型的训练阶段,从视频描述文本的海量样本数据中获取。候选描述词语是与待描述视频相关的词语。候选描述词语的数量远小于预设描述词语的数量。通常预设描述词语的数量较大,多达20000多个,而候选描述词语的数量较小,一般在100个左右。具体地,根据预设描述词语与待描述视频的相关度,从所述预设描述词语中确定候选描述词语,包括:识别待描述视频的内容信息;匹配所述预设描述词语与所述内容信息;将匹配成功的预设描述词语作为候选描述词语。S120、根据所述待描述视频的视觉特征,从所述候选描述词语中选择目标描述文本中的各位置词语,以生成所述待描述视频的目标描述文本。其中,所述待描述视频的视觉特征是指,待描述视频的视觉呈现效果特征。具体地,所述根据所述待描述视频的视觉特征,从所述候选描述词语中选择目标描述文本中的各位置词语之前,所述方法还包括:提取所述待描述视频的二维纹理特征和三维动态纹理特征;拼接所述二维纹理特征和所述三维动态纹理特征,生成所述待描述视频的视觉特征。其中,待描述视频的二维纹理特征和三维动态纹理特征可以根据任意特征提取算法提取。典型地,基于卷积神经网络(CNN),提取所述待描述视频的二维纹理特征向量。基于C3D-network(用于视频特征提取的3维卷积网络),提取所述待描述视频的三维动态纹理特征向量。具体地,根据所述待描述视频的视觉特征,从所述候选描述词语中选择目标描述文本中的各位置词语,以生成所述待描述视频的目标描述文本,包括:将所述待描述视频的视觉特征输入预先训练的文本生成模型中,输出所述待描述视频的目标描述文本。为使生成的目标描述文本中包括待描述视频的语义信息,以进一步提高对待描述视频的描述准确率,所述根据所述待描述视频的视觉特征,从所述候选描述词语中选择目标描述文本中的各位置词语之前,所述方法还包括:提取所述待描述视频的目标实体信息和行为动作信息;相本文档来自技高网
...

【技术保护点】
1.一种视频描述文本生成方法,其特征在于,包括:根据预设描述词语与待描述视频的相关度,从所述预设描述词语中确定候选描述词语,其中所述候选描述词语的数量小于所述预设描述词语的数量;根据所述待描述视频的视觉特征,从所述候选描述词语中选择目标描述文本中的各位置词语,以生成所述待描述视频的目标描述文本。

【技术特征摘要】
1.一种视频描述文本生成方法,其特征在于,包括:根据预设描述词语与待描述视频的相关度,从所述预设描述词语中确定候选描述词语,其中所述候选描述词语的数量小于所述预设描述词语的数量;根据所述待描述视频的视觉特征,从所述候选描述词语中选择目标描述文本中的各位置词语,以生成所述待描述视频的目标描述文本。2.根据权利要求1所述的方法,其特征在于,所述根据预设描述词语与待描述视频的相关度,从所述预设描述词语中确定候选描述词语,包括:根据所述待描述视频的视觉特征和所述预设描述词语的词向量,确定所述预设描述词语的选择概率,其中所述预设描述词语的词向量预先训练得到;根据所述选择概率从所述预设描述词语中确定所述候选描述词语。3.根据权利要求2所述的方法,其特征在于,所述词向量的预先训练过程包括:根据训练视频的视觉特征和所述预设描述词语的初始词向量,从所述预设描述词语中确定训练描述词语;根据所述训练视频的视觉特征,从所述训练描述词语中选择训练描述文本中的各位置词语,以生成描述所述训练视频的训练描述文本;根据所述训练描述文本与所述训练视频的训练目标之间的误差,对所述预设描述词语的初始词向量进行调整;基于调整后的预设描述词语的词向量,返回继续执行上述训练步骤,直至满足训练截止条件。4.根据权利要求1所述的方法,其特征在于,所述根据所述待描述视频的视觉特征,从所述候选描述词语中选择目标描述文本中的各位置词语,包括:根据所述待描述视频的视觉特征和文本中词语间的连接关系,预测所述候选描述词语作为所述各位置词语的概率;根据所述候选描述词语作为所述各位置词语的概率,从所述候选描述词语中选择所述目标描述文本中的各位置词语。5.根据权利要求4所述的方法,其特征在于,所述根据所述待描述视频的视觉特征和文本中词语间的连接关系,预测所述候选描述词语作为所述各位置词语的概率,包括:基于注意力机制,根据所述待描述视频的视觉特征和所述目标描述语中任一当前位置词语的上一位置词语的状态表示,确定所述待描述视频中各视频图像对所述当前位置词语的贡献权重;根据所述当前位置词语的贡献权重、所述上一位置词语和所述上一位置词语的状态表示,确定所述候选描述词语作为所述当前位置词语的概率。6.根据权利要求3所述的方法,其特征在于,所述根据所述当前位置词语的贡献权重、所述上一位置词语和所述上一位置词语的状态表示,确定所述候选描述词语作为所述当前位置词语的概率,包括:根据所述当前位置词语的贡献权重、所述上一位置词语和所述上一位置词语的状态表示,确定所述当前位置词语的状态表示;根据所述当前位置词语的状态表示和所述上一位置词语,确定所述候选描述词语作为所述当前位置词语的概率。7.根据权利要求1所述的方法,其特征在于,所述根据所述待描述视频的视觉特征,从所述候选描述词语中选择目标描述文本中的各位置词语之前,所述方法还包括:提取所述待描述视频的二维纹理特征和三维动态纹理特征;拼接所述二维纹理特征和所述三维动态纹理特征,生成所述待描述视频的视觉特征。8.根据权利要求1所述的方法,其特征在于,所述根据所述待描述视频...

【专利技术属性】
技术研发人员:卞东海蒋帅陈思姣曾启飞罗雨彭卫华
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1