视频描述文本生成方法、装置、设备和介质制造方法及图纸

技术编号：22167017 阅读：18 留言：0更新日期：2019-09-21 10:37

本发明专利技术实施例公开了一种视频描述文本生成方法、装置、设备和介质，涉及数字图像处理与自然语言处理领域。该方法包括：根据预设描述词语与待描述视频的相关度，从所述预设描述词语中确定候选描述词语；根据所述待描述视频的视觉特征，从所述候选描述词语中选择目标描述文本中的各位置词语，以生成所述待描述视频的目标描述文本。本发明专利技术实施例提供一种视频描述文本生成方法、装置、设备和介质，以提高视频描述文本的准确率。

Video Description Text Generation Method, Device, Equipment and Media

全部详细技术资料下载

【技术实现步骤摘要】
视频描述文本生成方法、装置、设备和介质
本专利技术实施例涉及数字图像处理与自然语言处理领域，尤其涉及一种视频描述文本生成方法、装置、设备和介质。
技术介绍
目前，视频资源已经变成人们获取信息最流行和喜爱的方式，尤其是在一些视频APP出现后，每天刷视频已经成为很多人必不可少的休闲娱乐方式。为了更好的服务于用户，需要将视频中最核心的信息用文本形式表达,以便进行推荐展示。因此必须有一种方法能够对于给定的视频输出该视频的核心内容信息。将视频内容用文本描述的专业术语是“video2caption”，它是计算机视觉领域当前最热的研究方向之一。目前video2caption的方法大致分为2大类：一类是基于模板形式，算法首先根据视频预测有哪些主谓宾信息，然后根据这些主谓宾和模板信息构造视频描述文本；另外一类是基于生成的形式，该形式一般是采用深度学习的方法，输入视频，深度学习神经网络直接输出视频的描述文本，而不需要构建模板信息。现有方法的主要问题在于：描述生成效果差，巨大的词汇搜索空间使得词汇的选择变得十分困难，导致最终生成的质量不尽人意。
技术实现思路
本专利技术实施例提供一种视频描述文本生成方法、装置、设备和介质，以提高视频描述文本的准确率。第一方面，本专利技术实施例提供了一种视频描述文本生成方法，该方法包括：根据预设描述词语与待描述视频的相关度，从所述预设描述词语中确定候选描述词语，其中所述候选描述词语的数量小于所述预设描述词语的数量；根据所述待描述视频的视觉特征，从所述候选描述词语中选择目标描述文本中的各位置词语，以生成所述待描述视频的目标描述文本。第二方面，本专利技术...

【技术保护点】
1.一种视频描述文本生成方法，其特征在于，包括：根据预设描述词语与待描述视频的相关度，从所述预设描述词语中确定候选描述词语，其中所述候选描述词语的数量小于所述预设描述词语的数量；根据所述待描述视频的视觉特征，从所述候选描述词语中选择目标描述文本中的各位置词语，以生成所述待描述视频的目标描述文本。

【技术特征摘要】
1.一种视频描述文本生成方法，其特征在于，包括：根据预设描述词语与待描述视频的相关度，从所述预设描述词语中确定候选描述词语，其中所述候选描述词语的数量小于所述预设描述词语的数量；根据所述待描述视频的视觉特征，从所述候选描述词语中选择目标描述文本中的各位置词语，以生成所述待描述视频的目标描述文本。2.根据权利要求1所述的方法，其特征在于，所述根据预设描述词语与待描述视频的相关度，从所述预设描述词语中确定候选描述词语，包括：根据所述待描述视频的视觉特征和所述预设描述词语的词向量，确定所述预设描述词语的选择概率，其中所述预设描述词语的词向量预先训练得到；根据所述选择概率从所述预设描述词语中确定所述候选描述词语。3.根据权利要求2所述的方法，其特征在于，所述词向量的预先训练过程包括：根据训练视频的视觉特征和所述预设描述词语的初始词向量，从所述预设描述词语中确定训练描述词语；根据所述训练视频的视觉特征，从所述训练描述词语中选择训练描述文本中的各位置词语，以生成描述所述训练视频的训练描述文本；根据所述训练描述文本与所述训练视频的训练目标之间的误差，对所述预设描述词语的初始词向量进行调整；基于调整后的预设描述词语的词向量，返回继续执行上述训练步骤，直至满足训练截止条件。4.根据权利要求1所述的方法，其特征在于，所述根据所述待描述视频的视觉特征，从所述候选描述词语中选择目标描述文本中的各位置词语，包括：根据所述待描述视频的视觉特征和文本中词语间的连接关系，预测所述候选描述词语作为所述各位置词语的概率；根据所述候选描述词语作为所述各位置词语的概率，从所述候选描述词语中选择所述目标描述文本中的各位置词语。5.根据权利要求4所述的方法，其特征在于，所述根据所述待描述视频的视觉特征和文本中词语间的连接关系，预测所述候选描述词语作为所述各位置词语的概率，包括：基于注意力机制，根据所述待描述视频的视觉特征和所述目标描述语中任一当前位置词语的上一位置词语的状态表示，确定所述待描述视频中各视频图像对所述当前位置词语的贡献权重；根据所述当前位置词语的贡献权重、所述上一位置词语和所述上一位置词语的状态表示，确定所述候选描述词语作为所述当前位置词语的概率。6.根据权利要求3所述的方法，其特征在于，所述根据所述当前位置词语的贡献权重、所述上一位置词语和所述上一位置词语的状态表示，确定所述候选描述词语作为所述当前位置词语的概率，包括：根据所述当前位置词语的贡献权重、所述上一位置词语和所述上一位置词语的状态表示，确定所述当前位置词语的状态表示；根据所述当前位置词语的状态表示和所述上一位置词语，确定所述候选描述词语作为所述当前位置词语的概率。7.根据权利要求1所述的方法，其特征在于，所述根据所述待描述视频的视觉特征，从所述候选描述词语中选择目标描述文本中的各位置词语之前，所述方法还包括：提取所述待描述视频的二维纹理特征和三维动态纹理特征；拼接所述二维纹理特征和所述三维动态纹理特征，生成所述待描述视频的视觉特征。8.根据权利要求1所述的方法，其特征在于，所述根据所述待描述视频...

【专利技术属性】
技术研发人员：卞东海，蒋帅，陈思姣，曾启飞，罗雨，彭卫华，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人