【技术实现步骤摘要】
视频描述语句的生成方法及相关设备
本申请涉及人工智能
,具体而言,涉及一种视频描述语句的生成方法及相关设备。
技术介绍
视频描述(VideoCaptioning)是指为给定视频生成可用于描述该视频中内容的语句,所生成的语句被称为视频描述语句。通过为视频生成的视频描述语句,便于用户不用观看视频而仅仅通过视频描述语句即可快速获知视频的内容。相关技术中,所生成的视频描述语句存在句法单一的问题。
技术实现思路
本申请的实施例提供了一种视频描述语句的生成方法及相关设备,进而至少在一定程度上解决视频描述语句所存在句法单一的问题。本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。根据本申请实施例的一个方面,提供了一种视频描述语句的生成方法,所述方法包括:获取目标范例句的句法特征向量;根据所述句法特征向量确定所要生成视频描述语句的句法,得到句法信息;根据所述句法信息和目标视频的视频语义特征向量确定所述所要生成视频描述语句对应于所述句法的语义,得到语义信息;根据所述语 ...
【技术保护点】
1.一种视频描述语句的生成方法,其特征在于,所述方法包括:/n获取目标范例句的句法特征向量;/n根据所述句法特征向量确定所要生成视频描述语句的句法,得到句法信息;/n根据所述句法信息和目标视频的视频语义特征向量,确定所述所要生成视频描述语句对应于所述句法的语义,得到语义信息;/n根据所述语义信息生成所述目标视频的视频描述语句。/n
【技术特征摘要】
1.一种视频描述语句的生成方法,其特征在于,所述方法包括:
获取目标范例句的句法特征向量;
根据所述句法特征向量确定所要生成视频描述语句的句法,得到句法信息;
根据所述句法信息和目标视频的视频语义特征向量,确定所述所要生成视频描述语句对应于所述句法的语义,得到语义信息;
根据所述语义信息生成所述目标视频的视频描述语句。
2.根据权利要求1所述的方法,其特征在于,所述根据所述句法特征向量确定所要生成视频描述语句的句法,得到句法信息,包括:
由描述生成模型所包含的第一神经网络根据所述句法特征向量生成第一隐向量,所述第一隐向量用于指示所述句法信息,所述描述生成模型还包括第二神经网络,所述第一神经网络和第二神经网络是基于门控的循环神经网络;
所述根据所述句法信息和目标视频的视频语义特征向量确定所述所要生成视频描述语句对应于所述句法的语义,得到语义信息,包括:
由所述第二神经网络根据所述第一隐向量和所述视频语义特征向量生成第二隐向量,所述第二隐向量用于指示所述语义信息。
3.根据权利要求2所述的方法,其特征在于,所述根据所述语义信息生成所述目标视频的视频描述语句,包括:
根据所述第二神经网络在t时刻生成的第二隐向量确定t时刻的词向量;
根据各时刻所输出的词向量生成所述视频描述语句;
所述由描述生成模型所包含的第一神经网络根据所述句法特征向量生成第一隐向量,包括:
由所述第一神经网络根据所述句法特征向量、t-1时刻的词向量和所述第一神经网络所生成t-1时刻的第一隐向量,输出t时刻的第一隐向量;
所述由所述第二神经网络根据所述第一隐向量和所述视频语义特征向量生成第二隐向量,包括:
由所述第二神经网络根据所述视频语义特征向量、所述t时刻的第一隐向量和所述第二神经网络所生成t-1时刻的第二隐向量,输出t时刻的第二隐向量。
4.根据权利要求3所述的方法,其特征在于,所述由所述第一神经网络根据所述句法特征向量、t-1时刻的词向量和所述第一神经网络所生成t-1时刻的第一隐向量,输出t时刻的第一隐向量,包括:
根据所述t-1时刻的第一隐向量对所述句法特征向量进行软注意力加权,得到对应于t时刻的目标句法特征向量;
将所述对应于t时刻的目标句法特征向量与所述t-1时刻的词向量进行拼接,得到对应于t时刻的第一拼接向量;
由所述第一神经网络以所述对应于t时刻的第一拼接向量作为输入,对应输出t时刻的第一隐向量。
5.根据权利要求4所述的方法,其特征在于,所述第一神经网络包括第一输入门、第一遗忘门和第一输出门,所述由所述第一神经网络以所述对应于t时刻的第一拼接向量作为输入,对应输出t时刻的第一隐向量,包括:
由所述第一遗忘门根据所述对应于t时刻的第一拼接向量计算得到t时刻的第一遗忘门向量;以及由所述第一输入门根据所述对应于t时刻的第一拼接向量计算得到t时刻的第一输入门向量;
根据所述t时刻的第一遗忘门向量、所述t时刻的第一输入门向量、t时刻的第一单元向量和所述第一神经网络所对应t-1时刻的第一细胞单元向量计算得到t时刻的第一细胞单元向量,所述t时刻的第一单元向量是根据所述对应于t时刻的第一拼接向量进行双曲正切计算得到的;
根据所述t时刻的第一细胞单元向量和t时刻的第一输出门向量计算得到t时刻的第一隐向量,所述t时刻的第一输出门向量是由所述第一输出门根据所述对应于t时刻的第一拼接向量计算得到的。
6.根据权利要求5所述的方法,其特征在于,所述根据所述t时刻的第一遗忘门向量、所述t时刻的第一输入门向量、t时刻的第一单元向量和所述第一神经网络所对应t-1时刻的第一细胞单元向量计算得到t时刻的第一细胞单元向量之前,所述方法还包括:
对所述第一神经网络中的第一输入门向量、第一遗忘门向量、第一输出门向量和第一单元向量分别进行归一化;
根据第一偏移向量和第一缩放向量分别对归一化后的第一输入门向量、第一遗忘门向量、第一输出门向量和所述第一单元向量进行变换,得到目标第一输入门向量、目标第一遗忘门向量、目标第一输出门向量和目标第一单元向量,所述第一偏移向量是第一多层感知机根据所述对应于t时刻的目标句法特征向量输出的,所述第一缩放向量是第二多层感知机根据所述对应于t时刻的目标句法特征向量输出的,所述第一多层感知机与所述第二多层感知机相独立;
所述根据所述t时刻的第一遗忘门向量、所述t时刻的第一输入门向量、t时刻的第一单元向量和所述第一神经网络所对应t-1时刻的第一细胞单元向量计算得到t时刻的第一细胞单元向量,包括:
根据所述目标第一遗忘门向量、目标第一输入门向量、目标第一单元向量和所述t-1时刻的第一细胞单元向量计算得到t时刻的第一细胞单元向量;
所述根据所述t时刻的第一细胞单元向量和t时刻的第一输出门向量计算得到t时刻的第一隐向量,包括:
根据所述t时刻的第一细胞单元向量和所述目标输出门向量计算得到t时刻的第一隐向量。
7.根据权利要求3所述的方法,其特征在于,所述由所述第二神经网络根据所述视频语义特征向量、所述t时刻的第一隐向量和所述第二神经网络所生成t-1时刻的第二隐向量,输出t时刻的第二隐向量,包括:
根据所述t-1时刻的第二隐向量对所述视频语义特征向量进行软注意力加权,得到对应于t时刻的目标视频语义向量;
将所述对应于t时刻的目标视频语义向量与所述t时刻的第一隐向量进行拼接,得到对应于t时刻的第二拼接向量;
由所述第二神经网络以所述对应于t时刻的第二拼接向量作为输入,对应输出t时刻的第二隐向量。
8.根据权利要求7所述的方法,其特征在于,所述第二神经网络包括第二输入门、第二遗忘门和第二输出门,所述由所述第二神经网络以所述对应于t时刻的第二拼接向量作为输入,对应输出t时刻的第二隐向量,包括:
由所述第二遗忘门根据所述对应于t时刻的第二拼接向量计算得到t时刻的第二遗忘门向量;以及由所述第二输入门根据所述对应于t时刻的第二拼接向量计算得到t时刻的第二输入门向量;
根据所述t时刻的第二遗忘门向量、所述t时刻的第二输入门向量、t时刻的第二单元向量和所述第二神经网络所对应t-1时刻的第二细胞单元向量计算得到t时刻的第二细胞单元向量,所述t时刻的第二单元向量是根据所述对应于t时刻的第二拼接向量进行双曲正切计算得到的;
根据所述t时刻的第二细胞单元向量和t时刻的第二...
【专利技术属性】
技术研发人员:袁艺天,马林,朱文武,
申请(专利权)人:清华大学,腾讯科技深圳有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。