视频标题生成方法及装置制造方法及图纸

技术编号:19480340 阅读:28 留言:0更新日期:2018-11-17 10:34
本申请公开了一种视频标题生成方法及装置,属于互联网技术领域。所述方法包括:获取视频的声音特征信息和图像特征信息;基于所述声音特征信息和所述图像特征信息,获取所述视频的目标场景信息,所述目标场景信息用于指示所述视频呈现的场景;基于所述目标场景信息和所述图像特征信息,生成所述视频的标题。本发明专利技术提高了提高视频标题的生成效率。本发明专利技术用于根据视频生成视频的标题。

【技术实现步骤摘要】
视频标题生成方法及装置
本申请涉及互联网
,特别涉及一种视频标题生成方法及装置。
技术介绍
随着科技的发展,越来越多的用户采用观看视频的方式获取信息。并且,用户在选择想要观看的视频时,通常是根据视频标题进行选择的。因此,视频标题对视频的观看率具有重要影响。其中,视频标题用于通过文字概括视频的主要内容。相关技术中,生成视频标题的方法通常为:运营人员观看视频,并在观看视频后,根据视频的内容确定视频的标题。但是,当待生成标题的视频数量较多时,该视频标题的生成效率较低。
技术实现思路
本专利技术实施例提供了一种视频标题生成方法及装置,可以解决相关技术中视频标题的生成效率较低的问题。所述技术方案如下:第一方面,提供了一种视频标题生成方法,所述方法包括:获取视频的声音特征信息和图像特征信息;基于所述声音特征信息和所述图像特征信息,获取所述视频的目标场景信息,所述目标场景信息用于指示所述视频呈现的场景;基于所述目标场景信息和所述图像特征信息,生成所述视频的标题。第二方面,提供了一种游戏视频的标题生成方法,所述方法包括:获取游戏视频的声音特征信息和图像特征信息;基于所述声音特征信息和所述图像特征信息,获取所述游戏视频的目标游戏场景信息,所述目标游戏场景信息用于指示所述游戏视频呈现的游戏场景;基于所述目标游戏场景信息和所述图像特征信息,生成所述游戏视频的标题。第三方面,提供了一种视频标题生成装置,所述装置包括:第一获取模块,用于获取视频的声音特征信息和图像特征信息;第二获取模块,用于基于所述声音特征信息和所述图像特征信息,获取所述视频的目标场景信息,所述目标场景信息用于指示所述视频呈现的场景;生成模块,用于基于所述目标场景信息和所述图像特征信息,生成所述视频的标题。第四方面,提供了一种终端,所述终端包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面任一所述的视频标题生成方法,或者,第二方面所述的游戏视频的标题生成方法。第五方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如第一方面任一所述的视频标题生成方法,或者,第二方面所述的游戏视频的标题生成方法。通过获取视频的声音特征信息和图像特征信息,并根据声音特征信息和图像特征信息,获取视频呈现的场景的场景信息,再根据该场景信息和图像特征信息生成视频标题,相较于相关技术,无需运营人员通过观看视频即可生成视频标题,有效地提高了视频标题的生成效率,节约了用于确定视频标题的人力和物力。并且,通过根据视频的声音特征信息和图像特征信息获取场景信息,再根据场景信息和图像特征信息生成视频标题,增加了生成视频标题时可供参考的信息量,使得生成的视频标题能够更准确地描述视频的主要内容,因此,有效地提高了生成的视频标题的准确性。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是相关技术中生成视频标题的模型示意图。图2是本专利技术实施例提供的一种视频标题生成方法的流程图。图3是本专利技术实施例提供的一种游戏视频的目标图像帧的示意图。图4是本专利技术实施例提供的一种获取视频的声音特征信息的方法流程图。图5是本专利技术实施例提供的一种射击游戏的游戏视频的目标图像帧的示意图。图6是本专利技术实施例提供的一种获取视频的目标场景信息的方法流程图。图7是本专利技术实施例提供的一种对声音特征信息和图像特征信息进行特征融合,得到场景特征信息的方法流程图。图8是本专利技术实施例提供的一种基于目标标题模板和多个目标知识库,生成标题的方法流程图。图9是本专利技术实施例提供的一种视频标题生成模型的示意图。图10是本专利技术实施例提供的一种游戏视频的标题生成方法的方法流程图。图11是本专利技术实施例提供的一种视频标题生成装置的结构示意图。图12是本专利技术实施例提供的一种游戏视频的标题生成装置的结构示意图。图13是本专利技术实施例提供的一种终端的结构示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。随着科技的发展,越来越多的用户采用观看视频的方式获取信息。并且,为了满足不同用户的需要,服务商一般会提供大量视频,以供用户观看。用户在观看视频之前,通常会根据视频的标题,在服务商提供的大量视频中选择想要观看的视频。因此,视频标题对视频的观看率具有重要影响。例如,游戏的服务商为了更加好地维护游戏生态,产生更大的用户粘性,每天都会生产大量的游戏视频,以供用户观看,面对该大量的游戏视频,用户通常会根据游戏视频的标题选择需要观看的视频。相关技术中,生成视频标题的方法通常为:运营人员观看视频,并在观看视频后,根据视频的内容确定视频的标题。但是,当待生成标题的视频数量较多时,该视频标题的生成效率较低。相关技术中,还可以通过机器学习的方法生成视频标题。例如:通过将循环神经网络(RecurrentNeuralNetwork,RNN)、卷积神经网络(ConvolutionalNeuralNetwork,CNN)和注意力(Attention)模型结合,并使用该结合模型生成视频标题。图1为该模型的结构示意图,该模型包括多级网络(图1中每个虚线框表示一级网络)。对于每一级网络,通过将视频的一个图像帧输入至CNN,使CNN提取图像帧在空间维度上的图像特征,然后将该图像特征输入至RNN,通过RNN提取图像帧在时间维度上的图像特征,并将该提取的图像特征输入至下级网络和最后一级网络中的RNN,以实现图像特征信息的传递。且最后一级网络中的RNN可以从时间维度上提取本级CNN向其输入的图像帧的图像特征,根据该图像特征和其他级网络中的RNN向其输入的图像特征,可以生成视频的标题。在该通过深度学习的方法生成视频标题的实现方式中,在根据图像特征生成视频标题时,是根据图像特征在预设词集中进行采样,并将采样到的词语进行拼接以得到视频标题的。但是,由于该采样过程通常是不可控的过程,导致根据采样得到的词语生成的标题通常是语意不通顺的词的组合。并且,由于该实现方式仅根据图像特征生成视频标题,会丢失视频中的一些信息,导致生成的视频标题对视频主要内容的描述能力较差,即生成的视频标题的准确性整体偏低。为此,本专利技术实施例提供了一种视频标题生成方法,通过获取视频的声音特征信息和图像特征信息,并根据该声音特征信息和图像特征信息,获取视频呈现的场景的场景信息,再根据该场景信息和图像特征信息生成视频标题,相较于相关技术,无需运营人员观看视频即可生成视频标题,有效地提高了视频标题的生成效率。并且,该视频标题生成方法通过根据视频的声音特征信息和图像特征信息获取场景信息,再根据场景信息和图像特征信息生成视频标题,增加了生成视频标题时可供参考的信息量,使得生成的视频标题能够更准确地描述视频的主要内容,因此,有效地提高了生成的视频标题的准本文档来自技高网...

【技术保护点】
1.一种视频标题生成方法,其特征在于,所述方法包括:获取视频的声音特征信息和图像特征信息;基于所述声音特征信息和所述图像特征信息,获取所述视频的目标场景信息,所述目标场景信息用于指示所述视频呈现的场景;基于所述目标场景信息和所述图像特征信息,生成所述视频的标题。

【技术特征摘要】
1.一种视频标题生成方法,其特征在于,所述方法包括:获取视频的声音特征信息和图像特征信息;基于所述声音特征信息和所述图像特征信息,获取所述视频的目标场景信息,所述目标场景信息用于指示所述视频呈现的场景;基于所述目标场景信息和所述图像特征信息,生成所述视频的标题。2.根据权利要求1所述的方法,其特征在于,所述基于所述目标场景信息和所述图像特征信息,生成所述视频的标题,包括:基于所述目标场景信息和所述图像特征信息,获取所述视频的目标标题模板;基于所述目标场景信息,获取所述视频对应的多个目标知识库,每个目标知识库中记载有用于描述场景信息的关键字,且所述多个目标知识库基于不同的场景特征划分得到;基于所述目标标题模板和所述多个目标知识库,生成所述标题。3.根据权利要求2所述的方法,其特征在于,所述基于所述目标标题模板和所述多个目标知识库,生成所述标题,包括:在每个目标知识库中,获取对所述目标标题模板进行填充的关键字;采用所述关键字对所述目标标题模板进行填充,以得到所述标题。4.根据权利要求2所述的方法,其特征在于,所述基于所述目标场景信息和所述图像特征信息,获取所述视频的目标标题模板,包括:将所述目标场景信息和所述图像特征信息输入第一分类器模型,由所述第一分类器模型根据所述目标场景信息和所述图像特征信息,在多个标题模板中确定所述目标标题模板;所述基于所述目标场景信息,获取所述视频对应的多个目标知识库,包括:基于所述目标场景信息,查询场景信息与知识库的对应关系,以得到所述多个目标知识库。5.根据权利要求1至4任一所述的方法,其特征在于,所述基于所述声音特征信息和所述图像特征信息,获取所述视频的目标场景信息,包括:对所述声音特征信息和所述图像特征信息进行特征融合,得到场景特征信息;基于所述场景特征信息,获取所述目标场景信息。6.根据权利要求5所述的方法,其特征在于,所述对所述声音特征信息和所述图像特征信息进行特征融合,得到场...

【专利技术属性】
技术研发人员:李俊王文郑萌
申请(专利权)人:深圳市腾讯网络信息技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1