一种标签提取方法及装置制造方法及图纸

技术编号:24355152 阅读:90 留言:0更新日期:2020-06-03 02:24
本申请涉及计算机技术领域,并涉及人工智能的计算机视觉、机器学习等技术,尤其涉及一种标签提取方法及装置,获取待提取视频和所述待提取视频的视频标题;提取所述视频标题的标题特征信息;提取所述待提取视频中的各个目标视频帧的图像特征信息,并分别对所述各个目标视频帧,根据目标视频帧的图像特征信息和所述标题特征信息进行目标检测,获得所述各个目标视频帧的标签;根据所述各个目标视频帧的标签,确定所述待提取视频的标签,这样,融合标题特征信息和图像特征信息进行标签提取,可以提高视频标签提取的准确性。

A label extraction method and device

【技术实现步骤摘要】
一种标签提取方法及装置
本申请涉及计算机
,尤其涉及一种标签提取方法及装置。
技术介绍
视频标签提取是指识别视频中描述的主要物体和内容,视频标签可应用于视频的分类、推荐及检索等任务中,相关技术中视频标签提取方法通常仅是依据单一信息来提取视频标签,但是单独使用一种信息受到影响较大,准确性较低,容易导致提取的标签错误。
技术实现思路
本申请实施例提供一种标签提取方法及装置,以提高视频标签提取的准确性。本申请实施例提供的具体技术方案如下:本申请一个实施例提供了一种标签提取方法,包括:获取待提取视频和所述待提取视频的视频标题;提取所述视频标题的标题特征信息;提取所述待提取视频中的各个目标视频帧的图像特征信息,并分别对所述各个目标视频帧,根据目标视频帧的图像特征信息和所述标题特征信息进行目标检测,获得所述各个目标视频帧的标签;根据所述各个目标视频帧的标签,确定所述待提取视频的标签。本申请另一个实施例提供了一种标签提取装置,包括:获取模块,用于获取待提取视频和所述待提取视频的视频标题;提取模块,用于提取所述视频标题的标题特征信息;处理模块,用于提取所述待提取视频中的各个目标视频帧的图像特征信息,并分别对所述各个目标视频帧,根据目标视频帧的图像特征信息和所述标题特征信息进行目标检测,获得所述各个目标视频帧的标签;确定模块,用于根据所述各个目标视频帧的标签,确定所述待提取视频的标签。可选的,提取所述视频标题的标题特征信息时,提取模块具体用于:基于已训练的文本编码模型,以所述视频标题为输入,依次通过所述文本编码模型的卷积层和池化层,对所述视频标题进行卷积和压缩操作,获得所述视频标题的标题特征信息。可选的,提取所述待提取视频中的各个目标视频帧的图像特征信息,并分别对所述各个目标视频帧,根据目标视频帧的图像特征信息和所述标题特征信息进行目标检测,获得所述各个目标视频帧的标签时,处理模块具体用于:基于已训练的目标检测模型,提取所述待提取视频中的各个目标视频帧的图像特征信息,并分别对所述各个目标视频帧,根据目标视频帧的图像特征信息和所述标题特征信息进行目标检测,获得所述各个目标视频帧的标签,所述目标检测模型包括图像特征提取模块和目标检测模块,其中:所述图像特征提取模块分别以所述各个目标视频帧为输入,对所述各个目标视频帧进行卷积操作,获得所述各个目标视频帧的图像特征信息;所述目标检测模块以所述标题特征信息和所述各个目标视频帧的图像特征信息为输入,分别对所述各个目标视频帧进行目标检测,获得所述各个目标视频帧中检测到的目标所属的类别和类别置信度;并分别将所述各个目标视频帧中检测到的目标所属的类别,作为对应目标视频帧的标签。可选的,所述目标检测模块的网络结构至少包括三层分支结构,分别为第一分支结构、第二分支结构和第三分支结构,所述第一分支结构用于检测第一大小范围内的目标,所述第二分支结构用于检测第二大小范围内的目标,所述第三分支结构用于检测第三大小范围内的目标,所述第一大小范围表示大于第一阈值,第二大小范围表示第一阈值和第二阈值之间,第三大小范围表示小于第二阈值;并所述第一分支结构以所述图像特征提取模块的最后一层卷积层输出的图像特征信息和所述标题特征信息为输入,所述第二分支结构以所述图像特征模块的第一中间层卷积层输出的图像特征信息、所述第一分支结构中对所述最后一层卷积层输出的图像特征信息进行全卷积特征提取后的输出和所述标题特征信息为输入,所述第三分支结构以所述图像特征模块的第二中间层卷积层输出的图像特征信息、所述第二分支结构中对所述第一中间层卷积层输出的图像特征信息进行全卷积特征提取后的输出和所述标题特征信息为输入,所述第一分支结构、所述第二分支结构和所述第三分支结构的输出均为检测到的目标所属的类别和类别置信度,以及目标的位置信息。可选的,根据所述各个目标视频帧的标签,确定所述待提取视频的标签时,确定模块具体用于:分别针对所述各个目标视频帧,统计所述各个目标视频帧中所有目标的类别置信度大于置信度阈值对应的标签,确定为所述待提取视频的候选标签集;根据所述候选标签集,确定所述待提取视频的标签。可选的,根据所述候选标签集,确定所述待提取视频的标签时,确定模块具体用于:分别统计所述候选标签集中各标签出现的次数;将出现的次数大于类别次数阈值的标签作为所述待提取视频的标签。本申请另一个实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一种标签提取方法的步骤。本申请另一个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种标签提取方法的步骤。本申请实施例中,获取待提取视频和待提取视频的视频标题,提取视频标题的标题特征信息和各个目标视频帧的图像特征信息,并分别对各个目标视频帧,根据目标视频帧的图像特征信息和标题特征信息进行目标检测,获得各个目标视频帧的标签,进而可以根据各个目标视频帧的标签,确定待提取视频的标签,这样,根据标题特征信息和图像特征信息,对各个目标视频帧进行目标检测,提高目标检测的性能和可靠性,提高了各个目标视频帧的标签的准确性,从而提高了视频标签提取的准确性,因此融合标题特征信息和图像特征信息进行标签提取,相较于仅采用单一因素的方式,可以提高视频标签提取的准确性和可靠性。附图说明图1为本申请实施例中标签提取方法的应用架构示意图;图2为本申请实施例中一种标签提取方法流程图;图3为本申请实施例中另一种标签提取方法流程图;图4为本申请实施例中标签提取方法技术实现原理流程图;图5为本申请实施例中文本编码模型和目标检测模型的网络结构示意图;图6为本申请实施例中标签视频方法中待提取视频的示意图;图7为本申请实施例中标签提取装置结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,并不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。为便于对本申请实施例的理解,下面先对几个概念进行简单介绍:标签:本申请实施例中主要指视频的标签,通常可以表征视频内容的属性、类别、关键词等,视频标签可以用于视频的分类、推荐及检索等任务中。视频标题:表示视频的标题内容,通常视频标题可以是用户自定义的,例如用户在上传一个视频时,可以同时给该视频定义一个标题并上传。文本编码模型:是对文本进行编码和特征提取的一种模型,例如卷积神经网络(ConvolutionalNeuralNetworks,CNN)、长短期记忆(LongShortTermMemory,LSTM)网络、双向转换编码器(Bidi本文档来自技高网...

【技术保护点】
1.一种标签提取方法,其特征在于,包括:/n获取待提取视频和所述待提取视频的视频标题;/n提取所述视频标题的标题特征信息;/n提取所述待提取视频中的各个目标视频帧的图像特征信息,并分别对所述各个目标视频帧,根据目标视频帧的图像特征信息和所述标题特征信息进行目标检测,获得所述各个目标视频帧中检测到的目标所属的类别和类别置信度,并分别将所述各个目标视频帧中检测到的目标所属的类别,作为对应目标视频帧的标签;/n分别针对所述各个目标视频帧,统计所述各个目标视频帧中所有目标的类别置信度大于置信度阈值对应的标签,确定为所述待提取视频的候选标签集;根据所述候选标签集,确定所述待提取视频的标签。/n

【技术特征摘要】
1.一种标签提取方法,其特征在于,包括:
获取待提取视频和所述待提取视频的视频标题;
提取所述视频标题的标题特征信息;
提取所述待提取视频中的各个目标视频帧的图像特征信息,并分别对所述各个目标视频帧,根据目标视频帧的图像特征信息和所述标题特征信息进行目标检测,获得所述各个目标视频帧中检测到的目标所属的类别和类别置信度,并分别将所述各个目标视频帧中检测到的目标所属的类别,作为对应目标视频帧的标签;
分别针对所述各个目标视频帧,统计所述各个目标视频帧中所有目标的类别置信度大于置信度阈值对应的标签,确定为所述待提取视频的候选标签集;根据所述候选标签集,确定所述待提取视频的标签。


2.如权利要求1所述的方法,其特征在于,提取所述视频标题的标题特征信息,具体包括:
基于已训练的文本编码模型,以所述视频标题为输入,依次通过所述文本编码模型的卷积层和池化层,对所述视频标题进行卷积和压缩操作,获得所述视频标题的标题特征信息。


3.如权利要求1所述的方法,其特征在于,具体包括:
基于已训练的目标检测模型,提取所述待提取视频中的各个目标视频帧的图像特征信息,并分别对所述各个目标视频帧,根据目标视频帧的图像特征信息和所述标题特征信息进行目标检测,获得所述各个目标视频帧的标签,所述目标检测模型包括图像特征提取模块和目标检测模块,其中:
所述图像特征提取模块分别以所述各个目标视频帧为输入,对所述各个目标视频帧进行卷积操作,获得所述各个目标视频帧的图像特征信息;
所述目标检测模块以所述标题特征信息和所述各个目标视频帧的图像特征信息为输入,分别对所述各个目标视频帧进行目标检测,获得所述各个目标视频帧中检测到的目标所属的类别和类别置信度;并分别将所述各个目标视频帧中检测到的目标所属的类别,作为对应目标视频帧的标签。


4.如权利要求3所述的方法,其特征在于,所述目标检测模块的网络结构至少包括三层分支结构,分别为第一分支结构、第二分支结构和第三分支结构,所述第一分支结构用于检测第一大小范围内的目标,所述第二分支结构用于检测第二大小范围内的目标,所述第三分支结构用于检测第三大小范围内的目标,所述第一大小范围表示大于第一阈值,第二大小范围表示第一阈值和第二阈值之间,第三大小范围表示小于第二阈值;
并所述第一分支结构以所述图像特征提取模块的最后一层卷积层输出的图像特征信息和所述标题特征信息为输入,所述第二分支结构以所述图像特征模块的第一中间层卷积层输出的图像特征信息、所述第一分支结构中对所述最后一层卷积层输出的图像特征信息进行全卷积特征提取后的输出和所述标题特征信息为输入,所述第三分支结构以所述图像特征模块的第二中间层卷积层输出的图像特征信息、所述第二分支结构中对...

【专利技术属性】
技术研发人员:刘树林
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1