一种视频精彩片段识别方法及装置制造方法及图纸

技术编号:22167019 阅读:79 留言:0更新日期:2019-09-21 10:37
本发明专利技术提供了一种视频精彩片段识别方法及装置,从视频片段中提取了视觉维度的特征,即图像特征向量,同时,还提取了听觉维度的特征,即音频特征向量。音频信息也是视频的一个重要构成,音频的节奏变化在一定程度上能够反映视频片段的精彩程度。因此,综合考虑视频特征和音频特征来判断该视频片段是否是精彩片段,能够提高精彩片段识别的准确度。而且,该方法提取视觉维度的特征,同时还捕捉了视频中时间维度和空间维度的特征,因此,在一定程度上也能够提高识别精彩片段的准确度。

A Method and Device for Video Splendid Fragment Recognition

【技术实现步骤摘要】
一种视频精彩片段识别方法及装置
本专利技术属于计算机
,尤其涉及一种视频精彩片段识别方法及装置。
技术介绍
随着网络技术和智能移动设备迅速发展,大量的视频信息涌现在用户面前。这些视频信息丰富了我们的生活,但是,视频信息的丰富性是以无结构性为代价。当需要从大量视频中找到精彩的视频片段时,精彩视频片段识别技术凸显出重要性。精彩片段识别技术能够自动识别出视频中的精彩片段,并提取出来。但目前的精彩片段识别技术基于图片特征来识别视频片段是否是精彩片段,识别结果精度低。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种视频精彩片段识别方法及装置,以解决传统的精彩片段识别方法的识别结果精度低的技术问题。其具体的技术方案如下:第一方面,本专利技术提供了一种视频精彩片段识别方法,包括:提取待识别视频片段中同一时间片段对应的音频特征向量及图像特征向量,所述音频特征向量表征所述待识别视频片段在时间维度上的音频信息,所述图像特征向量表征所述待识别视频片段在时间维度及空间维度包含的信息;根据所述视频特征向量和音频特征向量生成音视频特征向量;利用预先训练得到的分类器分析所述音视频特征向量,得到所述待识别视频片段的精彩度分类结果。在第一方面的一种可能的实现方式中,所述分类器的训练过程,包括:获取多个视频片段样本数据,每个所述视频片段样本数据包含表征所述视频片段样本数据的精彩度标注信息;针对每一视频片段样本数据,提取所述视频片段样本数据中同一时间片段对应的图像特征向量和音频特征向量;根据同一视频片段样本数据对应的图像特征向量和音频特征向量生成音视频特征向量;利用预设分类器模型分析各个视频片段样本数据对应的音视频特征向量,得到每个视频片段样本数据的精彩度分类结果;依据所述各个视频片段样本数据对应的精彩度分类结果及精彩度标注信息,调整所述预设分类器模型中的模型参数,直到利用调整后的分类器模型对所述各个视频片段样本数据进行分类得到的分类结果满足预设收敛条件。在第一方面的另一种可能的实现方式中,所述利用预先训练得到的分类器分析所述音视频特征向量,得到所述待识别视频片段的精彩度分类结果,包括:利用预先训练得到的分类器分析所述待识别视频片段的音视频特征向量,得到所述待识别视频片段属于两个类别中每个类别的置信度;选取置信度最大的分类结果,确定为所述待识别视频片段目标分类结果。在第一方面的又一种可能的实现方式中,所述利用预先训练得到的分类器分析所述音视频特征向量,得到所述待识别视频片段的精彩度分类结果,包括:利用预先训练得到的分类器分析所述待识别视频片段的音视频特征向量,得到所述待识别视频片段的精彩度分数;当所述精彩度分数大于或等于预设分数值时,确定所述待识别视频片段是精彩片段;当所述精彩度分数小于所述预设分数值时,确定所述待识别视频片段不是精彩片段。在第一方面的再一种可能的实现方式中,在提取待识别视频片段中同一时间片段对应的音频特征向量及图像特征向量之前,所述方法还包括:获取待识别视频;识别所述待识别视频所包含的关键帧,并依据所述关键帧划分所述待识别视频得到多个视频片段;从所述多个视频片段中获取任意一个视频片段确定为所述待识别视频片段。第二方面,本专利技术还提供了一种视频的精彩片段识别装置,包括:特征提取模块,用于提取待识别视频片段中同一时间片段对应的音频特征向量及图像特征向量,所述音频特征向量表征所述待识别视频片段在时间维度上的音频信息,所述图像特征向量表征所述待识别视频片段在时间维度及空间维度包含的信息;特征向量生成模块,用于根据所述视频特征向量和音频特征向量生成音视频特征向量;分类模块,用于利用预先训练得到的分类器分析所述音视频特征向量,得到所述待识别视频片段的精彩度分类结果。在第二方面的一种可能的实现方式中,所述装置还包括分类器训练模块,具体用于:获取多个视频片段样本数据,每个所述视频片段样本数据包含表征所述视频片段样本数据的精彩度标注信息;针对每一视频片段样本数据,提取所述视频片段样本数据的图像特征向量和音频特征向量;根据同一视频片段样本数据对应的图像特征向量和音频特征向量生成音视频特征向量;利用预设分类器模型分析各个视频片段样本数据对应的音视频特征向量,得到每个视频片段样本数据的精彩度分类结果;依据所述各个视频片段样本数据对应的精彩度分类结果及精彩度标注信息,调整所述预设分类器模型中的模型参数,直到利用调整后的分类器模型对所述各个视频片段样本数据进行分类得到的分类结果满足预设收敛条件。在第二方面的另一种可能的实现方式中,所述分类模块包括:第一分析子模块,用于利用预先训练得到的分类器分析所述待识别视频片段的音视频特征向量得到所述待识别视频片段属于两个类别中每个类别的置信度;第一确定子模块,用于选取置信度最大的分类结果,确定为所述待识别视频片段的目标分类结果。在第二方面的又一种可能的实现方式中,所述分类模块包括:第二分析子模块,用于利用预先训练得到的分类器分析所述待识别视频片段的音视频特征向量,得到所述待识别视频片段的精彩度分数;第二确定子模块,用于当所述精彩度分数大于或等于预设分数值时,确定所述待识别视频片段是精彩片段;第三确定子模块,用于当所述精彩度分数小于所述预设分值时,确定所述待识别视频片段不是精彩片段。在第二方面的再一种可能的实现方式中,所述装置还包括:第一获取模块,用于获取待识别视频;第一视频划分模块,用于识别所述待识别视频所包含的关键帧,并依据所述关键帧划分所述待识别视频得到多个视频片段;第二获取模块,用于从所述多个视频片段中获取任意一个视频片段确定为所述待识别视频片段。本实施例提供的视频的精彩片段识别方法,从待识别视频片段的同一时间片段中提取得到音频特征向量和图像特征向量。然后,根据该音频特征向量和图像特征向量生成音视频特征向量。最后,利用分类器分析该音视频特征向量,得到该待识别视频片段的精彩度分类结果。该方法从视频片段中提取了视觉维度的特征,即图像特征向量,同时,还提取了听觉维度的特征,即音频特征向量。音频信息也是视频的一个重要构成,音频的节奏变化在一定程度上能够反映视频片段的精彩程度。因此,综合考虑视频特征和音频特征来判断该视频片段是否是精彩片段,能够提高精彩片段识别的准确度。而且,该方法在提取视觉维度的特征时,同时捕捉了视频中时间维度和空间维度的特征,因此,在一定程度上也能够提高识别精彩片段的准确度。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的一种视频精彩片段识别方法的流程图;图2是本专利技术实施例提供的一种视频的精彩片段识别系统的结构示意图;图3是本专利技术实施例提供的一种分类器的训练过程的流程图;图4是本专利技术实施例提供的另一种视频精彩片段识别方法的流程图;图5是本专利技术实施例提供的一种视频的精彩片段识别装置的框图;图6是本专利技术实施例提供的另一种视频的精彩片段识别装置的框图;图7是本专利技术实施例提供的又一种视频的精彩片段识别装置的框图;图8是本专利技术实施例提供的再一种视频的精彩片段识别装置本文档来自技高网...

【技术保护点】
1.一种视频精彩片段识别方法,其特征在于,包括:提取待识别视频片段中同一时间片段对应的音频特征向量及图像特征向量,所述音频特征向量表征所述待识别视频片段在时间维度上的音频信息,所述图像特征向量表征所述待识别视频片段在时间维度及空间维度包含的信息;根据所述视频特征向量和音频特征向量生成音视频特征向量;利用预先训练得到的分类器分析所述音视频特征向量,得到所述待识别视频片段的精彩度分类结果。

【技术特征摘要】
1.一种视频精彩片段识别方法,其特征在于,包括:提取待识别视频片段中同一时间片段对应的音频特征向量及图像特征向量,所述音频特征向量表征所述待识别视频片段在时间维度上的音频信息,所述图像特征向量表征所述待识别视频片段在时间维度及空间维度包含的信息;根据所述视频特征向量和音频特征向量生成音视频特征向量;利用预先训练得到的分类器分析所述音视频特征向量,得到所述待识别视频片段的精彩度分类结果。2.根据权利要求1所述的方法,其特征在于,所述分类器的训练过程,包括:获取多个视频片段样本数据,每个所述视频片段样本数据包含表征所述视频片段样本数据的精彩度标注信息;针对每一视频片段样本数据,提取所述视频片段样本数据中同一时间片段对应的图像特征向量和音频特征向量;根据同一视频片段样本数据对应的图像特征向量和音频特征向量生成音视频特征向量;利用预设分类器模型分析各个视频片段样本数据对应的音视频特征向量,得到每个视频片段样本数据的精彩度分类结果;依据所述各个视频片段样本数据对应的精彩度分类结果及精彩度标注信息,调整所述预设分类器模型中的模型参数,直到利用调整后的分类器模型对所述各个视频片段样本数据进行分类得到的分类结果满足预设收敛条件。3.根据权利要求1所述的方法,其特征在于,所述利用预先训练得到的分类器分析所述音视频特征向量,得到所述待识别视频片段的精彩度分类结果,包括:利用预先训练得到的分类器分析所述待识别视频片段的音视频特征向量,得到所述待识别视频片段属于两个类别中每个类别的置信度;选取置信度最大的分类结果,确定为所述待识别视频片段目标分类结果。4.根据权利要求1所述的方法,其特征在于,所述利用预先训练得到的分类器分析所述音视频特征向量,得到所述待识别视频片段的精彩度分类结果,包括:利用预先训练得到的分类器分析所述待识别视频片段的音视频特征向量,得到所述待识别视频片段的精彩度分数;当所述精彩度分数大于或等于预设分数值时,确定所述待识别视频片段是精彩片段;当所述精彩度分数小于所述预设分数值时,确定所述待识别视频片段不是精彩片段。5.根据权利要求1-4任一项所述的方法,其特征在于,在提取待识别视频片段中同一时间片段对应的音频特征向量及图像特征向量之前,所述方法还包括:获取待识别视频;识别所述待识别视频所包含的关键帧,并依据所述关键帧划分所述待识别视频得到多个视频片段;从所述多个视频片段中获取任意一个视频片段确定为所述待识...

【专利技术属性】
技术研发人员:张云桃晋瑞锦
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1