一种视频类别识别的方法及相关装置制造方法及图纸

技术编号:23400731 阅读:16 留言:0更新日期:2020-02-22 12:55
本申请公开了一种视频类别识别的方法及相关装置,应用于人工智能领域。本申请方法包括:获取待识别视频;通过第一视频识别模型获取待识别视频所对应的视频过滤分数;若视频过滤分数大于或等于过滤分数阈值,则通过第二视频识别模型获取待识别视频在视频类别识别阶段的识别分数集合;根据识别分数集合确定待识别视频所对应的视频识别结果。本申请先通过精度较低且模型参数较少的第一视频识别模型对大量视频进行粗过滤,从而保证较高的处理性能,再通过精度较高且模型参数较多的第二视频识别模型对粗过滤后的视频进行筛选,从而保证较高的识别精度,由此,能够在提高视频处理效率同时保证视频的识别准确度。

A method of video classification recognition and related devices

【技术实现步骤摘要】
一种视频类别识别的方法及相关装置
本申请涉及人工智能领域,尤其涉及一种视频类别识别的方法及相关装置。
技术介绍
随着计算机硬件技术和软件技术的不断升级,各类数码摄像设备层出不穷,通信技术屡次突破性发展,视频的数量和传播速度更是飞速增长,内容视频化已成为互联网发展一大趋势。因此,对视频进行分类的识别技术显得尤为重要。目前,可采用基于深度学习特征的方法来识别视频类别,常见的一种方式为,通过卷积神经网络(ConvolutionalNeuralNetworks,CNN)模型提取视频特征,模型参数是通过大量标注数据训练得到的,使用模型输出分数,或者结合分类器对视频进行分类。为了能够保证视频分类的准确度,需要采用精度较高的模型进行预测。然而,精度较高的模型往往具有较多的模型参数,因此,在预测的过程中会耗费更多的时间,导致视频分类的效率较低。
技术实现思路
本申请实施例提供了一种视频类别识别的方法及相关装置,能够在提高视频处理效率同时保证视频的识别准确度。有鉴于此,本申请第一方面提供一种视频类别识别的方法,包括:获取待识别视频,其中,待识别视频包括至少一个视频帧;通过第一视频识别模型获取待识别视频所对应的视频过滤分数,其中,视频过滤分数表示待识别视频属于目标类别的概率,第一视频识别模型包括P个模型参数,P为大于或等于1的整数;若视频过滤分数大于或等于过滤分数阈值,则通过第二视频识别模型获取待识别视频所对应的识别分数集合,其中,识别分数集合包括目标视频分数以及目标单帧分数中的至少一种,目标视频分数表示待识别视频属于目标类别的概率,目标单帧分数表示待识别视频中最大单帧分数属于目标类别的概率,第二视频识别模型包括Q个模型参数,Q为大于P的整数;根据识别分数集合确定待识别视频所对应的视频识别结果。本申请第二方面提供一种视频类别识别装置,包括:获取模块,用于获取待识别视频,其中,待识别视频包括至少一个视频帧;获取模块,还用于通过第一视频识别模型获取待识别视频所对应的视频过滤分数,其中,视频过滤分数表示待识别视频属于目标类别的概率,第一视频识别模型包括P个模型参数,P为大于或等于1的整数;获取模块,还用于若视频过滤分数大于或等于过滤分数阈值,则通过第二视频识别模型获取待识别视频所对应的识别分数集合,其中,识别分数集合包括目标视频分数以及目标单帧分数中的至少一种,目标视频分数表示待识别视频属于目标类别的概率,目标单帧分数表示待识别视频中最大单帧分数属于目标类别的概率,第二视频识别模型包括Q个模型参数,Q为大于P的整数;确定模块,用于根据识别分数集合确定待识别视频所对应的视频识别结果。在一种可能的设计中,识别分数集合包括目标单帧分数;获取模块,具体用于通过第二视频识别模型,获取待识别视频所对应的目标单帧分数,其中,目标单帧分数为单帧分数集合中的最大值,单帧分数集合包括至少一个单帧分数,每个单帧分值对应一个视频帧;确定模块,具体用于若目标单帧分数大于或等于第二分数阈值,则确定待识别视频属于第一视频识别结果;若目标单帧分数小于第二分数阈值,则确定待识别视频属于第二视频识别结果,其中,第二视频识别结果与第一视频识别结果属于不同的识别结果。在一种可能的设计中,识别分数集合包括目标视频分数;确定模块,具体用于通过第二视频识别模型,获取待识别视频所对应的目标视频分数;若目标视频分数大于或等于第二分数阈值,则确定待识别视频属于第一视频识别结果;若目标视频分数小于第二分数阈值,则确定待识别视频属于第二视频识别结果,其中,第二视频识别结果与第一视频识别结果属于不同的识别结果。在一种可能的设计中,识别分数集合包括目标单帧分数以及目标视频分数;确定模块,具体用于通过第二视频识别模型,获取待识别视频所对应的目标单帧分数以及目标视频分数,其中,目标单帧分数为单帧分数集合中的最大值,单帧分数集合包括至少一个单帧分数,每个单帧分值对应一个视频帧;若目标单帧分数以及目标视频分数中的至少一项大于或等于第二分数阈值,则确定待识别视频属于第一视频识别结果;若目标单帧分数与目标视频分数均小于第二分数阈值,则确定待识别视频属于第二视频识别结果,其中,第二视频识别结果与第一视频识别结果属于不同的识别结果。在一种可能的设计中,获取模块,具体用于通过第一视频识别模型所包括的第一卷积层,获取待识别视频所对应的第一特征图集合,其中,第一特征图集合包括至少一个第一特征图,每个第一特征图对应一个视频帧;通过第一视频识别模型所包括的第二卷积层,获取第一特征图集合所对应的第一注意力权重集合,其中,第一注意力权重集合包括至少一个第一注意力权重,每个第一注意力权重对应一个第一特征图;根据第一注意力权重集合以及第一特征图集合,生成第二特征图集合,其中,第二特征图集合包括至少一个第二特征图,每个第二特征图对应一个视频帧;通过第一视频识别模型所包括的第一池化层,获取第二特征图集合所对应的第三特征图集合,其中,第三特征图集合包括至少一个第三特征图,每个第三特征图对应一个第二特征图;基于第三特征图集合,通过第一视频识别模型获取视频过滤分数。在一种可能的设计中,获取模块,具体用于通过第一视频识别模型所包括的第二池化层,获取第三特征图集合所对应的第一特征向量集合,其中,第一特征向量集合包括至少一个第一特征向量,每个第一特征向量对应一个第三特征图;对第一特征向量集合进行特征融合,得到第二特征向量;通过第一视频识别模型所包括的第一全连接层,获取第二特征向量所对应的视频过滤分数。在一种可能的设计中,获取模块,具体用于通过第二视频识别模型所包括的第三卷积层,获取待识别视频所对应的第四特征图集合,其中,第四特征图集合包括至少一个第四特征图,每个第四特征图对应一个视频帧;通过第二视频识别模型所包括的第四卷积层,获取第四特征图集合所对应的第二注意力权重集合,其中,第二注意力权重集合包括至少一个第二注意力权重,每个第二注意力权重对应一个第四特征图;根据第二注意力权重集合以及第四特征图集合,生成第五特征图集合,其中,第五特征图集合包括至少一个第五特征图,每个第五特征图对应一个视频帧;通过第二视频识别模型所包括的第三池化层,获取第五特征图集合所对应的第六特征图集合,其中,第六特征图集合包括至少一个第六特征图,每个第六特征图对应一个第五特征图;基于第六特征图集合,通过第二视频识别模型获取在视频类别识别阶段的识别分数集合。在一种可能的设计中,获取模块,具体用于通过第二视频识别模型所包括的第四池化层,获取第六特征图集合所对应的第三特征向量集合,其中,第三特征向量集合包括至少一个第三特征向量,每个第三特征向量对应一个第六特征图;对第三特征向量集合进行特征融合,得到第四特征向量;通过第二视频识别模型所包括的第二全连接层,获取第四特征向量在视频类别识别本文档来自技高网...

【技术保护点】
1.一种视频类别识别的方法,其特征在于,包括:/n获取待识别视频,其中,所述待识别视频包括至少一个视频帧;/n通过第一视频识别模型获取所述待识别视频所对应的视频过滤分数,其中,所述视频过滤分数表示在视频过滤阶段所述待识别视频属于目标类别的概率,所述第一视频识别模型包括P个模型参数,所述P为大于或等于1的整数;/n若所述视频过滤分数大于或等于过滤分数阈值,则通过第二视频识别模型获取所述待识别视频在视频类别识别阶段的识别分数集合,其中,所述识别分数集合包括目标视频分数以及目标单帧分数中的至少一种,所述目标视频分数表示所述待识别视频属于所述目标类别的概率,所述目标单帧分数表示所述待识别视频中最大单帧分数所对应视频帧属于所述目标类别的概率,所述第二视频识别模型包括Q个模型参数,所述Q为大于所述P的整数;/n根据所述识别分数集合确定所述待识别视频所对应的视频识别结果。/n

【技术特征摘要】
1.一种视频类别识别的方法,其特征在于,包括:
获取待识别视频,其中,所述待识别视频包括至少一个视频帧;
通过第一视频识别模型获取所述待识别视频所对应的视频过滤分数,其中,所述视频过滤分数表示在视频过滤阶段所述待识别视频属于目标类别的概率,所述第一视频识别模型包括P个模型参数,所述P为大于或等于1的整数;
若所述视频过滤分数大于或等于过滤分数阈值,则通过第二视频识别模型获取所述待识别视频在视频类别识别阶段的识别分数集合,其中,所述识别分数集合包括目标视频分数以及目标单帧分数中的至少一种,所述目标视频分数表示所述待识别视频属于所述目标类别的概率,所述目标单帧分数表示所述待识别视频中最大单帧分数所对应视频帧属于所述目标类别的概率,所述第二视频识别模型包括Q个模型参数,所述Q为大于所述P的整数;
根据所述识别分数集合确定所述待识别视频所对应的视频识别结果。


2.根据权利要求1所述的方法,其特征在于,所述识别分数集合包括所述目标单帧分数;
所述通过第二视频识别模型获取所述待识别视频在视频类别识别阶段的识别分数集合,包括:
通过所述第二视频识别模型,获取所述待识别视频在所述视频类别识别阶段的所述目标单帧分数,其中,所述目标单帧分数为单帧分数集合中的最大值,所述单帧分数集合包括至少一个单帧分数,每个单帧分值对应一个视频帧;
所述根据所述识别分数集合确定所述待识别视频所对应的视频识别结果,包括:
若所述目标单帧分数大于或等于第二分数阈值,则确定所述待识别视频属于第一视频识别结果;
若所述目标单帧分数小于所述第二分数阈值,则确定所述待识别视频属于第二视频识别结果,其中,所述第二视频识别结果与所述第一视频识别结果属于不同的识别结果。


3.根据权利要求1所述的方法,其特征在于,所述识别分数集合包括所述目标视频分数;
所述通过第二视频识别模型获取所述待识别视频在视频类别识别阶段的识别分数集合,包括:
通过所述第二视频识别模型,获取所述待识别视频在所述视频类别识别阶段的所述目标视频分数;
所述根据所述识别分数集合确定所述待识别视频所对应的视频识别结果,包括:
若所述目标视频分数大于或等于第二分数阈值,则确定所述待识别视频属于第一视频识别结果;
若所述目标视频分数小于所述第二分数阈值,则确定所述待识别视频属于第二视频识别结果,其中,所述第二视频识别结果与所述第一视频识别结果属于不同的识别结果。


4.根据权利要求1所述的方法,其特征在于,所述识别分数集合包括所述目标单帧分数以及所述目标视频分数;
所述通过第二视频识别模型获取所述待识别视频在视频类别识别阶段的识别分数集合,包括:
通过所述第二视频识别模型,获取所述待识别视频在所述视频类别识别阶段的所述目标单帧分数以及所述目标视频分数,其中,所述目标单帧分数为单帧分数集合中的最大值,所述单帧分数集合包括至少一个单帧分数,每个单帧分值对应一个视频帧;
所述根据所述识别分数集合确定所述待识别视频所对应的视频识别结果,包括:
若所述目标单帧分数以及所述目标视频分数中的至少一项大于或等于第二分数阈值,则确定所述待识别视频属于第一视频识别结果;
若所述目标单帧分数与所述目标视频分数均小于所述第二分数阈值,则确定所述待识别视频属于第二视频识别结果,其中,所述第二视频识别结果与所述第一视频识别结果属于不同的识别结果。


5.根据权利要求1所述的方法,其特征在于,所述通过第一视频识别模型获取所述待识别视频所对应的视频过滤分数,包括:
通过所述第一视频识别模型所包括的第一卷积层,获取所述待识别视频所对应的第一特征图集合,其中,所述第一特征图集合包括至少一个第一特征图,每个第一特征图对应一个视频帧;
通过所述第一视频识别模型所包括的第二卷积层,获取所述第一特征图集合所对应的第一注意力权重集合,其中,所述第一注意力权重集合包括至少一个第一注意力权重,每个第一注意力权重对应一个第一特征图;
根据所述第一注意力权重集合以及所述第一特征图集合,生成第二特征图集合,其中,所述第二特征图集合包括至少一个第二特征图,每个第二特征图对应一个视频帧;
通过所述第一视频识别模型所包括的第一池化层,获取第二特征图集合所对应的第三特征图集合,其中,所述第三特征图集合包括至少一...

【专利技术属性】
技术研发人员:路泽肖万鹏鞠奇
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1