一种视频分类方法和装置制造方法及图纸

技术编号：27060855 阅读：17 留言：0更新日期：2021-01-15 14:41

本申请实施例公开了一种应用于人工智能领域的视频分类方法和装置，对源于目标视频的目标图像序列，可以从各图像中识别在预设场景状态维度上的状态信息，得到目标图像序列的特征序列；通过视频分类模型对特征序列进行卷积操作得到多个卷积特征向量；通过模型对各卷积特征向量分别进行加权求和得到注意力特征向量；通过模型基于各注意力特征向量确定目标视频的分类结果。由此，将视频分类问题转换为多维时序数据的分类问题，且在多维时序数据的分类中，还结合了多尺度特征提取和注意力机制，可有效提升分类效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种视频分类方法和装置
本申请涉及计算机视觉
，具体涉及一种视频分类方法和装置。
技术介绍
在信息化的时代，普通的用户可以作为视频的生产者生产视频，并传输视频到视频平台，视频平台基于需求会对视频进行分类，如对视频是否包含违法信息，或者对游戏视频中用户的行为是否异常等进行识别。相关技术中，可以基于神经网络模型，将视频输入神经网络模型，神经网络模型可以对视频进行图像抽取，然后基于图像进行特征提取，之后基于提取的特征进行分类，这种神经网络模型需要大量计算资源和训练数据。
技术实现思路
本专利技术实施例提供一种视频分类方法和装置，可以将视频分类问题转换为多维时序数据的分类问题，避免相关技术中端到端模型需要大量计算资源和训练数据的问题，并且在多维时序数据的分类中，还结合了多尺度特征提取和注意力机制，可以有效提升分类效果。本专利技术实施例提供一种视频分类方法，该方法包括：获取目标图像序列，所述目标图像序列包括N个图像，其中，所述目标图像序列源于目标视频，所述N为大于或者等于1的正整数；识别所述目标图像序列中各图像在预设场景状态维度上的状态信息，得到各图像的状态信息子序列，基于所述各图像的状态信息子序列得到所述目标图像序列的特征序列；通过视频分类模型的多个特征提取模块，对所述特征序列进行卷积操作，得到对应的卷积特征向量；通过所述视频分类模型的注意力机制模块，对各所述卷积特征向量按照对应的注意力权重矩阵分别进行加权求和，得到各所述卷积特征向量对应的注意力特征向量；r>通过所述视频分类模型的分类模块，根据所述注意力特征向量确定所述目标视频的分类结果。本专利技术实施例提供一种视频分类装置，该装置包括：图像序列获取单元，用于获取目标图像序列，所述目标图像序列包括N个图像，其中，所述目标图像序列源于目标视频，所述N为大于或者等于1的正整数；特征序列获取单元，用于识别所述目标图像序列中各图像在预设场景状态维度上的状态信息，得到各图像的状态信息子序列，基于所述各图像的状态信息子序列得到所述目标图像序列的特征序列；卷积单元，用于通过视频分类模型的多个特征提取模块，对所述特征序列进行卷积操作，得到对应的卷积特征向量；注意力机制单元，用于通过所述视频分类模型的注意力机制模块，对各所述卷积特征向量按照对应的注意力权重矩阵分别进行加权求和，得到各所述卷积特征向量对应的注意力特征向量；分类单元，用于通过所述视频分类模型的分类模块，根据所述注意力特征向量确定所述目标视频的分类结果。在本专利技术的一些实施例中，还可以提供一种计算机设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上所述方法的步骤。在本专利技术的一些实施例中，还可以提供一种存储介质，其上存储有计算机程序，当计算机程序在计算机上运行时，使得所述计算机执行如如上所述方法的步骤。采用本申请实施例，可以获取源于目标视频的目标图像序列，识别所述目标图像序列中各图像在预设场景状态维度上的状态信息，得到各图像的状态信息子序列，基于所述各图像的状态信息子序列得到所述目标图像序列的特征序列；通过视频分类模型的多个特征提取模块，对所述特征序列进行卷积操作，得到对应的卷积特征向量；通过所述视频分类模型的注意力机制模块，对各所述卷积特征向量按照对应的注意力权重矩阵分别进行加权求和，得到各所述卷积特征向量对应的注意力特征向量；通过所述视频分类模型的分类模块，根据所述注意力特征向量确定所述目标视频的分类结果。由此，采用本实施例的方案，可以将视频分类问题转换为多维时序数据的分类问题，避免相关技术中端到端模型需要大量计算资源和训练数据的问题，并且在多维时序数据的分类中，还结合了多尺度特征提取和注意力机制，可以有效提升分类效果。附图说明为了更清楚地说明本专利技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本专利技术的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。图1a是本专利技术实施例提供的视频分类方法的流程图；图1b是本专利技术实施例提供的一种视频审核系统的示意图；图2a是本专利技术实施例提供的特征序列的获取示意图；图2b是本专利技术实施例提供的视频分类模型的一种结构示意图；图2c是本专利技术实施例提供的视频分类模型的更为详细的结构示意图；图2d是本专利技术实施例提供的特征重标定模块的结构示意图；图3是本专利技术实施例提供的视频分类装置的结构示意图；图4是本专利技术实施例提供的计算机设备的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图，对本专利技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本专利技术一部分实施例，而不是全部的实施例。基于本专利技术中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本专利技术保护的范围。本专利技术实施例提供一种视频分类方法、装置、计算机设备和存储介质。其中，视频分类方法适用于计算机设备，该计算机设备可以为终端或服务器等设备。其中，终端可以为手机、平板电脑、笔记本电脑等终端设备，也可以为穿戴设备、智能电视或其他具有显示模块的智能终端。其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器，但并不局限于此。本实施例的视频分类装置可以集成在终端或服务器中，可选的，可以以应用程序等形式集成于终端或服务器中。本实施例提供的视频分类系统，可以用于视频分类场景，如对游戏视频的异常(用户行为异常等)分类场景。其中，视频分类系统可以包括分类服务器。该分类服务器可以用于获取目标图像序列，目标图像序列包括N个图像，其中，目标图像序列源于目标视频，N为大于或者等于1的正整数；识别目标图像序列中各图像在预设场景状态维度上的状态信息，得到各图像的状态信息子序列，基于各图像的状态信息子序列得到目标图像序列的特征序列；通过视频分类模型的多个特征提取模块，对特征序列进行卷积操作，得到对应的卷积特征向量；通过视频分类模型的注意力机制模块，对各卷积特征向量按照对应的注意力权重矩阵分别进行加权求和，得到各卷积特征向量对应的注意力特征向量；通过视频分类模型的分类模块，根据注意力特征向量确定目标视频的分类结果。以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。本专利技术实施例将从视频分类装置的角度进行描述，该视频分类装置具体可以集成在终端或服务器中，例如，可以以应用程序的形式集成在终端或服务器中。本专利技术实施例提供的一种视频分类方法，该方法可以由终端或服务器的处理器本文档来自技高网...

【技术保护点】
1.一种视频分类方法，其特征在于，包括：/n获取目标图像序列，所述目标图像序列包括N个图像，其中，所述目标图像序列源于目标视频，所述N为大于或者等于1的正整数；/n识别所述目标图像序列中各图像在预设场景状态维度上的状态信息，得到各图像的状态信息子序列，基于所述各图像的状态信息子序列得到所述目标图像序列的特征序列；/n通过视频分类模型的多个特征提取模块，对所述特征序列进行卷积操作，得到对应的卷积特征向量；/n通过所述视频分类模型的注意力机制模块，对各所述卷积特征向量按照对应的注意力权重矩阵分别进行加权求和，得到各所述卷积特征向量对应的注意力特征向量；/n通过所述视频分类模型的分类模块，根据所述注意力特征向量确定所述目标视频的分类结果。/n

【技术特征摘要】
1.一种视频分类方法，其特征在于，包括：
获取目标图像序列，所述目标图像序列包括N个图像，其中，所述目标图像序列源于目标视频，所述N为大于或者等于1的正整数；
识别所述目标图像序列中各图像在预设场景状态维度上的状态信息，得到各图像的状态信息子序列，基于所述各图像的状态信息子序列得到所述目标图像序列的特征序列；
通过视频分类模型的多个特征提取模块，对所述特征序列进行卷积操作，得到对应的卷积特征向量；
通过所述视频分类模型的注意力机制模块，对各所述卷积特征向量按照对应的注意力权重矩阵分别进行加权求和，得到各所述卷积特征向量对应的注意力特征向量；
通过所述视频分类模型的分类模块，根据所述注意力特征向量确定所述目标视频的分类结果。

2.根据权利要求1所述的视频分类方法，其特征在于，所述视频分类模型还包括嵌入模块，所述特征序列具有时间维度，所述特征序列中的所述状态信息子序列按照所述时间维度排列；
所述通过视频分类模型的多个特征提取模块，对所述特征序列进行卷积操作，得到对应的卷积特征向量之前，还包括：
通过所述视频分类模型的嵌入模块，基于所述时间维度对所述特征序列进行映射，得到具有时间维度的嵌入特征向量；
所述通过视频分类模型的多个特征提取模块，对所述特征序列进行卷积操作，得到对应的卷积特征向量，包括：
通过视频分类模型的多个特征提取模块，对所述嵌入特征向量进行卷积操作，得到对应的卷积特征向量。

3.根据权利要求2所述的视频分类方法，其特征在于，所述嵌入模块包括第一嵌入层、第二嵌入层以及嵌入融合层，所述通过所述视频分类模型的嵌入模块，基于所述时间维度对所述特征序列进行映射，得到具有时间维度的嵌入特征向量，包括：
通过所述第一嵌入层，对所述各图像的状态信息子序列中的状态信息进行向量嵌入，得到各所述状态信息子序列对应的第一向量子序列；
通过各所述状态信息子序列对应的所述第二嵌入层，将各所述状态信息子序列中的状态信息分别转换为独热向量后进行向量拼接，得到拼接后向量，对各所述状态信息子序列对应的拼接后向量进行向量嵌入，得到各所述状态信息子序列对应的第二向量子序列；
通过所述嵌入融合层对各所述状态信息子序列对应的所述第一向量子序列和第二向量子序列基于时间维度进行融合，得到具有时间维度的嵌入特征向量。

4.根据权利要求2所述的视频分类方法，其特征在于，一个特征提取模块包括至少两层顺序连接的特征提取层，不同特征提取模块的特征提取层的卷积窗口宽度不同；
所述通过视频分类模型的多个特征提取模块，对所述嵌入特征向量进行卷积操作，得到对应的卷积特征向量，包括：
在各所述特征提取模块中，基于所述特征提取模块包含的特征提取层的连接顺序以及卷积窗口宽度，对所述嵌入特征向量进行一维卷积操作，得到各特征提取层对应的卷积向量；
基于各所述特征提取模块中所述特征提取层的卷积向量，得到各特征提取模块对应的卷积特征向量。

5.根据权利要求4所述的视频分类方法，其特征在于，所述在各所述特征提取模块中，基于所述特征提取模块包含的特征提取层的连接顺序以及卷积窗口宽度，对所述嵌入特征向量进行一维卷积操作，得到各特征提取层对应的卷积向量，包括：
通过各所述特征提取模块中的当前特征提取层，对输入所述当前特征提取层的向量进行卷积，得到当前特征提取层的卷积向量，并将所述卷积向量输入至在所述连接顺序上位于所述当前特征提取层之后的上一层特征提取层，直到不存在所述上一层特征提取层为止；
其中，若所述当前特征提取层为在所述连接顺序上位于第一的特征提取层，则输入所述当前特征提取层的向量为所述嵌入特征向量。

6.根据权利要求4所述的视频分类方法，其特征在于，所述特征提取层的类型包括卷积层和门控卷积层；
所述在各所述特征提取模块中，基于所述特征提取模块包含的特征提取层的连接顺序以及卷积窗口宽度，对所述嵌入特征向量进行一维卷积操作，得到各特征提取层对应的卷积向量，包括：
当特征提取模块中当前特征提取层为卷积层，通过所述当前特征提取层对输入至所述当前特征提取层的向量进行卷积，得到当前特征提取层的卷积向量，并将所述卷积向量输入至在所述连接顺序上位于所述当前特征提取层之后的上一层特征提取层，直到不存在所述上一层特征提取层为止；
当特征提取模块中所述当前特征提取层为门控卷积层，通过所述当前特征提取层按照第一卷积核参数对输入所述当前特征提取层的向量进行卷积，得到第一卷积子向量，以及按照第二卷积核参数对输入所述当前特征提取层的向量进行卷积，得到第二卷积子向量，对所述第一卷积子向量基于转换函数进行转换后与所述第二卷积子向量按照对应元素相乘，得到当前特征提取层的卷积向量，并将所述卷积向量输入至在所述连接顺序上位于所述当前特征提取层之后的上一层特征提取层，直到不存在所述上一层特征提取层为止；
其中，若所述当前特征提取层为对应的特征提取模块中在所述连接顺序上位于第一的特征提取层，则输入至所述当前特征提取层的向量为所述嵌入特征向量。

7.根据权利要求4所述的视频分类方法，其特征在于，所述特征提取模块还包括残差相加层；
所述在各所述特征提取模块中，基于所述特征提取模块包含的特征提取层的连接顺序以及卷积窗口宽度，对所述嵌入特征向量进行一维卷积操作，得到各特征提取层对应的卷积向量，包括：
通过各所述特征提取模块中当前特征提取层，对输入所述当前特征提取层的向量进行卷积，得到当前特征提取层的卷积向量，并将所述卷积向量输入所述当前特征提取层对应的残差相加层，和在所述连接顺序上位于所述当前特征提取层之后的上一层特征提取层对应的残差相加层，其中，若所述当前特征提取层为对应的特征提取模块中在所述连接顺序上位于第一的特征提取层，则输入至所述当前特征提取层的向量为所述嵌入特征向量；
通过所述当前特征提取层对应的残差相加层，对所述当前特征提取层输出的卷积向量，和在所述连接顺序上位于所述当前特征提取层之前的下一层特征提取层输出的卷积向量进行求和，将求和得到的向量输入至在所述连接顺序上位于所述当前特征提取层之后的上一层特征提取层。

8.根据权利要求2所述的视频分类方法，其特征在于，所述注意力机制模块包括注意力权重矩阵；
所述通过所述视频分类模型的注意力机制模块，对各所述卷积特征向量按照对应的注意力权重矩阵分别进行加权求和，得到各所述卷积特征向量对应的注意力特征向量，包括：
通过所述注...

【专利技术属性】
技术研发人员：陈观钦，陈远，王摘星，陈斌，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人