一种视频分类方法及装置制造方法及图纸

技术编号:14844196 阅读:90 留言:0更新日期:2017-03-17 11:20
本发明专利技术实施例公开了一种视频分类方法,用于解决现有技术中不能准确将视频进行分类的缺陷,提高视频分类的准确度。本发明专利技术实施例方法包括:获取视频中的信息,所述视频中的信息包括图像信息,光流信息以及声音信息;利用深度神经网络生成所述图像信息对应的第一参考信息、所述光流信息对应的第二参考信息以及所述声音信息对应的第三参考信息;根据所述第一参考信息、第二参考信息以及所述第三参考信息对所述视频进行处理以获取所述视频的置信度矩阵和所述视频的类别关系矩阵;将所述视频的置信度矩阵和所述视频的类别关系矩阵代入目标函数,以获取所述视频的目标融合参数,所述目标融合参数用于对视频进行分类。

【技术实现步骤摘要】

本专利技术涉及通信领域,具体涉及一种视频分类方法及装置
技术介绍
视频分类是指利用视频中的视觉信息、听觉信息以及动作信息对视频进行处理和分析,并判断和识别出视频中出现的动作和事件。视频分类可以应用于很多实际问题,例如智能监控、视频数据管理等。在视频分类中,利用特征早期融合是一种视频分类的手段,早期融合指的是特征层次的融合。如图1和图2所示,提取视频中的不同特征,如图像特征,音频特征,把提取到的不同特征连接起来,形成组合特征。训练时,通过支持向量机(英文全称:SupportVectorMachine,缩写:SVM)或者神经网络对组合特征进行训练,生成训练好的视频分类器。视频分类时,从视频中提取组合特征,输入训练好的视频分类器,得到视频分类的结果。这种视频分类方法存在的问题在于,它假设了视频的不同特征之间是简单互补的,视频可以用这些特征进行表示。但是由于视频不是各个图像,声音等模态的简单结合,在图像与声音等模态之间还会存在着联系。因此提取的特征并不能完整的表达视频的内容,通过该方法不能准确的将视频进行分类。
技术实现思路
本专利技术实施例提供了一种视频分类方法及装置,用于解决现有技术中不本文档来自技高网...
一种视频分类方法及装置

【技术保护点】
一种视频分类方法,其特征在于,包括:获取视频中的信息,所述视频中的信息包括图像信息,光流信息以及声音信息;利用深度神经网络生成所述图像信息对应的第一参考信息、所述光流信息对应的第二参考信息以及所述声音信息对应的第三参考信息;根据所述第一参考信息、第二参考信息以及所述第三参考信息对所述视频进行处理以获取所述视频的置信度矩阵和所述视频的类别关系矩阵;将所述视频的置信度矩阵和所述视频的类别关系矩阵代入目标函数,以获取所述视频的目标融合参数,所述目标融合参数用于对视频进行分类,其中,所述目标函数的约束因子包含置信度矩阵,类别关系矩阵以及融合参数。

【技术特征摘要】
1.一种视频分类方法,其特征在于,包括:获取视频中的信息,所述视频中的信息包括图像信息,光流信息以及声音信息;利用深度神经网络生成所述图像信息对应的第一参考信息、所述光流信息对应的第二参考信息以及所述声音信息对应的第三参考信息;根据所述第一参考信息、第二参考信息以及所述第三参考信息对所述视频进行处理以获取所述视频的置信度矩阵和所述视频的类别关系矩阵;将所述视频的置信度矩阵和所述视频的类别关系矩阵代入目标函数,以获取所述视频的目标融合参数,所述目标融合参数用于对视频进行分类,其中,所述目标函数的约束因子包含置信度矩阵,类别关系矩阵以及融合参数。2.根据权利要求1所述的视频分类方法,其特征在于,所述利用深度神经网络生成所述图像信息对应的第一参考信息、所述光流信息对应的第二参考信息以及所述声音信息对应的第三参考信息包括:利用第一卷积神经网络对所述图像信息处理生成第一信息,所述第一信息为所述第一参考信息;利用第二卷积神经网络对所述光流信息处理生成第二信息,所述第二信息为所述第二参考信息;利用第三卷积神经网络对所述声音信息处理生成第三信息,所述第三信息为所述第三参考信息;所述根据所述第一参考信息、第二参考信息以及所述第三参考信息对所述视频进行处理以获取所述视频的置信度矩阵和所述视频的类别关系矩阵包括:将所述视频通过所述第一信息、所述第二信息以及所述第三信息进行处理,以获取所述视频的置信度矩阵;将至少一个视频通过所述第一信息、所述第二信息以及所述第三信息进行处理,以获取所述视频的类别关系矩阵,所述至少一个视频用于对所述视频进行分类;将所述视频的置信度矩阵和所述视频的类别关系矩阵代入目标函数,以获取所述视频的目标融合参数包括:将所述视频的置信度矩阵和所述视频的类别关系矩阵代入目标函数,所述目标函数为其中,所述目标函数表示当的取值最小时,求解得出W值,所述W值为所述视频的目标融合参数,其中,W为所述目标函数中的融合参数,所述L(S,Y;W)是所述视频在所述第一信息、所述第二信息以及所述第三信息的处理过程中的经验损失,所述S是所述视频的置信度矩阵,Y是所述视频的类标,V是所述视频的类别关系矩阵,λ1和λ2为权重系数,表示弗罗贝尼乌斯范数,||||1代表稀疏规则算子。3.根据权利要求1所述的视频分类方法,其特征在于,所述利用深度神经网络生成所述图像信息对应的第一参考信息、所述光流信息对应的第二参考信息以及所述声音信息对应的第三参考信息包括:利用第一卷积神经网络对所述图像信息处理生成第一信息,按照预设规则从所述第一信息中提取第一子信息,利用第一时间递归神经网络LSTM对所述第一子信息进行处理生成第四信息,所述第一信息与所述第四信息共同组成所述第一参考信息;利用第二卷积神经网络对所述光流信息处理生成第二信息,所述第二信息为所述第二参考信息;利用第三卷积神经网络对所述声音信息处理生成第三信息,所述第三信息为所述第三参考信息;所述根据所述第一参考信息、第二参考信息以及所述第三参考信息对所述视频进行处理以获取所述视频的置信度矩阵和所述视频的类别关系矩阵包括:将所述视频通过所述第一信息、所述第二信息、所述第三信息以及所述第四信息进行处理,以获取所述视频的置信度矩阵;将至少一个视频通过所述第一信息、所述第二信息、所述第三信息以及所述第四信息进行处理,以获取所述视频的类别关系矩阵,所述至少一个视频用于对所述视频进行分类;将所述视频的置信度矩阵和所述视频的类别关系矩阵代入目标函数,以获取所述视频的目标融合参数包括:将所述视频的置信度矩阵和所述视频的类别关系矩阵代入目标函数,所
\t述目标函数为其中,所述目标函数表示当的取值最小时,求解得出W值,所述W值为所述视频的目标融合参数,其中,W为所述目标函数中的融合参数,所述L(S,Y;W)是所述视频在所述第一信息、所述第二信息、所述第三信息以及所述第四信息的处理过程中的经验损失,所述S是所述视频的置信度矩阵,Y是所述视频的类标,V是所述视频的类别关系矩阵,λ1和λ2为权重系数,表示弗罗贝尼乌斯范数,||||1代表稀疏规则算子。4.根据权利要求1所述的视频分类方法,其特征在于,所述利用深度神经网络生成所述图像信息对应的第一参考信息、所述光流信息对应的第二参考信息以及所述声音信息对应的第三参考信息包括:利用第一卷积神经网络对所述图像信息处理生成第一信息,所述第一信息为所述第一参考信息;利用第二卷积神经网络对所述光流信息处理生成第二信息,按照预设规则从所述第二信息中提取第二子信息,利用第二LSTM对所述第二子信息进行处理生成第五信息,所述第二信息与所述第五信息共同组成所述第二参考信息;利用第三卷积神经网络对所述声音信息处理生成第三信息,所述第三信息为所述第三参考信息;所述根据所述第一参考信息、第二参考信息以及所述第三参考信息对所述视频进行处理以获取所述视频的置信度矩阵和所述视频的类别关系矩阵包括:将所述视频通过所述第一信息、所述第二信息、所述第三信息以及所述第五信息进行处理,以获取所述视频的置信度矩阵;将至少一个视频通过所述第一信息、所述第二信息、所述第三信息以及所述第五信息进行处理,以获取所述视频的类别关系矩阵,所述至少一个视频用于对所述视频进行分类;将所述视频的置信度矩阵和所述视频的类别关系矩阵代入目标函数,以获取所述视频的目标融合参数包括:将所述视频的置信度矩阵和所述视频的类别关系矩阵代入目标函数所
\t述目标函数为求解得出W值,所述W值为所述视频的目标融合参数,其中,W为所述目标函数中的融合参数,所述L(S,Y;W)是所述视频在所述第一信息、所述第二信息、所述第三信息以及所述第五信息的处理过程中的经验损失,所述S是所述视频的置信度矩阵,Y是所述视频的类标,V是所述视频的类别关系矩阵,λ1和λ2为权重系数,表示弗罗贝尼乌斯范数,||||1代表稀疏规则算子。5.根据权利要求1所述的视频分类方法,其特征在于,所述利用深度神经网络生成所述图像信息对应的第一参考信息、所述光流信息对应的第二参考信息以及所述声音信息对应的第三参考信息包括:利用第一卷积神经网络对所述图像信息处理生成第一信息,所述第一信息为所述第一参考信息;利用第二卷积神经网络对所述光流信息处理生成第二信息,所述第二信息为所述第二参考信息;利用第三卷积神经网络对所述声音信息处理生成第三信息,按照预设规则从所述第三信息中提取第三子信息,利用第三LSTM对所述第三子信息进行处理生成第六信息,所述第三信息与所述第六信息共同组成所述第三参考信息;所述根据所述第一参考信息、第二参考信息以及所述第三参考信息对所述视频进行处理以获取所述视频的置信度矩阵和所述视频的类别关系矩阵包括:将所述视频通过所述第一信息、所述第二信息、所述第三信息以及所述第六信息进行处理,以获取所述视频的置信度矩阵;将至少一个视频通过所述第一信息、所述第二信息、所述第三信息以及所述第六信息进行处理,以获取所述视频的类别关系矩阵,所述至少一个视频用于对所述视频进行分类;将所述视频的置信度矩阵和所述视频的类别关系矩阵代入目标函数,以获取所述视频的目标融合参数包括:将所述视频的置信度矩阵和所述视频的类别关系矩阵代入目标函数,所述目标融合参数为求解得出W值,所述W值为所述视频的目标融合参数,其中,W为所述目标函数中的融合参数,所
\t述L(S,Y;W)是所述视频在所述第一信息、所述第二信息、所述第三信息以及所述第六信息的处理过程中的经验损失,所述S是所述视频的置信度矩阵,Y是所述视频的类标,V是所述视频的类别关系矩阵,λ1和λ2为权重系数,表示弗罗贝尼乌斯范数,||||1代表稀疏规则算子。6.根据权利要求1所述的视频分类方法,其特征在于,所述利用深度神经网络生成所述图像信息对应的第一参考信息、所述光流信息对应的第二参考信息以及所述声音信息对应的第三参考信息包括:利用第一卷积神经网络对所述图像信息处理生成第一信息,按照预设规则从所述第一信息中提取第一子信息,利用第一LSTM对所述第一子信息进行处理生成第四信息,所述第一信息与所述第四信息共同组成所述第一参考信息;利用第二卷积神经网络对所述光流信息处理生成第二信息,按照规则从所述第二信息中提取第二子信息,利用第二LSTM对所述第二子信息进行处理生成第五信息,所述第二信息与所述第五信息共同组成所述第二参考信息;利用第三卷积神经网络对所述声音信息处理生成第三信息,所述第三信息为所述第三参考信息;所述根据所述第一参考信息、第二参考信息以及所述第三参考信息对所述视频进行处理以获取所述视频的置信度矩阵和所述视频的类别关系矩阵包括:将所述视频通过所述第一信息、所述第二信息、所述第三信息、所述第四信息以及所述第五信息进行处理,以获取所述视频的置信度矩阵;将至少一个视频通过所述第一信息、所述第二信息、所述第三信息、所述第四信息以及所述第五信息进行处理,以获取所述视频的类别关系矩阵,所述至少一个视频用于对所述视频进行分类;将所述视频的置信度矩阵和所述视频的类别关系矩阵代入目标函数,以获取所述视频的目标融合参数包括:将所述视频的置信度矩阵和所述视频的类别关系矩阵代入目标函数,所述目标函数为求解得出W值,所述W值为所述视频的目标融合参数,其中,W为所述目标函数中的融合参数,所述L(S,Y;W)是所述视频在所述第一信息、所述第二信息、所述第三信息、所述第
\t四信息以及所述第五信息的处理过程中的经验损失,所述S是所述视频的置信度矩阵,Y是所述视频的类标,V是所述视频的类别关系矩阵,λ1和λ2为权重系数,表示弗罗贝尼乌斯范数,||||1代表稀疏规则算子。7.根据权利要求1所述的视频分类方法,其特征在于,所述利用深度神经网络生成所述图像信息对应的第一参考信息、所述光流信息对应的第二参考信息以及所述声音信息对应的第三参考信息包括:利用第一卷积神经网络对所述图像信息处理生成第一信息,按照预设规则从所述第一信息中提取第一子信息,利用第一LSTM对所述第一子信息进行处理生成第四信息,所述第一信息与所述第四信息共同组成所述第一参考信息;利用第二卷积神经网络对所述光流信息处理生成第二信息,所述第二信息为所述第二参考信息;利用第三卷积神经网络对所述声音信息处理生成第三信息,按照预设规则从所述第三信息中提取第三子信息,利用第三LSTM对所述第三子信息进行处理生成第六信息,所述第三信息与所述第六信息共同组成所述第三参考信息;所述根据所述第一参考信息、第二参考信息以及所述第三参考信息对所述视频进行处理以获取所述视频的置信度矩阵和所述视频的类别关系矩阵包括:将所述视频通过所述第一信息、所述第二信息、所述第三信息、所述第四信息以及所述第六信息进行处理,以获取所述视频的置信度矩阵;将至少一个视频通过所述第一信息、所述第二信息、所述第三信息、所述第四信息以及所述第六信息进行处理,以获取所述视频的类别关系矩阵,所述至少一个视频用于对所述视频进行分类;将所述视频的置信度矩阵和所述视频的类别关系矩阵代入目标函数,以获取所述视频的目标融合参数包括:将所述视频的置信度矩阵和所述视频的类别关系矩阵代入目标函数,所述目标函数为求解得出W值,所述W值为所述视频的目标融合参数,其中,W为所述目标函数中的融合参数,所述L(S,Y;W)是所述视频在所述第一信息、所述第二信息、所述第三信息、所述第
\t四信息以及所述第六信息的处理过程中的经验损失,所述S是所述视频的置信度矩阵,Y是所述视频的类标,V是所述视频的类别关系矩阵,λ1和λ2为权重系数,表示弗罗贝尼乌斯范数,||||1代表稀疏规则算子。8.根据权利要求1所述的视频分类方法,其特征在于,所述利用深度神经网络生成所述图像信息对应的第一参考信息、所述光流信息对应的第二参考信息以及所述声音信息对应的第三参考信息包括:利用第一卷积神经网络对所述图像信息处理生成第一信息,所述第一信息为所述第一参考信息;利用第二卷积神经网络对所述光流信息处理生成第二信息,按照预设规则从所述第二信息中提取第二子信息,利用第二LSTM对所述第二子信息进行处理生成第五信息,所述第二信息与所述第五信息共同组成所述第二参考信息;利用第三卷积神经网络对所述声音信息处理生成第三信息,按照预设规则从所述第三信息中提取第三子信息,利用第三LSTM对所述第三子信息进行处理生成第六信息,所述第三信息与所述第六信息共同组成所述第三参考信息;所述根据所述第一参考信息、第二参考信息以及所述第三参考信息对所述视频进行处理以获取所述视频的置信度矩阵和所述视频的类别关系矩阵包括:将所述视频通过所述第一信息、所述第二信息、所述第三信息、所述第五信息以及所述第六信息进行处理,以获取所述视频的置信度矩阵;将至少一个视频通过所述第一信息、所述第二信息、所述第三信息、所述第五信息以及所述第六信息进行处理,以获取所述视频的类别关系矩阵,所述至少一个视频用于对所述视频进行分类;将所述视频的置信度矩阵和所述视频的类别关系矩阵代入目标函数,以获取所述视频的目标融合参数包括:将所述视频的置信度矩阵和所述视频的类别关系矩阵代入目标函数,所述目标函数为求解得出W值,所述W值为所述视频的目标融合参数,其中,W为所述目标函数中的融合参数,所述L(S,Y;W)是所述视频在所述第一信息、所述第二信息、所述第三信息、所述第
\t五信息以及所述第六信息的处理过程中的经验损失,所述S是所述视频的置信度矩阵,Y是所述视频的类标,V是所述视频的类别关系矩阵,λ1和λ2为权重系数,表示弗罗贝尼乌斯范数,||||1代表稀疏规则算子。9.根据权利要求1所述的视频分类方法,其特征在于,所述利用深度神经网络生成所述图像信息对应的第一参考信息、所述光流信息对应的第二参考信息以及所述声音信息对应的第三参考信息包括:利用第一卷积神经网络对所述图像信息处理生成第一信息,按照预设规则从所述第一信息中提取第一子信息,利用第一LSTM对所述第一子信息进行处理生成第四信息,所述第一信息与所述第四信息共同组成所述第一参考信息;利用第二卷积神经网络对所述光流信息处理生成第二信息,按照预设规则从所述第二信息中提取第二子信息,利用第二LSTM对所述第二子信息进行处理生成第五信息,所述第二信息与所述第五信息共同组成所述第二参考信息;利用第三卷积神经网络对所述声音信息处理生成第三信息,按照预设规则从所述第三信息中提取第三子信息,利用第三LSTM对所述第三子信息进行处理生成第六信息,所述第三信息与所述第六信息共同组成所述第三参考信息;所述根据所述第一参考信息、第二参考信息以及所述第三参考信息对所述视频进行处理以获取所述视频的置信度矩阵和所述视频的类别关系矩阵包括:将所述视频通过所述第一信息、所述第二信息、所述第三信息、所述第四信息、所述第五信息以及所述第六信息进行处理,以获取所述视频的置信度矩阵;将至少一个视频通过所述第一信息、所述第二信息、所述第三信息、所述第四信息、所述第五信息以及所述第六信息进行处理,以获取所述视频的类别关系矩阵,所述至少一个视频用于对所述视频进行分类;将所述视频的置信度矩阵和所述视频的类别关系矩阵代入目标函数,以获取所述视频的目标融合参数包括:将所述视频的置信度矩阵和所述视频的类别关系矩阵代入目标函数,所述目
\t标函数为求解得出W值,所述W值为所述视频的目标融合参数,其中,W为所述目标函数中的融合参数,所述L(S,Y;W)是所述视频在所述第一信息、所述第二信息、所述第三信息、所述第四信息、所述第五信息以及所述第六信息的处理过程中的经验损失,所述S是所述视频的置信度矩阵,Y是所述视频的类标,V是所述视频的类别关系矩阵,λ1和λ2为权重系数,表示弗罗贝尼乌斯范数,||||1代表稀疏规则算子。10.一种视频分类装置,其特征在于,包括:获取模块,用于获取视频中的信息,所述视频中的信息包括图像信息,光流信息以及声音信息;生成模块,利用深度神经网络生成所述获取模块获取的图像信息对应的第一参考信息、所述获取模块获取的光流信息对应的第二参考信息以及所述获取模块获取的声音信息对应的第三参考信息;处理模块,用于根据所述生成模块生成的第一参考信息、第二参考信息以及所述第三参考信息对所述视频进行处理以获取所述视频的置信度矩阵和所述视频的类别关系矩阵;计算模块,用于将所述处理模块得到的视频的置信度矩阵和所述视频的类别关系矩阵代入目标函数,以获取所述视频的目标融合参数,所述目标融合参数用于对视频进行分类,其中,所述目标函数的约束因子包含置信度矩阵,类别关系矩阵以及融合参数。11.根据权利要求10所述的视频分类装置,其特征在于,所述生成模块,具体用于利用第一卷积神经网络对所述获取模块获取的图像信息处理生成第一信息,所述第一信息为所述第一参考信息;利用第二卷积神经网络对所述获取模块获取的光流信息处理生成第二信息,所述第二信息为所述第二参考信息;利用第三卷积神经网络对所述获取模块获取的声音信息处理生成第三信息,所述第三信息为所述第三参考信息;所述处理模块,具体用于将所述视频通过所述生成模块生成的第一信息、所述第二信息以及所述第三信息进行处理,以获取所述视频的置信度矩阵;将至少一个视频通过所述生成模块生成的第一信息、所述第二信息以及所述第三信息进行处理,以获取所述视频的类别关系矩阵,所述至少一个视
\t频用于对所述视频进行分类;所述计算模块,具体用于将所述处理模块得到的视频的置信度矩阵和所述视频的类别关系矩阵代入目标函数,所述目标函数为minWL(S,Y;W)+λ1||W-V||F2+λ2||W||1,]]>其中,所述目标函数表示当的取值最小时,求解得出W值,所述W值为所述视频的目标融合参数,其中,W为所述目标函数中的融合参数,所述L(S,Y;W)是所述视频在所述第一信息、所述第二信息以及所述第三信息的处理过程中的经验损失,所述S是所述视频的置信度矩阵,Y是所述视频的类标,V是所述视频的类别关系矩阵,λ1和λ2为权重系数,表示弗罗贝尼乌斯范数,||||1代表稀疏规则算子。12.根据权利要求10所述的视频分类装置,其特征在于,所述生成模块,具体用于利用第一卷积神经网络对所述获取模块获取的图像信息处理生成第一信息,按照预设规则从所述第一信息中提取第一子信息,利用第一时间递归神经网络LSTM对所述第一子信息进行处理生成第四信息,所述第一信息与所述第四信息共同组成所述第一参考信息;利用第二卷积神经网络对所述获取模块获取的光流信息处理生成第二信息,所述第二信息为所述第二参考信息;利用第三卷积神经网络对所述获取模块获取的声音信息处理生成第三信息,所述第三信息为所述第三参考信息;所述处理模块,具体用于将所述视频通过所述生成模块生成的第一信息、所述第二信息、所述第三信息以及所述第四信息进行处理,以获取所述视频的置信度矩阵;将至少一个视频通过所述生成模块生成的第一信息、所述第二信息、所述第三信息以及所述第四信息进行处理,以获取所述视频的类别关系矩阵,所述至少一个视频用于对所述视频进行分类;所述计算模块,具体用于将所述处理模块得到的视频的置信度矩阵和所述视频的类别关系矩阵代入目标函数,所述目标函数为minWL(S,Y;W)+λ1||W-V||F2+λ2||W||1,]]>其中,所述目标函数表示当的取值最小时,求解得出W值,所述W值为所述视频的目标融合参数,其中,W为所述目标函数中的融合参数,所述L(S,Y;W)是所述视频在所述第一信息、所述第二信息、所述第三信息以及所述第四信息的处理过程中的经验损失,所述S是所述视频的置信度矩阵,Y是
\t所述视频的类标,V是所述视频的类别关系矩阵,λ1和λ2为权重系数,表示弗罗贝尼乌斯范数,||||1代表稀疏规则算子。13.根据权利要求10所述的视频分类装置,其特征在于,所述生成模块,具体用于利用第一卷积神经网络对所述获取模块获取的图像信息处理生成第一信息,所述第一信息为所述第一参考信息;利用第二卷积神经网络对所述获取模块获取的光流信息处理生成第二信息,按照预设规则从所述第二信息中提取第二子信息,利用第二LSTM对所述第二子信息进行处理生成第五信息,所述第二信息与所述第五信息共同组成所述第二参考信息;利用第三卷积神经网络对所述获取模块获取的声音信息处理生成第三信息,所述第三信息为所述第三参考信息;所述处理模块,具体用于将所述视频通过所述生成模块生成的第一信息、所述第二信息、所述第三信息以及所述第五信息进行处理,以获取所述视频的置信度矩阵;将至少一个视频通过所述生成模块生成的第一信息、所述第二信息、所述第三信息以及所述第五信息进行处理,以获取所述视频的类别关系矩阵,所述至少一个视频用于对所述视频进行分类;所述计算模块,具体用于将所述处理模块得到的视频的置信度矩阵和所述视频的类别关系矩阵代入目标函数,所述目标函数为minWL(S,Y;W)+λ1||W-V||F2+λ2||W||1,]]>其中,所述目标函数表示当的取值最小时,求解得出W值,所述W值为所述视频的目标融合参数,其中,W为所述目标函数中的融合参数,所述L(S,Y;W)是所述视频在所述第一信息、所述第二信息、所述第三信息以及所述第五信息的处理过程中的经验损失,所述S是所述视频的置信度矩阵,Y是所述视频的类标,V是所述视频的类别关系矩阵,λ1和λ2为权重系数,表示弗罗贝尼乌斯范数,||||1代表稀疏规则算子。14.根据权利要求10所述的视频分类装置,其特征在于,所述生成模块,用于利用第一卷积神经网络对所述获取模块获取的图像信息处理生成第一信息,所述第一信息为所述第一参考信息;利用第二卷积神经网络对所述获取模块获取的光流信息处理生成第二信息,所述第二信息为所述第二参考信息;利用第三卷积神经网络对所述获取模块获取的声音信息处理生成第三信息,按照预设规则从所述第三信息中提取第三子信息,利
\t用第三LSTM对所述第三子信息进行处理生成第六信息,所述第三信息与所述第六信息共同组成所述第三参考信息;所述处理模块,具体用于将所述视频通过所述生成模块生成的第一信息、所述第二信息、所述第三信息以及所述第六信息进行处理,以获取所述视频的置信度矩阵;将至少一个视频通过所述生成模块生成的第一信息、所述第二信息、所述第三信息以及所述第六信息进行处理,以获取所述视频的类别关系矩阵,所述至少一个视频用于对所述视频进行分类;所述计算模块,具体用于将所述处理模块得到的视频的置信度矩阵和所述视频的类别关系矩阵代入目标函数,所述目标函数为minWL(S,Y;W)+λ1||W-V||F2+λ2||W||1,]]>其中,所述目标函数表示当的取值最小时,求解得出W值,所述W值为所述视频的目标融合参数,其中,W为所述目标函数中的融合参数,所述L(S,Y;W)是所述视频在所述第一信息、所述第二信息、所述第三信息以及所述第六信息的处理过程中的经验损失,所述S是所述视频的置信度矩阵,Y是所述视频的类标,V是所述视频的类别关系矩阵,λ1和λ2为权重系数,表示弗罗贝尼乌斯范数,||||1代表稀疏规则算子。15.根据权利要求10所述的视频分类装置,其特征在于,所述生成模块,具体用于利用第一卷积神经网络对所述获取模块获取的图像信息处理生成第一信息,按照预设规则从所述第一信息中提取第一子信息,利用第一LSTM对所述第一子信息进行处理生成第四信息,所述第一信息与所述第四信息共同组成所述第一参考信息;利用第二卷积神经网络对所述获取模块获取的光流信息处理生成第二信息,按照规则从所述第二信息中提取第二子信息...

【专利技术属性】
技术研发人员:姜育刚吴祖煊顾子晨
申请(专利权)人:华为技术有限公司复旦大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1