视频的情感预测方法、装置、设备及可读存储介质制造方法及图纸

技术编号:32357840 阅读:21 留言:0更新日期:2022-02-20 03:20
本申请公开一种视频的情感预测方法、装置、设备及可读存储介质。包括:获取待处理的视频数据;视频数据包括图像帧序列和音频数据;利用第一编码网络从图像帧序列提取第一动作特征向量,利用第一循环神经网络从第一动作特征向量提取第二动作特征向量,第一动作特征向量对应的视频时长短于第二动作特征向的视频时长;利用第二编码网络从音频数据提取第一声音特征向量,并利用第二循环神经网络从第一声音特征向量提取第二声音特征向量,第一声音特征向量对应的视频时长短于第二声音特征向量对应的视频时长;融合第二动作特征向量和第二声音特征向量,得到融合特征;基于融合特征进行情感预测。通过上述方式,本申请能够提高对视频情感预测的准确度。视频情感预测的准确度。视频情感预测的准确度。

【技术实现步骤摘要】
视频的情感预测方法、装置、设备及可读存储介质


[0001]本申请涉及视频处理领域,特别是涉及视频的情感预测方法、装置、设备及可读存储介质。

技术介绍

[0002]经过长期研究发现,一般对视频的情感进行预测都是预测整个视频的情感分类,这使得现有技术大多局限于对短视频的处理。
[0003]对于长视频的情况,观看者的情绪会随着观看时间进行变化,此时对整个视频的情感进行分类显然是不合理的。

技术实现思路

[0004]本申请主要提供一种视频的情感预测方法、装置、设备及可读存储介质。
[0005]本申请第一方面提供了一种视频的情感预测方法,包括:获取待处理的视频数据;其中,视频数据包括图像帧序列和相应的音频数据;利用第一编码网络从图像帧序列提取第一动作特征向量,并利用第一循环神经网络从第一动作特征向量提取第二动作特征向量;利用第二编码网络从音频数据提取第一声音特征向量,并利用第二循环神经网络从第一声音特征向量提取第二声音特征向量;将第二动作特征向量和第二声音特征向量进行融合,得到融合特征;基于融合特征对视频数据进行情感预测。
[0006]本申请第二方面提供了一种视频情感预测装置,包括:获取模块,用于获取待处理的视频数据;其中,所述视频数据包括图像帧序列和相应的音频数据;动作特征提取模块,用于利用第一编码网络对所述图像帧序列进行特征提取,得到第一动作特征向量,并利用第一循环神经网络对所述第一动作特征向量进行特征提取,得到第二动作特征向量,其中,所述第一动作特征向量所对应的视频时长短于所述第二动作特征向量所对应的视频时长;声音特征提取模块,用于利用第二编码网络对所述音频数据进行特征提取,得到第一声音特征向量,并利用第二循环神经网络对所述第一声音特征向量进行特征提取,得到第二声音特征向量,其中,所述第一声音特征向量所对应的视频时长短于所述第二声音特征向量所对应的视频时长;特征融合模块,用于将所述第二动作特征向量和所述第二声音特征向量进行融合,得到融合特征;情感预测模块,用于基于所述融合特征对所述视频数据进行情感预测。
[0007]本申请第三方面提供了一种电子设备,包括相互耦接的处理器和存储器,所述存储器中存储有能够在处理器上运行的计算机程序,其中,所述处理器用于运行所述计算机程序时,实现如上述第一方面提供的视频的情感预测方法。
[0008]本申请第四方面提供了一种计算机可读存储介质,计算机可读存储介质存储有程序数据,所述程序数据被处理器执行时,实现上述第一方面提供的视频的情感预测方法。
[0009]本申请的有益效果是:区别于现有技术的情况,本申请利用第一编码网络提取图像帧序列的第一动作特征向量,再利用第一循环神经网络从第一动作特征向量提取第二动
作特征向量,利用第二编码网络从音频数据提取第一声音特征向量,并利用第二循环神经网络从第一声音特征向量提取第二声音特征向量;将第二动作特征向量和第二声音特征向量进行融合,得到融合特征;基于融合特征对视频数据进行情感预测。上述方法获取的第二动作特征向量和第二声音特征向量都是长时特征,保留更多的有用信息,作用到情感预测层面上,能够有效提高情感预测结果的准确度。
附图说明
[0010]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0011]图1是本申请电子设备一实施例的结构示意框图;
[0012]图2是本申请视频的情感预测方法一实施例的流程示意框图;
[0013]图3是本申请步骤S12一实施例的流程示意框图;
[0014]图4是本申请步骤S13一实施例的流程示意框图;
[0015]图5是本申请步骤S14一实施例的流程示意框图;
[0016]图6是本申请对第一编码网络、第一循环神经网络进行训练一实施例的流程示意框图;
[0017]图7是本申请对第二编码网络、第二循环神经网络进行训练一实施例的流程示意框图;
[0018]图8为本申请视频情感预测网络一实施例的结构示意框图;
[0019]图9是本申请对回归层进行训练一实施例的流程示意框图;
[0020]图10是本申请视频的情感预测装置一实施例的结构示意框图;
[0021]图11是本申请计算机可读存储介质一实施例的结构示意框图。
具体实施方式
[0022]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0023]在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解是,本文所描述的实施例可以与其他实施例结合。
[0024]请参阅图1,图1是本申请电子设备一实施例的结构示意框图。该电子设备100包括相互耦接的处理器101和存储器102,存储器102中存储有能够在处理器101上运行的计算机程序,其中,处理器101用于执行计算机程序时,实现下述各实施例所述的视频的情感预测方法。
[0025]存储器102可用于存储程序数据以及模块,处理器101通过运行存储在存储器102
的程序数据以及模块,从而执行各种功能应用以及数据处理。存储器102可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备100的使用所创建的数据(比如视频数据、图像帧序列、音频数据等)等。此外,存储器102可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器102还可以包括存储器控制器,以提供处理器101对存储器102的访问。
[0026]在一些具体实施例中,电子设备100不限于包括电视机、桌面型计算机、膝上型计算机、手持计算机、可穿戴设备、笔记本电脑。
[0027]关于处理执行的各步骤的描述请参照下述本申请视频的情感预测方法实施例的各步骤的描述,在此不再赘述。
[0028]请参阅图2,图2是本申请视频的情感预测方法一实施例的流程示意框图。本实施例包括以下步骤:
[0029]步骤S11:获取待处理的视频数据;其中,视频数据包括图像帧序列和相应的音频数据。
[0030]待处理视频例如可以是通过网络从服务器获取的,也可以是通过物理连接模块从U盘、硬盘等存储设备获取的,还可以是发出处理操作的设备主体通过自身摄像功能拍摄本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频的情感预测方法,其特征在于,所述方法包括:获取待处理的视频数据;其中,所述视频数据包括图像帧序列和相应的音频数据;利用第一编码网络对所述图像帧序列进行特征提取,得到第一动作特征向量,并利用第一循环神经网络对所述第一动作特征向量进行特征提取,得到第二动作特征向量,其中,所述第一动作特征向量所对应的视频时长短于所述第二动作特征向量所对应的视频时长;利用第二编码网络对所述音频数据进行特征提取,得到第一声音特征向量,并利用第二循环神经网络对所述第一声音特征向量进行特征提取,得到第二声音特征向量,其中,所述第一声音特征向量所对应的视频时长短于所述第二声音特征向量所对应的视频时长;将所述第二动作特征向量和所述第二声音特征向量进行融合,得到融合特征;基于所述融合特征对所述视频数据进行情感预测。2.根据权利要求1所述的方法,其特征在于,所述利用第一编码网络对所述图像帧序列进行特征提取,得到第一动作特征向量,并利用第一循环神经网络对所述第一动作特征向量进行特征提取,得到第二动作特征向量,包括:对所述图像帧序列进行分割,得到多个帧片段,其中每个所述帧片段包括至少两个图像帧;将所述帧片段输入所述第一编码网络,以获取与所述帧片段对应的第一动作特征向量;将多个所述第一动作特征向量输入所述第一循环神经网络,以获得所述第二动作特征向量。3.根据权利要求1所述的方法,其特征在于,所述利用第二编码网络对所述音频数据进行特征提取,得到第一声音特征向量,并利用第二循环神经网络对所述第一声音特征向量进行特征提取,得到第二声音特征向量,包括:对所述音频数据进行分割,得到多个音频片段;将所述音频片段输入所述第二编码网络,以获得所述音频片段对应的第一声音特征向量;将多个所述第一声音特征向量输入第二循环神经网络,以获得所述第二声音特征向量。4.根据权利要求1所述的方法,其特征在于,所述利用第一编码网络对所述图像帧序列进行特征提取,得到第一动作特征向量,并利用第一循环神经网络对所述第一动作特征向量进行特征提取,得到第二动作特征向量之前,所述方法还包括:在所述第一编码网络的参数固定的情况下,利用带有标签的图像帧数据集对所述第一编码网络和所述第一循环神经网络进行训练,以调整所述第一循环神经网络的参数,其中所述第一循环神经网络基于所述第一编码网络输出的第一动作特征向量进行情感预测;移除所述第一循环神经网络的情感预测回归层,以将所保留的所述第一循环神经网络的最后一层的输出结果作为所述第二动作特征向量。5.根据权利要求4所述的方法,其特征在于,所述利用带有标签的图像帧数据集对所述第一编码网络和所述第一循环神经网络进行训练之前,所述方法还包括:将所述第一编码网络连接至第三循环神经网络,并利用无标签的图像帧数据集对所述第一编码网络和所述第三循环神经网络进行自监督训练,其中所述第三循环神经网络基于
所述第一编码网络的当前第一动作特征向量的输出结果用于预测所述第一编码网络的下一第一动作特征向量;移除所述第三循环神经网络,并将所述第一编码网络连接至所述第一循环神经网络。6.根据权利要求1所述的方法,其特征在于,所述利用第二编码网络对所述音频数据进行特征提取,得到第一声音特征向量,并利用第二循环神经网络对所述第一声音特征向量进行特征提取,得到第二声...

【专利技术属性】
技术研发人员:张宸陈忱陶训强何苗郭彦东
申请(专利权)人:OPPO广东移动通信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1