视频的情感预测方法、装置、设备及可读存储介质制造方法及图纸

技术编号：32357840 阅读：29 留言：0更新日期：2022-02-20 03:20

本申请公开一种视频的情感预测方法、装置、设备及可读存储介质。包括：获取待处理的视频数据；视频数据包括图像帧序列和音频数据；利用第一编码网络从图像帧序列提取第一动作特征向量，利用第一循环神经网络从第一动作特征向量提取第二动作特征向量，第一动作特征向量对应的视频时长短于第二动作特征向的视频时长；利用第二编码网络从音频数据提取第一声音特征向量，并利用第二循环神经网络从第一声音特征向量提取第二声音特征向量，第一声音特征向量对应的视频时长短于第二声音特征向量对应的视频时长；融合第二动作特征向量和第二声音特征向量，得到融合特征；基于融合特征进行情感预测。通过上述方式，本申请能够提高对视频情感预测的准确度。视频情感预测的准确度。视频情感预测的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
视频的情感预测方法、装置、设备及可读存储介质

[0001]本申请涉及视频处理领域，特别是涉及视频的情感预测方法、装置、设备及可读存储介质。

技术介绍

[0002]经过长期研究发现，一般对视频的情感进行预测都是预测整个视频的情感分类，这使得现有技术大多局限于对短视频的处理。
[0003]对于长视频的情况，观看者的情绪会随着观看时间进行变化，此时对整个视频的情感进行分类显然是不合理的。

技术实现思路

[0004]本申请主要提供一种视频的情感预测方法、装置、设备及可读存储介质。
[0005]本申请第一方面提供了一种视频的情感预测方法，包括：获取待处理的视频数据；其中，视频数据包括图像帧序列和相应的音频数据；利用第一编码网络从图像帧序列提取第一动作特征向量，并利用第一循环神经网络从第一动作特征向量提取第二动作特征向量；利用第二编码网络从音频数据提取第一声音特征向量，并利用第二循环神经网络从第一声音特征向量提取第二声音特征向量；将第二动作特征向量和第二声音特征向量进行融合，得到融合特征；基于融合特征对视...

【技术保护点】

【技术特征摘要】
1.一种视频的情感预测方法，其特征在于，所述方法包括：获取待处理的视频数据；其中，所述视频数据包括图像帧序列和相应的音频数据；利用第一编码网络对所述图像帧序列进行特征提取，得到第一动作特征向量，并利用第一循环神经网络对所述第一动作特征向量进行特征提取，得到第二动作特征向量，其中，所述第一动作特征向量所对应的视频时长短于所述第二动作特征向量所对应的视频时长；利用第二编码网络对所述音频数据进行特征提取，得到第一声音特征向量，并利用第二循环神经网络对所述第一声音特征向量进行特征提取，得到第二声音特征向量，其中，所述第一声音特征向量所对应的视频时长短于所述第二声音特征向量所对应的视频时长；将所述第二动作特征向量和所述第二声音特征向量进行融合，得到融合特征；基于所述融合特征对所述视频数据进行情感预测。2.根据权利要求1所述的方法，其特征在于，所述利用第一编码网络对所述图像帧序列进行特征提取，得到第一动作特征向量，并利用第一循环神经网络对所述第一动作特征向量进行特征提取，得到第二动作特征向量，包括：对所述图像帧序列进行分割，得到多个帧片段，其中每个所述帧片段包括至少两个图像帧；将所述帧片段输入所述第一编码网络，以获取与所述帧片段对应的第一动作特征向量；将多个所述第一动作特征向量输入所述第一循环神经网络，以获得所述第二动作特征向量。3.根据权利要求1所述的方法，其特征在于，所述利用第二编码网络对所述音频数据进行特征提取，得到第一声音特征向量，并利用第二循环神经网络对所述第一声音特征向量进行特征提取，得到第二声音特征向量，包括：对所述音频数据进行分割，得到多个音频片段；将所述音频片段输入所述第二编码网络，以获得所述音频片段对应的第一声音特征向量；将多个所述第一声音特征向量输入第二循环神经网络，以获得所述第二声音特征向量。4.根据权利要求1所述的方法，其特征在于，所述利用第一编码网络对所述图像帧序列进行特征提取，得到第一动作特征向量，并利用第一循环神经网络对所述第一动作特征向量进行特征提取，得到第二动作特征向量之前，所述方法还包括：在所述第一编码网络的参数固定的情况下，利用带有标签的图像帧数据集对所述第一编码网络和所述第一循环神经网络进行训练，以调整所述第一循环神经网络的参数，其中所述第一循环神经网络基于所述第一编码网络输出的第一动作特征向量进行情感预测；移除所述第一循环神经网络的情感预测回归层，以将所保留的所述第一循环神经网络的最后一层的输出结果作为所述第二动作特征向量。5.根据权利要求4所述的方法，其特征在于，所述利用带有标签的图像帧数据集对所述第一编码网络和所述第一循环神经网络进行训练之前，所述方法还包括：将所述第一编码网络连接至第三循环神经网络，并利用无标签的图像帧数据集对所述第一编码网络和所述第三循环神经网络进行自监督训练，其中所述第三循环神经网络基于
所述第一编码网络的当前第一动作特征向量的输出结果用于预测所述第一编码网络的下一第一动作特征向量；移除所述第三循环神经网络，并将所述第一编码网络连接至所述第一循环神经网络。6.根据权利要求1所述的方法，其特征在于，所述利用第二编码网络对所述音频数据进行特征提取，得到第一声音特征向量，并利用第二循环神经网络对所述第一声音特征向量进行特征提取，得到第二声...

【专利技术属性】
技术研发人员：张宸，陈忱，陶训强，何苗，郭彦东，
申请(专利权)人：OPPO广东移动通信有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人