多模态的电影情感识别方法和装置、设备、存储介质制造方法及图纸

技术编号：38334345 阅读：10 留言：0更新日期：2023-08-02 09:14

本申请实施例提供了一种多模态的电影情感识别方法和装置、设备、存储介质，属于人工智能技术领域。该方法包括：获取并对原始电影数据原始进行数据分割，得到原始视频数据、原始音频数据、原始台词数据，对原始视频数据进行视频特征提取得到目标视频时序特征，对原始音频数据进行音频特征提取得到目标音频特征，对原始台词数据进行文本特征提取得到目标台词特征，将目标视频时序特征、目标音频特征和目标台词特征进行特征拼接，得到音视频台词融合特征，并将音视频台词融合特征输入至预设的情感分类器进行情感分类，得到目标情感类别。本申请实施例能够结合视频、音频、文本三种模态，提高对电影情感识别的准确率。提高对电影情感识别的准确率。提高对电影情感识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
多模态的电影情感识别方法和装置、设备、存储介质

[0001]本申请涉及人工智能
，尤其涉及一种多模态的电影情感识别方法和装置、设备、存储介质。

技术介绍

[0002]电影情感识别，通常是根据电影中若干连续关键帧组成简短视频来识别其中所表达的情感，其输入是一段由连续关键帧组成的简短视频，输出是电影片段所表达的情感类别。当前，针对电影情感识别的主要做法是：使用卷积神经网络逐步提取电影片段中的图像特征，然后基于提取到的图像特征进行情感分类，以完成电影情感识别。然而，电影中的一些图像特征并不能真实反应出情感，例如人物的假笑等，导致情感识别的准确率不高。

技术实现思路

[0003]本申请实施例的主要目的在于提出一种多模态的电影情感识别方法和装置、设备、存储介质，旨在提高情感识别的准确率。
[0004]为实现上述目的，本申请实施例的第一方面提出了一种多模态的电影情感识别方法，所述方法包括：
[0005]获取原始电影数据；
[0006]对所述原始电影数据进行数据分割，得到原始视频数据、原始音频数据、原始台词数据；其中，所述原始视频数据为不具有声音且不具有台词的视频片段，所述原始台词数据为所述原始电影数据的台词，所述原始音频数据为所述原始电影数据的音频；
[0007]对所述原始视频数据进行视频特征提取，得到目标视频时序特征；
[0008]对所述原始音频数据进行音频特征提取，得到目标音频特征；
[0009]对所述原始台词数据进行文本特征提取，得到目标台词特征；/>[0010]将所述目标视频时序特征、目标音频特征和所述目标台词特征进行特征拼接，得到音视频台词融合特征；
[0011]将所述音视频台词融合特征输入至预设的情感分类器进行情感分类，得到目标情感类别。
[0012]在一些实施例，所述对所述原始音频数据进行音频特征提取，得到目标音频特征，包括：
[0013]对所述原始音频数据进行短时傅里叶变换频谱计算，得到初步频谱数据；
[0014]对所述初步频谱数据进行卷积处理，得到初步音频特征；
[0015]对所述初步音频特征进行降采样处理，得到所述目标音频特征。
[0016]在一些实施例，所述对所述原始台词数据进行文本特征提取，得到目标台词特征，包括：
[0017]对所述原始台词数据进行台词检测，得到台词检测结果；
[0018]根据所述台词检测结果对所述原始台词数据进行台词构建，得到台词序列；
[0019]根据预设的长短时记忆网络对所述台词序列进行台词特征提取，得到所述目标台词特征。
[0020]在一些实施例，所述根据所述台词检测结果对所述原始台词数据进行台词构建，得到台词序列，包括：
[0021]若所述台词检测结果表示所述原始台词数据存在台词，则对所述原始台词数据进行文本特征提取，得到所述台词序列；
[0022]或者，
[0023]若所述台词检测结果表示所述原始台词数据不存在台词，则进行台词填充，得到所述台词序列。
[0024]在一些实施例，所述对所述原始视频数据进行视频特征提取，得到目标视频时序特征，包括：
[0025]从所述原始视频数据提取视频序列，得到初步视频序列；
[0026]根据预设的3D卷积神经网络对所述初步视频序列进行视频特征提取，得到所述目标视频时序特征。
[0027]在一些实施例，所述将所述音视频台词融合特征输入至预设的情感分类器进行情感分类，得到目标情感类别之前，所述方法还包括：训练所述情感分类器，具体包括：
[0028]获取样本电影数据；
[0029]对所述样本电影数据进行特征提取，得到音视频台词特征组；其中，所述音视频台词特征组包括样本视频特征、样本台词特征、样本图像特征；
[0030]将所述样本视频特征、所述样本台词特征、所述样本图像特征进行特征拼接，得到样本融合特征；
[0031]根据所述样本融合特征和预设的情感类别标签对预设分类器进行训练，得到所述情感分类器。
[0032]在一些实施例，所述对所述样本电影数据进行特征提取，得到音视频台词特征组，包括：
[0033]对所述样本电影数据进行视频提取得到样本视频数据，对所述样本电影数据进行音频提取得到样本音频数据，对所述样本电影数据进行台词提取得到样本台词数据；
[0034]对所述样本视频数据进行视频特征提取得到所述样本视频特征，对所述样本音频数据进行音频特征提取得到所述样本音频特征，对所述样本台词数据进行台词特征提取得到所述样本台词特征；
[0035]根据所述样本视频特征、所述样本音频特征、所述台词音频特征进行特征组构建，得到所述音视频台词特征组；其中所述音视频台词特征组为矩阵。
[0036]为实现上述目的，本申请实施例的第二方面提出了一种多模态的电影情感识别装置，所述装置包括：
[0037]电影数据获取模块，用于获取原始电影数据；
[0038]电影数据分割模块，用于对所述原始电影数据进行数据分割，得到原始视频数据、原始音频数据、原始台词数据；其中，所述原始视频数据为不具有声音且不具有台词的视频片段，所述原始台词数据为所述原始电影数据的台词，所述原始音频数据为所述原始电影数据的音频；
[0039]视频特征提取模块，用于对所述原始视频数据进行视频特征提取，得到目标视频时序特征；
[0040]音频特征提取模块，用于对所述原始音频数据进行音频特征提取，得到目标音频特征；
[0041]文本特征提取模块，用于对所述原始台词数据进行文本特征提取，得到目标台词特征；
[0042]音视频台词融合模块，用于将所述目标视频时序特征、目标音频特征和所述目标台词特征进行特征拼接，得到音视频台词融合特征；
[0043]情感分类模块，用于将所述音视频台词融合特征输入至预设的情感分类器进行情感分类，得到目标情感类别。
[0044]为实现上述目的，本申请实施例的第三方面提出了一种电子设备，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的方法。
[0045]为实现上述目的，本申请实施例的第四方面提出了一种存储介质，所述存储介质为计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的方法。
[0046]本申请提出的多模态的电影情感识别方法和装置、设备、存储介质,其通过获取并对原始电影数据原始进行数据分割，得到原始视频数据、原始音频数据、原始台词数据，对原始视频数据进行视频特征提取得到目标视频时序特征，对原始音频数据进行音频特征提取得到目标音频特征，对原始台词数据进行文本特征提取得到目标台词特征，将目标视频时序特征、目标音频特征和目标台词特征进行特征拼接，得到音视频台词融合特征，并将音视频台词融合特征输入至预设的情感分类器进行情感分类，得到目标情感类别。本申请实施例能够本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种多模态的电影情感识别方法，其特征在于，所述方法包括：获取原始电影数据；对所述原始电影数据进行数据分割，得到原始视频数据、原始音频数据、原始台词数据；其中，所述原始视频数据为不具有声音且不具有台词的视频片段，所述原始台词数据为所述原始电影数据的台词，所述原始音频数据为所述原始电影数据的音频；对所述原始视频数据进行视频特征提取，得到目标视频时序特征；对所述原始音频数据进行音频特征提取，得到目标音频特征；对所述原始台词数据进行文本特征提取，得到目标台词特征；将所述目标视频时序特征、目标音频特征和所述目标台词特征进行特征拼接，得到音视频台词融合特征；将所述音视频台词融合特征输入至预设的情感分类器进行情感分类，得到目标情感类别。2.根据权利要求1所述的方法，其特征在于，所述对所述原始音频数据进行音频特征提取，得到目标音频特征，包括：对所述原始音频数据进行短时傅里叶变换频谱计算，得到初步频谱数据；对所述初步频谱数据进行卷积处理，得到初步音频特征；对所述初步音频特征进行降采样处理，得到所述目标音频特征。3.根据权利要求1所述的方法，其特征在于，所述对所述原始台词数据进行文本特征提取，得到目标台词特征，包括：对所述原始台词数据进行台词检测，得到台词检测结果；根据所述台词检测结果对所述原始台词数据进行台词构建，得到台词序列；根据预设的长短时记忆网络对所述台词序列进行台词特征提取，得到所述目标台词特征。4.根据权利要求3所述的方法，其特征在于，所述根据所述台词检测结果对所述原始台词数据进行台词构建，得到台词序列，包括：若所述台词检测结果表示所述原始台词数据存在台词，则对所述原始台词数据进行文本特征提取，得到所述台词序列；或者，若所述台词检测结果表示所述原始台词数据不存在台词，则进行台词填充，得到所述台词序列。5.根据权利要求1至4任一项所述的方法，其特征在于，所述对所述原始视频数据进行视频特征提取，得到目标视频时序特征，包括：从所述原始视频数据提取视频序列，得到初步视频序列；根据预设的3D卷积神经网络对所述初步视频序列进行视频特征提取，得到所述目标视频时序特征。6.根据权利要求1至4任一项所述的方法，其特征在于，所述将所述音视频台词融合特征输入至预设的情感分类器进行情感分类，得到目标情感类别之前，所述方法还包括：训练所述情感分类器，具体包括：获...

【专利技术属性】
技术研发人员：张旭龙，王健宗，程宁，赵嘉豪，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人