一种基于数据增强及跨模态特征融合的情绪智能识别方法技术

技术编号：37356701 阅读：5 留言：0更新日期：2023-04-27 07:06

本发明专利技术公开了一种基于数据增强及跨模态特征融合的情绪智能识别方法，包括如下步骤：多模态数据采集；将文本数据进行数据增强，并利用增强后的文本数据构造文本情感特征；将语音数据提取3D语谱图特征，并进行增强得到语音情感特征；使用跨模态Transformer模型对文本情感特征和语音情感特征进行跨模态特征信息融合，得到融合后的多模态情感特征；使用基于BiGRU与双池化层的分类模型对融合后的多模态情感特征进行特征学习，并使用交叉熵损失函数进行训练；利用训练后的分类模型进行情绪识别。本发明专利技术所公开的方法可以有效利用多种模态所包含的情感信息，捕捉不同模态之间的互补信息，从而提升情绪识别模型的识别能力和泛化能力。力。力。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于数据增强及跨模态特征融合的情绪智能识别方法

[0001]本专利技术涉及多模态情绪智能识别
，特别涉及一种基于数据增强及跨模态特征融合的情绪智能识别方法。

技术介绍

[0002]情感分析(Sentiment Analysis)是指利用自然语言处理和数据挖掘技术，对带有情感色彩的主观性数据进行分析、处理和抽取的过程。情感分析任务可以分为两个子任务，Aspect Extraction(评价对象抽取)和Sentimental Classification(情感分类)。情感分类任务也叫极性分析，是根据数据所表达的含义和情感信息将文本划分成褒扬的或贬义的两种或几种类型，是对文本作者倾向性和观点、态度的划分。一般来说有二分类(积极的，消极的)或者多分类(开心，生气，愤怒)等。情感分析的多模态主要是指用于情感识别的数据来源多样，例如有文本、语音、面部表情、生理信号等等。
[0003]大多对情绪识别的研究虽然在单模态情绪识别研究都已经取得了一定的成果，但是准确率仍然不高。一方面是不同模态所表示情感信息略有差别,例如面部表情，语音的声调等。若仅从一种表达方式就直接判定出一个人的情绪状态，那判别出来的结果可能是片面的。从人们自身而言，靠单一的语音或文本信息去判断一个人的情绪状态也是困难的，对于计算机来说更是难乎其难。另一方面，从采集到的数据集而言，单模态数据信息是不够全面的，在信息采集时易受外部环境干扰，获取的数据可能存在一些偏差。例如：在采集语音信息时易受信号强弱以及外部环境噪音干扰影响。

技术实现思路
r/>[0004]为解决上述技术问题，本专利技术提供了一种基于数据增强及跨模态特征融合的情绪智能识别方法，以达到有效利用多种模态所包含的情感信息，捕捉不同模态之间的互补信息，从而提升情绪识别模型的识别能力和泛化能力的目的。
[0005]为达到上述目的，本专利技术的技术方案如下：
[0006]一种基于数据增强及跨模态特征融合的情绪智能识别方法，包括如下步骤：
[0007](1)多模态数据采集；
[0008](2)将文本数据进行数据增强，并利用增强后的文本数据构造文本情感特征；将语音数据提取3D语谱图特征，并对3D语谱图特征进行增强，得到语音情感特征；
[0009](3)使用跨模态Transformer模型对文本情感特征和语音情感特征进行跨模态特征信息融合，得到融合后的多模态情感特征；
[0010](4)使用基于BiGRU与双池化层的分类模型对融合后的多模态情感特征进行特征学习，并使用交叉熵损失函数进行训练；
[0011](5)利用训练后的分类模型进行情绪识别，得到情绪识别结果。
[0012]上述方案中，步骤(2)中，将文本数据通过<PAD>替换、同义词替换、回译法、伪标签预测四种方式完成数据增强，完成数据增强后将不同类别的样本数据添加进训练集，使训
练集中各分类样本比例相同。
[0013]进一步的技术方案中，所述<PAD>替换为：文本数据以0.3的概率，将输入句子中的词语替换成用于补齐BERT预训练模型句子的<PAD>符号，获得一条新样本数据；
[0014]所述同义词替换为：文本数据首先进行分词，将所有分词在中文同义词表中进行匹配，若命中则进行同义词替换，获得一条新样本数据；
[0015]所述回译法为：将文本数据在百度翻译中按照中文、英文、日文、中文的翻译顺序依次翻译，得到的数据为一条新的样本数据；
[0016]所述伪标签预测为：将原始文本数据在BERT模型进行训练得到预训练模型，爬取网络中无标签的音频数据，分离成文本与语音后，将文本经过预训练模型预测得到该样本数据的伪标签，作为一条新的样本数据。
[0017]上述方案中，步骤(2)中，构造文本情感特征的方法如下：
[0018]首先，基于Word2Vec训练词向量矩阵，文本数据进行清洗以及分词，将词向量矩阵与样本分词的one
‑
hot向量相乘得到的300维的文本语义词向量；
[0019]其次，根据连续情感词字典将文本中带有情绪倾向的文本情感词映射到情感空间，得到映射矩阵，然后通过自动编码器得到映射矩阵的瓶颈特征向量，即文本情感词向量；
[0020]然后，融合文本语义词向量和文本情感词向量，得到构造好的文本情感特征。
[0021]进一步的技术方案中，连续情感词字典中包含1653个被标注了valence值，arousal值的情感词，将连续情感词典中所有情感词转化为词向量形式，表示为E＝(e1,e2,...,e
n
)，其中，n＝1653，e
n
代表第n个情感词向量；
[0022]每个情感词都对应一组VA值，表示为VA＝((ev1,ea1),(ev2,ea2),...,(ev
n
,ea
n
))，其中ev
n
代表词典中第n个情感词的valence值，ea
n
代表词典中第n个情感词的arousal值；
[0023]所述文本数据中带有情绪倾向的文本情感词映射是获取样本第i个分词s
i
的词向量g
i
后，计算该词向量与E中词向量e
j
的余弦相似度，其公式如下：
[0024][0025]其中，j＝1,2,3,...,n，使用cosθ
ij
与e
j
对应的VA值相乘即可得到g
i
映射后的VA值，其公式表示为：
[0026]ev
j
→
i
＝cos
ij
θ
·
ev
j
[0027]ea
j
→
i
＝cos
ij
θ
·
ea
j
[0028]该分词经过映射后，即可得到大小为n
×
2的映射矩阵，其表示如下：
[0029]SVA
i
＝[[ev1→
i
,ea1→
i
],[ev2→
i
,ea2→
i
],...,[ev
n
→
i
,ea
n
→
i
]][0030]所述自动编码器由两层全连接层Dense构成，第一个全连接层输出维度为212，激活函数为relu；第二个全连接层输出维度为n，激活函数为sigmoid函数，优化器采用Adam优化器，损失函数为均方误差函数。
[0031]上述方案中，步骤(2)中，语音样本使用滤波器放大高频，随后通过窗长度为25ms，步长为10ms的滑动窗口截取语音信号作为一帧，将得到的每帧信号进行短时傅里叶变换，取对数运算后得到语音信号的语谱图，然后计算语谱图特征的一阶差分，本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于数据增强及跨模态特征融合的情绪智能识别方法，其特征在于，包括如下步骤：(1)多模态数据采集；(2)将文本数据进行数据增强，并利用增强后的文本数据构造文本情感特征；将语音数据提取3D语谱图特征，并对3D语谱图特征进行增强，得到语音情感特征；(3)使用跨模态Transformer模型对文本情感特征和语音情感特征进行跨模态特征信息融合，得到融合后的多模态情感特征；(4)使用基于BiGRU与双池化层的分类模型对融合后的多模态情感特征进行特征学习，并使用交叉熵损失函数进行训练；(5)利用训练后的分类模型进行情绪识别，得到情绪识别结果。2.根据权利要求1所述的一种基于数据增强及跨模态特征融合的情绪智能识别方法，其特征在于，步骤(2)中，将文本数据通过<PAD>替换、同义词替换、回译法、伪标签预测四种方式完成数据增强，完成数据增强后将不同类别的样本数据添加进训练集，使训练集中各分类样本比例相同。3.根据权利要求2所述的一种基于数据增强及跨模态特征融合的情绪智能识别方法，其特征在于，所述<PAD>替换为：文本数据以0.3的概率，将输入句子中的词语替换成用于补齐BERT预训练模型句子的<PAD>符号，获得一条新样本数据；所述同义词替换为：文本数据首先进行分词，将所有分词在中文同义词表中进行匹配，若命中则进行同义词替换，获得一条新样本数据；所述回译法为：将文本数据在百度翻译中按照中文、英文、日文、中文的翻译顺序依次翻译，得到的数据为一条新的样本数据；所述伪标签预测为：将原始文本数据在BERT模型进行训练得到预训练模型，爬取网络中无标签的音频数据，分离成文本与语音后，将文本经过预训练模型预测得到该样本数据的伪标签，作为一条新的样本数据。4.根据权利要求1所述的一种基于数据增强及跨模态特征融合的情绪智能识别方法，其特征在于，步骤(2)中，构造文本情感特征的方法如下：首先，基于Word2Vec训练词向量矩阵，文本数据进行清洗以及分词，将词向量矩阵与样本分词的one
‑
hot向量相乘得到的300维的文本语义词向量；其次，根据连续情感词字典将文本中带有情绪倾向的文本情感词映射到情感空间，得到映射矩阵，然后通过自动编码器得到映射矩阵的瓶颈特征向量，即文本情感词向量；然后，融合文本语义词向量和文本情感词向量，得到构造好的文本情感特征。5.根据权利要求4所述的一种基于数据增强及跨模态特征融合的情绪智能识别方法，其特征在于，连续情感词字典中包含1653个被标注了valence值，arousal值的情感词，将连续情感词典中所有情感词转化为词向量形式，表示为E＝(e1,e2,...,e
n
)，其中，n＝1653，e
n
代表第n个情感词向量；每个情感词都对应一组VA值，表示为VA＝((ev1,ea1),(ev2,ea2),...,(ev
n
,ea
n
))，其中，ev
n
代表词典中第n个情感词的valence值，ea
n
代表词典中第n个情感词的arousal值；所述文本数据中带有情绪倾向的文本情感词映射是获取样本第i个分词s
i
的词向量g
i
后，计算该词向量与E中词向量e
j
的余弦相似度，其公式如下：
其中，j＝1,2,3,...,n，使用cosθ
ij
与e
j
对应的VA值相乘即可得到g
i
映射后的VA值，其公式表示为：ev
j
→
i
＝cos
ij
θ
·
ev
j
ea
j
→
i
＝cos
ij
θ
·
ea
j
该分词经过映射后，即可得到大小为n
×
2的映射矩阵，其表示如下：SVA
i
＝[[ev1→
i
,ea1→
i
],[ev2→
i
,ea2→
i
],...,[ev
n
→
i
,ea
n
→
i
]]所述自动编码器由两层全连接层Dense构成，第一个全连接层输出维度为212，激活函数为relu；第二个全连接层输出维度为n，激活函数为sigmoid函数，优化器采用Adam优化器，损失函数为均方误差函数。6.根据权利要求1所述的一种基于数据增强及跨模态特征融合的情绪智能识别方法，其特征在于，步骤(2)中，语音样本使用滤波器放大高频，随后通过窗长度为25ms，步长为10ms的滑动窗口截取语音信号作为一帧，将得到的每帧信号进行短时傅里叶变换，取对数运算后得到语音信号的语谱图，然后计算语谱图特征的一阶差分，二阶差分，将三者堆叠后得到3D语谱图特征，对3D语谱图特征掩盖频域通道、掩盖时域通道进行增强，然后使用卷积下采样模块将3D语谱图特征矩阵转换为2D特征矩阵。7.根据权利要求6所述的一种基于数据增强及跨模态特征融合的情绪智能识别方法，其特征在于，3D语谱图特征提取首先使用的滤波器为Pre
‑
Emphasis滤波器，滤波器公式如下：x(n)
′
＝x(n)
‑
λ*x(n
‑
1)其中，x(n)为语音信号第n个采样点的值，x(n)
′
为语音信号第n个采样点加重...

【专利技术属性】
技术研发人员：熊海良，刘凯，朱维红，李康，杨刚强，许宏吉，曹叶文，许玉丹，赵佳琛，
申请(专利权)人：山东大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人