基于表情制造技术

技术编号:39725822 阅读:8 留言:0更新日期:2023-12-17 23:30
本申请涉及数据处理技术领域,公开了一种基于表情

【技术实现步骤摘要】
基于表情、脑电及语音多模态融合的矿工情绪识别方法


[0001]本申请涉及数据处理
,具体涉及一种基于表情

脑电及语音多模态融合的矿工情绪识别方法


技术介绍

[0002]近年约七成的矿下事故是由于矿工的情绪状态不佳造成的

矿工的情绪状态较为低落

情绪不稳定等状态会导致重大的操作失误,造成煤矿事故

对煤矿工人的情绪状态进行及时判断,及时的预防事故的发生,这是有一定的现实意义的

[0003]最近几年,脑科学的各项研究论述及实践发展迅猛,从其科学性来说脑电信号是可以客观地折射出大脑活动的范围和模式,以此更多研究者将注意力放在了通过脑电信号来进行情绪识别研究

语音情绪识别是对情绪反映特征的精准掌握以及不同情绪类型的分类提取研究,此项技术的主要目的是要提高识别精度,有关的专业研究者在不断探索创新,渐渐取得了推动性的成果

人脸情绪识别是对其判断研究的一个关键生理度量,通过对情绪状态的研究,不仅能够避免日常生活工作的风险,还能够提升工人和产业链的生产效率,此项工作渐渐也成了近几年重点学者的研究重点

[0004]然而,现有技术存在以下问题:
[0005]一

人脸图像特征信息的差异化,导致了人脸信息提取时的各类问题:例如卷积操作时卷积核的大小难以选择;卷积神经网络的网络结构越深越容易导致过拟合;简单的堆叠卷积层消耗大量的计算资源等r/>。
[0006]二

如何获取高质量脑电时频特征并运用到脑电情绪识别领域?获取高质量的脑电时频特征是一项复杂而具有挑战性的任务,需要结合合适的信号处理和分析方法,同时考虑到信号的复杂性

噪声干扰和个体差异等因素,才能获得准确

稳定和可靠的时频特征,才能为脑电情绪识别的信息

[0007]三

如何获取更深层次的语音样本信息和语音情绪识别模型的轻量化?深层次语音样本特征信息难获取主要是由于数据量不足

高维数据

语音信号的复杂性

不确定性

数据预处理

标签标注难度以及模型设计和优化等多个因素共同作用的结果,这会使得语音样本的使用不充分并且会影响模型预测精准度

而模型的轻量化则会减少运算成本减少时间消耗

[0008]四

单模态信息局限性和单模态算法准确度不够高的问题

单模态信息的局限性主要包括信息不全面

特征有限

数据不平衡等方面

由于单一模态的数据无法涵盖任务所需的全部信息,模型可能无法准确理解任务或处理复杂情况

此外,单模态信息容易受到环境噪声和干扰的影响,导致模型的鲁棒性降低,任务的准确性也会受到影响

在某些任务中,单一模态的数据可能存在数据不平衡问题,使得模型在处理少数类别或样本时性能较差

[0009]针对上述问题,尚宇成等
(
电子世界
,2021)
,使用了
EM

Xception
神经网络结构实现了人脸的情绪识别,
Xception

Inception

ResNet
都是由
Inception v3
网络结构改进而
来,
EM

Xception
通过减少
Xception
中的残差模块数量,并将激活函数
RELU
替换成
ELU
改进而成

该研究从结果看来,确实能够在识别情绪时达到一定精度,但是对于人脸多尺度特征的获取还有待进一步优化,同时识别精度还需进一步提升
。Linlin Gong

(2023)
,使用了
CNN

Transformer
网络结构实现了情绪识别,该网络能够有效的整合脑电信号的关键空间

光谱和时间信息并能够以高精度完成情绪识别

但是,该研究并不能对任务不相关的脑电通道进行抑制,而获得更高质量的脑电时频特征,从而提高识别精度
。Z.Li

(2019)
,使用了带有
SVM
的残差网络结构进行了语音情绪分析,该模型能够获得更高的精度

但是该研究没有提取到更从深层次的语音特征并且算法模型不够轻量级

黄颖等
(
计算机应用
,2022)
,多模态的融合识别方法使用的是可变权值的决策融合算法,对三个通道在全连接层后通过
SoftMax
获得后验概率,分别赋予
W
f
、W
s
、W
g
的权重
W
f
+W
s
+W
g
=1,通过融合的加权概率,再进行判别分类

这里
W
f
、W
s
、W
g
,不再取固定值,而是采取可变权重的策略,在满足
W
f
+W
s
+W
g
=1的条件下自动寻找最佳权重,实现了三种通道的融合并且实现了情绪识别

但是该研究使用的骨架模态对于情绪的识别准确度较低,从而会影响融合后算法精度


技术实现思路

[0010]针对现有技术存在的上述不足,本申请的目的在于提供一种基于表情

脑电及语音多模态融合的矿工情绪识别方法

[0011]为实现以上目的,本申请采用如下技术方案:
[0012]一种基于表情

脑电及语音多模态融合的矿工情绪识别方法,包括:
[0013]改进主干特征提取网络下多尺度人脸情绪识别网络模型:所述改进主干特征提取网络多尺度情绪识别模型包括一个改进主干特征提取网络

四个卷积层

两个最大池化层和两个多尺度特征提取层,图像输入后,依次经过改进主干特征提取网络

多尺度特征提取层

卷积层

最大池化层

多尺度特征提取层

卷积层

最大池化层

卷积层,最后通过一个全局平均池化层来输出特征并用
SoftMax
函数作为分类器得出人脸情绪信息;
[0本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种基于表情

脑电及语音多模态融合的矿工情绪识别方法,其特征在于,包括:改进主干特征提取网络多尺度情绪识别模型:包括一个改进主干特征提取网络

四个卷积层

两个最大池化层和两个多尺度特征提取层,图像输入后,依次经过改进主干特征提取网络

多尺度特征提取层

卷积层

最大池化层

多尺度特征提取层

卷积层

最大池化层

卷积层,最后通过一个全局平均池化层来输出特征并用
SoftMax
函数作为分类器得出人脸情绪信息;基于
Transformer
的特征增强和注意力机制的脑电增强情绪识别网络:包括自动类时频特征提取模块
、Transformer
特征增强模块

深度特征变换卷积模块和和注意力层的特征融合和分类模块;在自动类时频特征提取模块中,每一个脑电通道都独立分配一个缩放卷积层来提取该通道的类时频特征,在脑电通道维度上将所有通道的类时频特征图进行堆叠得到类时频特征张量;然后通过
Transformer
特征增强模块进行特征强化;然后,与类时频特征进行加权相乘得到脑电特征增强重标定特征;再经过深度特征变换卷积模块提取脑电信号的深层信息;最后由注意力层进行特征融合层,最后连接一个全连接层和
Softmax
激活函数进行脑电情绪的分类,得到脑电情绪信息;基于轻量级深度可分离卷积残差神经网络的语音情绪识别模型:包括并行卷积结构

残差结构以及串行卷积结构;所述并行卷积结构,包含三个并行的
DSC
卷积层,它们的输出将合并在一起送至模型的残差结构;所述残差结构,主干边包含有两个
DSC
卷积层;所述串行卷积结构包括四个连续的
DSC
卷积层;最后使用离散情绪模型将网络设置为一个语音情绪分类任务模型,通过
Softmax
层输出得到语音情绪信息;多模态信息融合方法:采用多模态信息权值自适应的决策层信息融合算法,实现脑电情绪信息

语音情绪信息和人脸情绪信息的多模态信息的融合互补
。2.
根据权利要求1所述的基于表情

脑电及语音多模态融合的矿工情绪识别方法,其特征在于,所述基于轻量级深度可分离卷积残差神经网络的语音情绪识别模型中,除了串行卷积结构部分,所有的
DSC
卷积层后面都接有批归一化层

线性整流函数
ReLU
激活层以及池化层;对于具体池化方法的选择,除模型的串行卷积结构结束时采用了全局平均池化外,所有的池化方法都采用平均池化
。3.
根据权利要求1所述的基于表情

脑电及语音多模态融合的矿工情绪识别方法,其特征在于,所述多尺度特征提取层,其结构分为两个部分,一个是自底层到顶层进行自下向上特征提取,一个是自顶层到底层的自上向下特征提取;先进行传统的卷积

池化的自下向上的特征卷积;输入经过改进主干特征提取网络的图像特征;在达到了顶层特征时,进入第二通道的自上向下部分,利用反卷积操作将特征图的尺寸进行扩大,然后融合相邻的特征图;每个层级特征层间使用
1*1
卷积连接,利用插值法进行上采样操作实现多尺度特征提取网络提取高层特征的语义信息和底层的位置信息;同时,使用侧向连接将高底层特征完全融合;最后将融合的特征通过合并层送入网络模型的下一阶段
。4.
根据权利要求1所述的基于表情

脑电及语音多模态融合的矿工情绪识别方法,其特征在于,在所述的改进主干特征提取网络多尺度情绪识别模型算法中引入交叉熵损失函数,表达式如下:
式中,
S
j

SoftMax
输出向量
S

j
值,它表示数据是
j
类发生的概率,范围
[1,T]

y
j
是真实标签,表示样本属于各类别的概率,
a
j
是输入向量
a
中的
j
个元素,
a
k
是输入向量
a
中第
k
个向量;用交叉熵损失函数结合三元组损失函数作为矿工人脸情绪识别的总函数,得到如下公式:
L

L
loss
+L
c
其中,三元组损失函数
L
loss
适用于扩展欧式空间内不同类别的矿工人脸特征向量间的远近和减小欧氏空间内相同类别的人脸特征向量间远近
。5.
根据权利要求1所述的基于表情

脑电及语音多模态融合的矿工情绪识别方法,其特征在于,所述自动类时频特征提取模块由
32
层独立的缩放卷积层组成
。6.
根据权利要求1所述的基于表情

脑电及语音多模态融合的矿工情绪识别方法,其特征在于,所述
Transformer
特征增强模块由四组
Transformer
模型中的多头注意力

前馈神经网络以及额外添加的一个平均池化层和一个全连接层组成
。7.
根据权利要求1所述的基于表情

脑电及语音多模态融合的矿工情绪识别方法,其特征在于,所述深度特征变换卷积模块由三层二维卷积神经网络层组成
。8.

【专利技术属性】
技术研发人员:汪梅田志鹏李杰赵浩洋杨娜卢兆祥
申请(专利权)人:西安科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1