【技术实现步骤摘要】
一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质
[0001]本专利技术涉及一种基于Transformer进行多模态特征融合的在押人员情感识别方法、设备及存储介质,属于情感计算的
技术介绍
[0002]从上世纪开始,随着越来越多的人工智能机器人产品的出现,机器与人之间实现了有意义的互动,让机器能够响应用户的需求。然而,大多数产品只回答特定的问题,并没有适当地响应用户的需求。自动情感识别技术可以帮助计算机系统响应用户的需求,使机器真正“温暖”,增强用户体验。情感识别在监狱等特殊场所起到十分重要的作用,对在押人员这类特殊人群进行情感识别,可以有效的监控他们的情感状态,对于保障监狱环境安全,提升改造质量具有重要意义。尽管情感识别研究已经有几十年的历史,但一直难以实现实际应用。主要原因是研究中使用的模型不够先进,不能充分利用数据中的情感特征。
[0003]由于在押人员的身份特殊性,使其具有很强的防范心理,进而会隐藏自己情感的表达,基于单模数据的情感识别可能产生较大的误差,难以准确判断 ...
【技术保护点】
【技术特征摘要】
1.一种基于Transformer进行多模态特征融合的在押人员情感识别方法,其特征在于,包括步骤如下:(1)特征提取:对文本、语音、微表情和肢体动作四个模态的数据包括文本数据、语音数据、微表情数据、肢体动作数据分别进行预处理:对四个模态的数据所包含的情感信息分别进行提取,获取对应的特征向量,使其符合不同模态对应的基于Transformer架构的多模态融合模型的输入要求;文本数据是指在押人员与家属/亲友进行远程视频会见过程中对话的文字;语音数据是指在押人员与家属/亲友进行远程视频会见过程中对话的音频;微表情数据是指在押人员与家属/亲友进行远程视频会见过程中在押人员的面部微表情数据,面部微表情数据是指包含面部表情的视频;肢体动作数据是指监狱在押人员与家属/亲友进行远程视频会见过程中在押人员的肢体动作数据是指包含肢体躯干的视频信息;(2)特征融合:采用基于Transformer架构的多模态融合模型将步骤(1)提取到的文本、语音、微表情和肢体动作四个模态的特征向量进行特征融合;(3)训练基于Transformer架构的多模态融合模型:将步骤(1)预处理后的文本、语音、微表情和肢体动作四个模态的数据随机分成n组,每次取n
‑
1组的数据作为训练集,依次执行步骤(1)至步骤(3),训练基于Transformer架构的多模态融合模型,剩下1组数据作为验证集,验证基于Transformer架构的多模态融合模型的效果,如此循环,做多次交叉验证,得到最优的基于Transformer架构的多模态融合模型作为情感识别模型;(4)获取待情感识别的在押人员的文本数据、语音数据、微表情数据、肢体动作数据,依次通过步骤(1)、步骤(2)处理后,输入至步骤(3)训练好的情感识别模型进行情感识别。2.根据权利要求1所述的一种基于Transformer进行多模态特征融合的在押人员情感识别方法,其特征在于,所述步骤(1)中,对于文本数据,预处理过程包括:将文本数据进行分词,根据分词的结果和与GloVe预训练词向量字典中查询对应关系,在数据转换过程中,对每一条文本进行分词,根据GloVe预训练词向量字典中词对应的关系,将文本转化为一串序号组成的数学序列,即为可输入基于Transformer进行多模态特征融合的整体模型中的数学数据即文本模态的特征向量;对于语音数据,预处理过程包括:首先,从原始的视频数据中经过分离转录获取WAV格式的语音数据;然后,读取格式信息、波形数据和声音数据,同时,通过COVAREP工具包,对每一条语音数据取基础语音特征,包括帧能、基频、短时抖动参数发音持续时间、振幅以及非常重要的语音情感特征参数,非常重要的语音情感特征参数是指梅尔频率倒谱系数,将提取的特征数据进行reshape、转置操作,得到语音模态的特征向量,其数据结构满足基于Transformer进行多模态特征融合的整体模型输入的原始音频特征数据的要求;对于微表情数据,利用Facet和dlib工具提取面部表情特征,包括面部动作单元信息和面部姿态信息和面部关键点信息,面部动作单元信息包括嘴角提拉、眨眼、皱眉、鼻子皱纹、面颊提升动作;面部姿态信息包括头部左右旋转、抬头低头,面部关键点信息是指面部五官关键点坐标,即微表情模态的特征向量;对于肢体动作数据,预处理过程包括:a、采用Openpose工具进行骨骼关键点提取,得到上半身姿态的18个骨骼关键点坐标
(x
i
,y
i
),并计算偏移量X
offset
和Y
offset
,X
offset
=x
i
‑
x
neck
,Y
offset
=y
i
‑
y
neck
,其中(x
neck
,y
neck
)为中心骨骼点的坐标;b、对上半身姿态的18个骨骼关键点坐标进行二次处理,计算三个参数,包括人体运动速度骨骼点偏移角速度和骨骼点运动速度计算公式分别如式(I)、式(II)、式(III)所示:(II)、式(III)所示:(II)、式(III)所示:式(I)、式(II)、式(III)中,i表示骨骼关键点坐标序号,Δt表示第i帧与第i
‑
1帧之间的时间差,为第i帧中心骨骼点横坐标、为第i
‑
1帧中心骨骼点横坐标;为第t
i
时刻纵坐标的偏移量,为第t
i
‑1时刻纵坐标的偏移量,为第t
i
时刻横坐标的偏移量,为第t
i
‑1时刻横坐标的偏移量;经过上述步骤处理的特征数据包括人体运动速度骨骼点偏移角速度和骨骼点运动速度组成最终输入基于T...
【专利技术属性】
技术研发人员:李玉军,韩卓群,朱孔凡,杨阳,翟超,
申请(专利权)人:山东大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。