面向智能驾驶的驾驶人声音情感识别方法技术

技术编号:35348601 阅读:30 留言:0更新日期:2022-10-26 12:14
本发明专利技术公开了面向智能驾驶的驾驶人声音情感识别方法,包括:采集不同用户在驾驶场景下包含不同情绪的声音数据,构建驾驶人三维声音特征数据集;然后构建基于三维声音特征的聚类多模型训练方法,通过基于三维声音特征的聚类方法得到不同人员类别的样本用户,进而利用不同人员类别的样本用户数据训练高斯混合模型,形成面向不同人员类别的声音情感识别模型;之后使用者在初始化时输入正常情绪状态下的声音进行初始化归类,得到通用的基准模型和基准参数;最后在运行识别阶段输入实时采集的使用者的声音,声音样本经过基准模型后将其再输入其他模型中进行多模态信息融合并做判断,最终输出识别结果。本发明专利技术提高了智能驾驶场景下的情感识别的准确性。下的情感识别的准确性。下的情感识别的准确性。

【技术实现步骤摘要】
面向智能驾驶的驾驶人声音情感识别方法


[0001]本专利技术属于人工智能领域。

技术介绍

[0002]随着智能汽车的快速发展,动态驾驶场景下驾驶员情绪的检测得益于智能座舱、人机交互系统。因此,驾驶员情绪监测成为一个热门的研究课题。一般的情绪识别方法根据检测到的信号分为两大类:基于脑电图、呼吸、心率等生理信号的识别;识别依赖于非生理信号,包括声音信号和面部表情。驾驶员情绪是驾驶员生理和心理状态的外在表现,影响着驾驶员的驾驶决策和行为。研究表明,愤怒、疲劳、焦急等负面情绪会降低驾驶员的风险感知,容易导致攻击性驾驶行为,显著增加撞车风险。由此可见,驾驶员情绪在交通安全中占有至关重要的地位,准确识别驾驶员情绪对提高智能汽车驾驶安全性和舒适性至关重要。目前主要的声音识别网络使用的模型较为单一,而由于不同类别的人的声音特征具有很大的差异,而单一模型去识别不同类别人员的不同情绪会出现声音特征不能充分利用,众多信息相互干扰,导致情感识别的精准度不尽人意。综上所述,提高语音情感识别的精度成为智能驾驶场景内急需解决的问题。

技术实现思路

[0003本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.面向智能驾驶的驾驶人声音情感识别方法,其特征在于,具体包括如下步骤:步骤1:再驾驶场景中采集不同用户在Q种不同情绪状态下的声音数据,并构建每个用户的三维声音特征数据集;步骤2:采用聚类方法在构建的三维声音特征数据集中找到K个聚类中心{o(1),o(2),...,o(k),...,o(K)},o(k)表示第k个聚类中心,k=1,2,

,K;采用K个聚类中心训练高斯混合模型,得到与K个聚类中心对应的K个高斯混合模型{G1,G2,...,G
k
,....,G
K
},G
k
表示第k个高斯混合模型;步骤3:使用者在初始化时输入正常情绪状态下的声音,根据该声音与每个聚类中心的距离,得到初始化时使用者输入正常情绪状态下的声音对应的最优聚类中心k
*
;将k
*
对应的高斯混合模型作为基准模型计算的性能指标步骤4:驾驶过程中实时采集使用者的声音,将当前采集到的声音输入至中,得到Q种情绪状态的概率其中q表示第q种情绪状态,q=1,2,

,Q,表示输出的第q种情绪状态的概率;记最大概率对应的情绪状态为class
q*
;步骤5:计算第q种情绪状态下当前采集到的声音与所有聚类中心的最短距离;将最短距离对应的聚类中心记为距离对应的聚类中心记为对应的高斯混合模型记为得到每种情绪状态对应的聚类中心集合以及每个聚类中心对应的高斯混合模型集合将当前采集到的声音输入至中,得到输出的Q种情绪状态的概率最大概率记为最大概率对应的情绪状态记为并计算的性能指标步骤6:根据性能指标和性能指标判断当前使用者的情绪状态。2.根据权利要求1所述的面向智能驾驶的驾驶人声音情感识别方法,其特征在于,所述步骤1具体为:对每个用户在第q种情绪状态下的声音数据进行分帧和加窗处理;并根据如下公式计算每一帧所包含的能量:E
n
=x(n)2*ω(n)2其中E
n
为第n帧的能量,x(n)为帧信号,ω(n)为汉明窗;按照如下公式对每个用户在第q种情绪状态下的所有帧信号进行分类:其中,t表示帧类别,t=1,2,3,4;E
t
表示第t个帧类别对应的帧能量的范围;计算每个用户在第q种情绪状态下第t个帧类别的时间比例l
t

其中,Time
t
表示用户在第q种情绪状态下第t个帧类别总时长;计算每个用户在第q种情绪状态下的短时平均频率a1、短时均方差频率a2和共振峰频率a3,得到用户在第q种情绪状态的融合韵律特征m:m=w1·
a1+w2·
a2+w3·
a3其中,w1、w2和w3均表示相对重要性;将Q种情绪状态,用户在Q种情绪状态下第t个帧类别的时间比例l
t
,以及用户在第q种情绪状态下的融合韵律特征m组成用户的三维声音特征数据集。3.根据权利要求2所述的面向智能驾驶的驾驶人声音情感识别方法,其特征在于,所述步骤2中找到K个聚类中心的方法具体为:首先将所有的三维声音特征数据集作为样本;在所有的样本中随机选择K个样本作为聚类中心,然后根据如下公式计算第i个样本到第k个聚类中心的距离d(i,k):其中,l
iqt
为第i个样本对应的用户在第q种情绪状态下的第t个帧类别时间比例,l
kqt
为第k个聚类中心对应的用户在第q种情绪状态下的第t个帧类别时间比例;m
iq
为第i个样本对应的用户在第q种情绪状态下的融合韵律特征,m
kq
为第k个聚类中心对应的用户在第q种情绪状态下的融合韵律特征,l
iqs
为第i个样本对应的用户在第q种情绪状态下声音数据的短时平均能量;评估每个样本到聚类中心的距离,并将样本分配到与该样本距离最近的聚类中心所属的簇中,然后更新各个簇的聚类中心,得到新的聚类中心,并计算每个样本与新的聚类中心的距离,直至迭代次数大于预设的次数...

【专利技术属性】
技术研发人员:张晖孙恩东赵海涛朱洪波
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1