基于梅尔谱图分解和神经网络融合进行疲劳度检测的方法技术

技术编号:36156654 阅读:20 留言:0更新日期:2022-12-31 20:03
本发明专利技术公开了一种基于梅尔谱图分解和神经网络融合进行疲劳度检测的方法,其包括以下步骤:1)从语音疲劳数据库中获取已分类的语音数据,进行预处理得到梅尔谱图;2)通过图像处理方法对数据进行增广;3)将每张梅尔谱图以频率维度进行分解得到低频、中频、高频三个频梅尔谱图;4)构建并训练三个疲劳度检测神经网络子模型;5)将三个疲劳度检测神经网络子模型中最后一个卷积层输出的特征图组,以频率为维度重新拼接为全频段特征图,构建并训练疲劳度检测神经网络融合模型;6)获取新的语音数据,输出相应疲劳度分类。本发明专利技术扩充梅尔谱图数据并对神经网络进行改进,可应对不同时长语音数据,有效对语音疲劳状态进行检测。有效对语音疲劳状态进行检测。有效对语音疲劳状态进行检测。

【技术实现步骤摘要】
基于梅尔谱图分解和神经网络融合进行疲劳度检测的方法


[0001]本专利技术涉及语音信号处理技术和疲劳检测
,具体是基于梅尔谱图分解和神经网络融合进行疲劳度检测的方法。

技术介绍

[0002]语音作为人类交流最重要的载体之一,不仅承载着语义内容而且还包含丰富的疲劳信息。语音疲劳检测综合人体工学、信号处理、计算机技术等多学科,在人机交互的发展中起着极其重要的作用。语音疲劳检测技术有助于防范疲劳带来的风险,为智能汽车、智能轨道交通等领域的安全性保障提供技术支撑。
[0003]根据语音识别与疲劳检测的相关研究进展,适用于疲劳检测任务的语音特征可被分为以下几类:韵律特征、声音质量特征和谱相关特征,其中,韵律特征包括过零率、对数能量、基频等,声音质量特征包括共振峰频率及其带宽、声门参数等,谱相关特征包括线性谱特征、倒谱特征、线性预测系数等。传统的语音疲劳检测方法往往方法使用人工选取的低层特征以语音帧为单位进行提取,输入用于分类和识别的浅层机器学习模型。然而目前业界对这些特征集是否能有效地描述语音的疲劳信息还存在一定的争议,并且韵律特征、音质特征和谱特征要么属于语音的时域特征,要么属于频域特征,缺少语音信号随时间变化的特性,即融合时频两域相关性的特征。
[0004]深度神经网络凭借其强大的建模能力,可有效地捕获隐藏于数据内部的特征,对数据自动地逐级提取特征,从而减少了手工设计特征造成的不完备性。梅尔谱图是一种特殊的语谱图,它既像普通语谱图那样具有空间邻域相关性与时序性,且对语音疲劳信息较为敏感的低频区域占比较大。
[0005]因此本专利技术使用语音的梅尔语谱图,进行数据增广后,使用深度神经网络提取特征并输入至空间金字塔池化层中,展开为具有固定步长的一维特征,然后输入到分类器中输出疲劳状态,完成语音疲劳检测任务。这种方法可以提取出更为完整有效的特征,进一步提高了语音疲劳检测的效果。

技术实现思路

[0006]本专利技术的目的是针对现有技术的不足,提供基于梅尔谱图分解和神经网络融合进行疲劳度检测的方法。这种方法可以提取语音时频两域的疲劳特征,提高识别准确率,还具有更强的鲁棒性与适用性,网络训练速度也更快。
[0007]实现本专利技术目的的技术方案是一种基于梅尔谱图分解和神经网络融合进行疲劳度检测的方法,其包括如下步骤:
[0008]S1:获取语音疲劳数据,进行预处理并获得梅尔谱图;
[0009]S11:从数据库中获取已经进行疲劳度分类的语音疲劳数据,疲劳度分类包括3种状态:清醒状态、中度疲劳状态、重度疲劳状态;
[0010]S12:对每条语音疲劳数据进行预加重;
[0011]S13:对预加重语音疲劳数据进行分帧;
[0012]S14:对分帧语音疲劳数据采用汉明窗进行加窗处理;
[0013]S15:得到语音疲劳数据的梅尔谱图;
[0014]S2:通过图像处理方法将数据进行增广;
[0015]对步骤S1中的每张梅尔谱图进行数据增强操作来扩充梅尔谱图的数据集,对每张梅尔谱图都进行以下四种操作进行数据增强:时间平移、频率遮蔽、时间遮蔽和时频遮蔽,使得每张梅尔谱图都被扩充为5张梅尔谱图;
[0016]S3:将每张梅尔谱图以频率维度进行分解,得到梅尔谱图的低频梅尔谱图、中频梅尔谱图、高频梅尔谱图;
[0017]S4:将步骤S3中得到的低频梅尔谱图、中频梅尔谱图、高频梅尔谱图作为输入,分别构建并训练三个疲劳度检测神经网络子模型,三个疲劳度检测神经网络子模型结构相同;
[0018]S41:构建疲劳度检测神经网络子模型,具体结构如下:
[0019](1)疲劳度检测神经网络子模型具体连接结构为:由C1、C2、P1、C3、C4、P2、C5、C6、C7、P3、C8、C9、C10、P4、C11、C12、C13、SPP1、FC1、FC2、SF1依次堆叠构成,其中数字表示模块序号,字母表示模块类型,具体为:C表示轻量卷积块,P表示池化层,SPP表示空间金字塔池化层,FC表示全连接层,SF表示Softmax层;
[0020](2)轻量卷积块中包含有常规卷积和轻量卷积;
[0021]对有P个卷积核的轻量卷积,只随机使用P/2个卷积核进行常规卷积计算,得到P/2个本征特征图,P为正偶数,再使用轻量卷积对逐个本征特征图进行卷积,获得P/2个轻量化特征图,然后将本征特征图与轻量化特征图组合到一起作为轻量卷积块的输出;
[0022](3)使用空间金字塔池化层进行维度转换,将特征维度统一;
[0023]S42:训练基于卷积神经网络的疲劳度检测神经网络子模型,得到训练完成的三个疲劳度检测神经网络子模型,根据输入分别为低频梅尔谱图、中频梅尔谱图、高频梅尔谱图,将三个疲劳度检测神经网络子模型相应称为低频疲劳度检测神经网络子模型、中频疲劳度检测神经网络子模型、高频疲劳度检测神经网络子模型;
[0024]S5:将三个疲劳度检测神经网络子模型中最后一个卷积层输出的特征图组,以频率为维度重新拼接为全频段特征图,并以该全频域特征图组作为输入,构建并训练疲劳度检测神经网络融合模型。
[0025]S51:构建疲劳度检测神经网络融合模型;
[0026]疲劳度检测神经网络融合模型具体连接结构:由C14、SPP2、FC3、FC4、SF2依次堆叠构成,其中数字表示模块序号,字母表示模块类型,具体为:C表示轻量卷积块,SPP表示空间金字塔池化层,FC表示全连接层,SF表示Softmax层;卷积层配置、激活函数设置与疲劳度检测神经网络子模型一致。
[0027]S52:训练疲劳度检测神经网络融合模型,得到训练完成的疲劳度检测神经网络融合模型;
[0028]S6:获取语音数据,使用步骤S12

S15中的步骤对语音数据进行预处理并获得梅尔谱图;使用步骤S3对梅尔谱图进行频域分解;将数据输入到步骤S4中训练好的子模型中;提取三个子模型最后一个卷积层输出的特征图,拼接为全频段特征图,输入到步骤S5中训练
好的疲劳度检测神经网络融合模型中;输出语音数据的疲劳度分类。
[0029]优选的,所述步骤S15得到语音疲劳数据的梅尔谱图具体步骤为:
[0030]对每一帧加窗分帧语音疲劳数据分别进行快速傅里叶变换,把每一帧快速傅里叶变换后的频域信号转换为频谱图,将加窗分帧语音疲劳数据的频谱图在时间上堆叠起来(即将每帧的频谱图在时间维度上进行拼接),就可以得到加窗分帧语音疲劳数据的功率谱。
[0031]创建梅尔滤波器,梅尔滤波器函数H
m
(k)可表示为:
[0032][0033]其中,m代表滤波器的序号,f(m

1)和f(m)、f(m+1)分别对应第m个滤波器的起始频率点、中间频率点和结束频率点,k为快速傅里叶变换(FTT)后的点数;
[0034]优选的,所述步骤S2中时间平移、频率遮蔽、时间遮蔽和时频遮蔽的具体实现步骤如下:
[0035]①
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.本发明提供一种基于梅尔谱图分解和神经网络融合进行疲劳度检测的方法,其特征在于:其包括如下步骤:S1:获取语音疲劳数据,进行预处理并获得梅尔谱图;S11:从数据库中获取已经进行疲劳度分类的语音疲劳数据,疲劳度分类包括3种状态:清醒状态、中度疲劳状态、重度疲劳状态;S12:对每条语音疲劳数据进行预加重;S13:对预加重语音疲劳数据进行分帧;S14:对分帧语音疲劳数据采用汉明窗进行加窗处理;S15:得到语音疲劳数据的梅尔谱图;S2:通过图像处理方法将数据进行增广;对步骤S1中的每张梅尔谱图进行数据增强操作来扩充梅尔谱图的数据集,对每张梅尔谱图都进行以下四种操作进行数据增强:时间平移、频率遮蔽、时间遮蔽和时频遮蔽,使得每张梅尔谱图都被扩充为5张梅尔谱图;S3:将每张梅尔谱图以频率维度进行分解,得到梅尔谱图的低频梅尔谱图、中频梅尔谱图、高频梅尔谱图;S4:将步骤S3中得到的低频梅尔谱图、中频梅尔谱图、高频梅尔谱图作为输入,分别构建并训练三个疲劳度检测神经网络子模型,三个疲劳度检测神经网络子模型结构相同;S41:构建疲劳度检测神经网络子模型,具体结构如下:(1)疲劳度检测神经网络子模型具体连接结构为:由C1、C2、P1、C3、C4、P2、C5、C6、C7、P3、C8、C9、C10、P4、C11、C12、C13、SPP1、FC1、FC2、SF1依次堆叠构成,其中数字表示模块序号,字母表示模块类型,具体为:C表示轻量卷积块,P表示池化层,SPP表示空间金字塔池化层,FC表示全连接层,SF表示Softmax层;(2)轻量卷积块中包含有常规卷积和轻量卷积;对有P个卷积核的轻量卷积,只随机使用P/2个卷积核进行常规卷积计算,得到P/2个本征特征图,P为正偶数,再使用轻量卷积对逐个本征特征图进行卷积,获得P/2个轻量化特征图,然后将本征特征图与轻量化特征图组合到一起作为轻量卷积块的输出;(3)使用空间金字塔池化层进行维度转换,将特征维度统一;S42:训练基于卷积神经网络的疲劳度检测神经网络子模型,得到训练完成的三个疲劳度检测神经网络子模型,根据输入分别为低频梅尔谱图、中频梅尔谱图、高频梅尔谱图,将三个疲劳度检测神经网络子模型相应称为低频疲劳度检测神经网络子模型、中频疲劳度检测神经网络子模型、高频疲劳度检测神经网络子模型;S5:将三个疲劳度检测神经网络子模型中最后一个卷积层输出的特征图组,以频率为维度重新拼接为全频段特征图,并以该全频域特征图组作为输入,构建并训练疲劳度检测神经网络融合模型;S51:构建疲劳度检测神经网络融合模型;疲劳度检测神经网络融合模型具体连接结构:由C14、SPP2、FC3、FC4、SF2依次堆叠构成,其中数字表示模块序号,字母表示模块类型,具体为:C表示轻量卷积块,SPP表示空间金字塔池化层,FC表示全连接层,SF表示Softmax层;卷积层配置、激活函数设置与疲劳度检测神经网络子模型一致;
S52:训练疲劳度检测神经网络融合模型,得到训练完成的疲劳度检测神经网络融合模型;S6:获取语音数据,使用步骤S12

S15中的步骤对语音数据进行预处理并获得梅尔谱图;...

【专利技术属性】
技术研发人员:贾万琛苗冲冲丁霖王满玉郭司南吴旭安凯孙国强张睿明张明昭何志凯
申请(专利权)人:中国航空综合技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1