当前位置: 首页 > 专利查询>西北大学专利>正文

一种基于SVM-KNN的语音情感识别方法技术

技术编号:31705705 阅读:15 留言:0更新日期:2022-01-01 11:07
一种基于SVM

【技术实现步骤摘要】
一种基于SVM

KNN的语音情感识别方法


[0001]本专利技术涉及语音情感识别,具体涉及一种基于SVM

KNN的语音情感识别方法。

技术介绍

[0002]语音情感识别是当前信号处理、模式识别、人工智能等领域的热点研究课题,其研究的最终目的是赋予计算机情感识别能力,构建和谐自然的人机交互环境.目前语音情感识别的方法中,支持向量机(SVM,support vector machine)被证明是一个比较有效的分类工具,但在情感混淆程度较大的情况下,使用SVM依然难以进行精确识别。
[0003]长期以来,生理和心理学领域的专家们一直在对情绪进行研究。随着人工智能的快速发展,人机交互中的情感研究引起了广大专家的极大兴趣。在人机交互中,人们希望人与机器能够更自然地交流,这就要求机器能够理解人类的情绪,因此对情绪进行分类和识别就显得尤为重要。在人类的交流中,语言包含着丰富的信息,因此机器可以利用语言来分类和识别情感。专家们在语音情感分类与识别方面做了大量的研究和分析,包括建立语音情感数据库、提取情感特征、分类识别方法等。为了提高语音情感的识别率,前人对每个环节都进行了改进研究,但并没有一个统一的系统,识别率也不是很高。以往使用MFCC作为识别特征,但在识别前没有对其进行进一步处理,导致大量冗余信息影响识别效果。为了消除这种影响,提高识别率,选择合适的分类器成为研究的重点。为了提高情感识别率,正确处理情感特征,选择合适的分类方法就显得尤为重要。

技术实现思路

[0004]为了克服上述现有技术的不足,本专利技术的目的是提供一种基于SVM

KNN的语音情感识别方法,通过麦克风阵列延时对齐的方法进行语音增强处理,采用基于SHL结构的BN

DNN进行特征提取,并采用基于模糊集理论的方法进行特征选择,随后采用优化的SVM

KNN方法进行情感识别。最终形成一种精度高、低计算负荷的语音情感识别方法。
[0005]为了实现上述目的,本专利技术采用的技术方案是:
[0006]一种基于SVM

KNN的语音情感识别方法,不同的语音信号预处理方式、特定特征提取、模糊特征选择、SVM

KNN支持向量机分类,包括以下步骤:
[0007](1)对输入的语音信号预处理;所述预处理包括预加重滤波和加窗分帧,其中预加重滤波的预加重系数α为0.95,加窗分帧的帧长为26ms;
[0008](2)用麦克风阵列解决方案对不同的麦克风通道的数据进行延迟和对齐,以实现声源的定位,提高音频质量:
[0009]1)由9个麦克风组成的嵌套麦克风阵列结构,实际上是4组线性麦克风阵列,分别由5个等距(2.5am.5am、10am、20am)的麦克风组成,从而确保所录取的语音信号的频域范围在3003400Hz.
[0010]2)同时兼顾麦克风间距与人到麦克风阵列的距离之间的比例关系符合声场为远场的假设条件房间的冲激响应使用mage模型
[0011](3)采用基于SHL结构的BN

DNN进行特征提取,特征提取过程如下:
[0012]1)实验中BN

DNN模型设置5个隐含层,将第3个隐含层设置为瓶颈层,其余各隐含层的神经元个数均为1024;输入数据为连续11帧的40维MFCC瓶颈特征,
[0013]2)输入层的神经元均设为440(40x11)。将DNN网络结构设置为:440

[1024

1024
ꢀ‑
1024

1024

1024]‑
440。
[0014]3)确定最优参数每组神经元个数О和稀疏组重叠系数α。实验设置О为64、128、256,重叠系数α为0%、20%、30%、40%。
[0015]4)利用神经元中激活概率h等于0的比例来度量网络的稀疏性,稀疏度定义为:
[0016][0017]其中,D表示一层神经元个数,hAi=1,2,

,D)表示神经元,稀疏度越大表示该隐含层中神经元越稀疏,即权值为О的神经元个数越多。对于每个模型,首先使用训练集对模型进行训练,得出每一层神经元中的激活概率,然后将其代即可计算出该层的稀疏度,最后,计算出所有隐含层稀疏度的平均值作为整个神经网络的稀疏度,最后提取出语音瓶颈特征。
[0018](4)采用基于模糊集理论的方法进行特征选择:
[0019]1)在n维空间R中,对于c类问题,训练样本集合为X=X,X:,

,XN},N为样本数,对于待测样本x,首先确定待测样本的K个近邻的K值﹔
[0020]2)确定待测样本与所有训练样本的距离,本文选择采用欧式距离:
[0021][0022]对这N个距离进行排序
[0023]d(1)≤d(2)≤d(3)≤.≤d(k)≤d(k+1)≤
……
≤d(N)
[0024]其中,d(1),..d(k)就是待测样本与K个最近邻的距离.
[0025]4)根据式(1)计算待测样本的类别隶属度,其中,m为模糊权重调节因子.对于n=1,2...c;如果ui(x)=max{un(x)},则判定x属于第i类.重复上述算法直至所有待测样本都处理完毕。
[0026](5)采用优化的SVM

KNN方法进行情感识别:
[0027]1)设每个样本属于所在类的隶属度为s
q
,则模糊化的输入样本为S={(x1,y1,s1),(x2,y2,s2)
……
(x
i
,y
i
,s
i
)},其中x
i
∈R,y
i
∈{1,

1},σ≤s
i
≤1,σ为充分小的正数s
i
表示第i个样本属于正类的程度。
[0028]2)在非线性情况下引入变换0:R

F,把样本从输入空间R映射到高维特征空间F,在高维特征空间中利用结构风险最小化原理和分类间隔最大化思想确定最优分类超平面,于是求解FSVM最优超平面问题可以转化为如下的优化问题
[0029][0030][0031]ξ
i
≥0,i=1,^

,1.
[0032]3)建立lagrange函数
[0033][0034]其中μi>0,βi>0为Lagrange乘子,C0>0为惩罚因子,w为线性分类函数y,的权系数。
[0035]4)得到如下的对偶规划问题.
[0036][0037][0038]0≤μ
i
≤s
i
C0,i=1

l.
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于SVM

KNN的语音情感识别方法,其特征在于,包括以下步骤:(1)对原始数据预处理;使用预加重,分帧,加窗,端点检测的方法对原始数据进行预处理;1)利用预加重技术,提高高频部分,使信号的频谱变得平坦,以便于频谱分析或者声道参数分析;2)对语音信号进行分帧处理;为了使帧与帧之间平滑过渡,保持连续性,使用交叠分段的方法,每移动一次都截取一段,从而获得尽可能多的帧,便于短期分析;3)用一定的窗函数w(n)来乘s(n),从而形成加窗语音信号sw(n)=s(n)*w(n);4)从一段语音信号中准确地找出语音信号的起始点和结束点,使有效的语音信号和无用的噪声信号得以分离;(2)设计相应的麦克风阵列,利用麦克风阵列解决方案对不同麦克风通道的数据进行延时对齐,实现音源定位,提高音频质量;1)使用一阶递归平滑方法估计输入语音信号的噪声功率谱;2)计算带噪语音信号的后验信噪比和先验信噪比;3)对带噪语音信号进行平滑处理,得到信号的平滑功率谱S(x,k),对该平滑输出信号进行最小值搜索,得到S
min
(λ,k);4)求解语音信号存在的概率I(x,k),并根据该概率进行二次平滑和最小值搜索,计算得到语音信号不存在概率q(λ,k);5)根据下式计算语音信号存在概率6)更新时变平滑参数和平滑噪声功率谱;(3)对处理后的数据基于SHL结构的BN

DNN进行特征提取;1)首先对1小时的Vystadial_cz提取39维MFCC特征(13+

+
△△
)训练一个三音子GMM模型,进行强制对齐;2)训练基于线性判别分析(Linear discriminant analysis,LDA)和最大似然线性变换(Maximum likelihood linear transform,MLLT)的三音子GMM声学模型(13维MFCC特征进行9帧拼接,LDA降到40维),该模型高斯混元数为19200个;3)然后再利用特征空间最大似然线性回归(Feature

space maximum likelihood linearregression,fMLLR)技术进行说话人自适应训练(Speaker adaptive training,SAT),从而构成LDA+MLLT+SAT的GMM声学模型;4)通过对该模型强制对齐的方式,得到BN

DNN中softmax层的训练目标;DNN的训练特征使用效果较好的fbanks特征,首先提取40维的fbanks特征,进行11帧的拼接(5
‑1‑
5),将所得到的超矢量作为DNN的输入特征;5)对每个隐含层(包含BN层)进行10轮的RBM预训练,然后利用BP算法进行全局参数的微调,最终提取出韵律、音质、谱三大类特征;(4)对提取出的特征基于模糊集理论的方法进行特征选择;
1)由函数TimePara()对提取出来的特征分析其短时能量、短时幅度、短时过零率和基音频率,由函数FunFre()提取基音频率;2)在对短时能量、短时幅度、短时过零率和基音频率分别进行提取之后,将提取到的特征参数组成特征向量,作为模糊集的输入.3)对于C类情感的识别,对训练样本集X统计出C种不同情感状态下同一个特征参数的平均值,记为M;;(i=1,2;;;C,j=1,2,;;,N,N为情感特征参数的个数),再分别对每
‑‑
种情感状态下的每一句语音样本的每个特征参数Mjm(n为该情感状态下的样本,n=1表示为第一...

【专利技术属性】
技术研发人员:王海路璐侯宇婷冯毅
申请(专利权)人:西北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1