【技术实现步骤摘要】
一种基于SVM
‑
KNN的语音情感识别方法
[0001]本专利技术涉及语音情感识别,具体涉及一种基于SVM
‑
KNN的语音情感识别方法。
技术介绍
[0002]语音情感识别是当前信号处理、模式识别、人工智能等领域的热点研究课题,其研究的最终目的是赋予计算机情感识别能力,构建和谐自然的人机交互环境.目前语音情感识别的方法中,支持向量机(SVM,support vector machine)被证明是一个比较有效的分类工具,但在情感混淆程度较大的情况下,使用SVM依然难以进行精确识别。
[0003]长期以来,生理和心理学领域的专家们一直在对情绪进行研究。随着人工智能的快速发展,人机交互中的情感研究引起了广大专家的极大兴趣。在人机交互中,人们希望人与机器能够更自然地交流,这就要求机器能够理解人类的情绪,因此对情绪进行分类和识别就显得尤为重要。在人类的交流中,语言包含着丰富的信息,因此机器可以利用语言来分类和识别情感。专家们在语音情感分类与识别方面做了大量的研究和分析,包括建立语音情感数据库、提取情感特征、分类识别方法等。为了提高语音情感的识别率,前人对每个环节都进行了改进研究,但并没有一个统一的系统,识别率也不是很高。以往使用MFCC作为识别特征,但在识别前没有对其进行进一步处理,导致大量冗余信息影响识别效果。为了消除这种影响,提高识别率,选择合适的分类器成为研究的重点。为了提高情感识别率,正确处理情感特征,选择合适的分类方法就显得尤为重要。
技术实现思路
[000 ...
【技术保护点】
【技术特征摘要】
1.一种基于SVM
‑
KNN的语音情感识别方法,其特征在于,包括以下步骤:(1)对原始数据预处理;使用预加重,分帧,加窗,端点检测的方法对原始数据进行预处理;1)利用预加重技术,提高高频部分,使信号的频谱变得平坦,以便于频谱分析或者声道参数分析;2)对语音信号进行分帧处理;为了使帧与帧之间平滑过渡,保持连续性,使用交叠分段的方法,每移动一次都截取一段,从而获得尽可能多的帧,便于短期分析;3)用一定的窗函数w(n)来乘s(n),从而形成加窗语音信号sw(n)=s(n)*w(n);4)从一段语音信号中准确地找出语音信号的起始点和结束点,使有效的语音信号和无用的噪声信号得以分离;(2)设计相应的麦克风阵列,利用麦克风阵列解决方案对不同麦克风通道的数据进行延时对齐,实现音源定位,提高音频质量;1)使用一阶递归平滑方法估计输入语音信号的噪声功率谱;2)计算带噪语音信号的后验信噪比和先验信噪比;3)对带噪语音信号进行平滑处理,得到信号的平滑功率谱S(x,k),对该平滑输出信号进行最小值搜索,得到S
min
(λ,k);4)求解语音信号存在的概率I(x,k),并根据该概率进行二次平滑和最小值搜索,计算得到语音信号不存在概率q(λ,k);5)根据下式计算语音信号存在概率6)更新时变平滑参数和平滑噪声功率谱;(3)对处理后的数据基于SHL结构的BN
‑
DNN进行特征提取;1)首先对1小时的Vystadial_cz提取39维MFCC特征(13+
△
+
△△
)训练一个三音子GMM模型,进行强制对齐;2)训练基于线性判别分析(Linear discriminant analysis,LDA)和最大似然线性变换(Maximum likelihood linear transform,MLLT)的三音子GMM声学模型(13维MFCC特征进行9帧拼接,LDA降到40维),该模型高斯混元数为19200个;3)然后再利用特征空间最大似然线性回归(Feature
‑
space maximum likelihood linearregression,fMLLR)技术进行说话人自适应训练(Speaker adaptive training,SAT),从而构成LDA+MLLT+SAT的GMM声学模型;4)通过对该模型强制对齐的方式,得到BN
‑
DNN中softmax层的训练目标;DNN的训练特征使用效果较好的fbanks特征,首先提取40维的fbanks特征,进行11帧的拼接(5
‑1‑
5),将所得到的超矢量作为DNN的输入特征;5)对每个隐含层(包含BN层)进行10轮的RBM预训练,然后利用BP算法进行全局参数的微调,最终提取出韵律、音质、谱三大类特征;(4)对提取出的特征基于模糊集理论的方法进行特征选择;
1)由函数TimePara()对提取出来的特征分析其短时能量、短时幅度、短时过零率和基音频率,由函数FunFre()提取基音频率;2)在对短时能量、短时幅度、短时过零率和基音频率分别进行提取之后,将提取到的特征参数组成特征向量,作为模糊集的输入.3)对于C类情感的识别,对训练样本集X统计出C种不同情感状态下同一个特征参数的平均值,记为M;;(i=1,2;;;C,j=1,2,;;,N,N为情感特征参数的个数),再分别对每
‑‑
种情感状态下的每一句语音样本的每个特征参数Mjm(n为该情感状态下的样本,n=1表示为第一...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。