一种基于ADRMFCC融合特征的语音识别方法技术

技术编号：39305181 阅读：7 留言：0更新日期：2023-11-12 15:54

针对复杂噪声环境下的语音识别准确率低和鲁棒性差的问题，本发明专利技术提出了一种基于ADRMFCC融合特征的语音识别方法。该方法利用增减分量法筛选残差梅尔倒谱系数(RMFCC)与梅尔倒谱系数(MFCC)各维度特征的语音贡献度改进语音识别性能，接着将筛选后的特征进行拼接融合，最后将处理好的融合特征ADRMFCC送入双向循环神经网络进行识别。实验结果表明，本发明专利技术所提方法在在不同的噪声种类和信噪比条件下远高于其单一特征下的识别准确率和性能，在

全部详细技术资料下载

【技术实现步骤摘要】
一种基于ADRMFCC融合特征的语音识别方法

[0001]专利技术涉及语音识别
，特别涉及一种基于ADRMFCC融合特征的语音识别方法。

技术介绍

[0002]随着科技的发展和人工智能的兴起，语音识别技术已经成为人们日常生活中不可或缺的一部分。然而，传统的语音识别技术在噪声干扰、说话人变化等方面仍然存在一定的局限性，因此如何提高语音识别的准确率一直是研究的重点之一。为了克服这些问题，越来越多的研究者开始关注语音特征提取技术，特征提取是语音信号处理中的关键步骤，直接影响着后续任务效果。
[0003]目前主流的语音特征主要包括基于声学层特征和音素层特征，例如梅尔频率倒谱系数，Gammatone频率倒谱系数，以及线性预测倒谱系数等。然而，在嘈杂环境下，这些特征很容易受到干扰，导致识别效果不佳。另一方面，基于音素层的识别方法将语音信号分割成若干个音素单元，并将每个音素单元映射到对应的音素库中的音素单元，得到一个表示整个语音信号的音素序列。最后，通过分析这个音素序列的特征，例如音素出现的概率和音素之间的转移概率等，来对整个语音信号进行识别。相对于声学层特征，基于音素层特征的语音识别方法受噪声环境的影响较小。然而，由于音素的切分提取较为困难，因此识别性能可能会下降。
[0004]随着深度学习被引入语音识别领域，由Wang Z等提出将MFCC中梅尔滤波器进行翻转得到IMFCC特征，该特征可以获取语音高频特征信息，结合MFCC特征以表征更全面的语音信息。由Zhao等提出的Fbank特征提取时基于滤波器组对音频进...

【技术保护点】

【技术特征摘要】
1.一种基于ADRMFCC融合特征的语音识别方法，其特征在于，包括以下步骤：S1、MFCC特征提取，在特征提取过程中，1)首先将语音信号分帧，并对每一帧进行加窗处理；2)接下来对每一帧进行FFT变换，得到该帧语音信号的频谱；3)然后使用一组梅尔滤波器将频谱转换为梅尔频率谱，并对梅尔频率谱取对数运算，得到的是以dB为单位的对数谱；4)最后对对数谱进行离散余弦变换，得到MFCC特征；一般使用20
‑
40个滤波器，得到20
‑
40维度的特征向量；在使用MFCC特征时需要对特征进行归一化处理，以保证不同特征维度的重要性相同，第i帧第j维的MFCC为：其中：i＝1,2,L,I，i为语音参数；j＝1,2,L,J
m
，J
m
为MFCC维度；M为滤波器数量；m为滤波器，将I
′
J
m
维的MFCC特征矩阵表示为M；S2、RMFCC特征提取，具体的计算步骤如下：1)对语音信号x(n)分帧加窗，使用的是汉明窗，分帧加窗后的第i帧信号为x
i
(n)；2)对x
i
(n)进行离散傅里叶变换...

【专利技术属性】
技术研发人员：马建，朵琳，韦贵香，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人