【技术实现步骤摘要】
一种基于DTW算法的语音识别方法
[0001]本专利技术属于语音识别的应用领域,尤其涉及一种基于DTW算法的语音识别方法。
技术介绍
[0002]语言是人与人之间最自然、最重要的交流工具,同时也是人类获取信息的重要途经之一。语音信号处理有四大分支,分别是语音识别、语音合成、语音编码和说话人识别;语音识别就是为了让计算机能“听懂”人类的说话,并将说话内容转换为相关计算机指令,进行计算机控制。语音识别是一门涉及生理学、心理学、声学、语言学、人工智能、信号处理、概率论、计算机科学、模式识别等领域的交叉学科,被认为是新世纪头十年信息
十大重要的科技发展技术之一。最近几年,语音识别技术取得显著进步,开始从实验室研究走向市场应用。
[0003]目前,国内外语音识别技术的研究只要集中在非特定人、大词库、连续语音识别系统上,而连续语音识别,语音新特征的提取,高噪声环境下的识别率改善,基于隐马尔科夫模型(HMM,Hidden Markov Models)及人工神经网络(ANN,Artificial Neural Network) ...
【技术保护点】
【技术特征摘要】
1.一种基于DTW算法的语音识别方法,其特征在于:包括:语音信号预处理步骤:对采集到的测试语音信号进行预处理,得到每一帧的时域序列x(n);所述预处理包括预滤波、预加重、分帧加窗以及端点检测;所述端点检测包括短时平均能量分析和改进短时过零率分析,所述改进短时过零率分析中将预设的门限值T取代零点门限值,统计信号幅度越过
±
T的次数;语音信号特征参数提取步骤:将经过预处理得到的每一帧的时域序列x(n)进行快速傅里叶变换后得到线性频谱X(k);对线性频谱X(k)取模的平方,得到离散功率谱S(n);根据Mel滤波器组对离散功率谱S(n)进行带通滤波,计算MFCC参数,并根据计算的MFCC参数进行一阶差分和二价差分后再进行半升正弦函数倒谱提升,生成测试语音特征矢量;集合每一帧时域序列x(n)的特征矢量,存入测试模板;语音识别与分类步骤:将参考语音信号经过语音信号预处理步骤和语音信号特征参数提取步骤后,生成参考模板,利用DTW算法对测试模块和参考模块进行最小累计距离匹配,输出最小匹配距离结果;所述DTW算法中将起点帧放宽2
‑
3帧,终点帧放宽2
‑
3帧。2.根据权利要求1所述的一种基于DTW算法的语音识别方法,其特征在于:所述语音信号预处理步骤中端点检测具体为:预设有效语音段的长度阈值,将经过分帧加窗的测试语音信号的起始帧和结束帧进行短时平均能量分析,生成分析结果,并根据改进短时过零率分析进行分析结果的修正,判断修正后的分析结果是否超过有效语音段的长度阈值,若是,则标记有效语音段;若否,则结束该帧语音信号。3.根据权利要求1所述的一种基于DTW算法的语音识别...
【专利技术属性】
技术研发人员:陶亚雄,
申请(专利权)人:重庆电子工程职业学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。