【技术实现步骤摘要】
一种基于改进MFCC算法的嵌入式语音识别系统及方法
本专利技术涉及一种嵌入式语音识别系统及方法,特别是关于一种基于改进MFCC算法的嵌入式语音识别系统及方法。
技术介绍
通过语音识别,用户不必按下按键或做其他的复杂操作,而仅需发出语音指令,即可控制机械设备的运行,此外移动端设备通过语音识别,能够快速地将语音信号转化成文字。语音识别技术提高了人类地生产生活效率,于此同时,语音识别是人工智能的重要研究方向,具有广阔的发展前进。目前,许多国家都将语音识别作为重点研究项目,许多公司也推出了语音识别产品。现有语音识别系统存在以下问题:1、语音识别系统需要借助强大的运算平台做支撑,用户须将语音信号传入云端,在线获得识别结果,这样的方式加大了语音识别的成本,并不适用于自动控制,移动设备等对成本要求较高的领域。2、语音识别平台在移动端上具有运用广泛且识别率较高的优点,但其并不能识别小语种或地方语言,具有一定的局限性。
技术实现思路
针对上述问题,本专利技术的目的是提供一种基于改进MFCC算法的嵌入式语音识别系统及方法,其能够实现多种设备的语音控制,并克服现有技术中无法识别小语种或地方语言的问题。为实现上述目的,本专利技术采取以下技术方案:一种基于改进MFCC算法的嵌入式语音识别方法,其包括以下步骤:1)启动语音识别系统,显示菜单界面,并判断语音识别系统是否是第一次使用,若是,则进入步骤9),反之则进入步骤2);2)通过语音识别系统上的菜单键选择进入识别模式;3)语音识别系统中的主控系统通过采样电路开始采集用户语音信号;4)主控系统对采集到的语音信号进行预处理;5)预处理完成后 ...
【技术保护点】
1.一种基于改进MFCC算法的嵌入式语音识别方法,其特征在于包括以下步骤:1)启动语音识别系统,显示菜单界面,并判断语音识别系统是否是第一次使用,若是,则进入步骤9),反之则进入步骤2);2)通过语音识别系统上的菜单键选择进入识别模式;3)语音识别系统中的主控系统通过采样电路开始采集用户语音信号;4)主控系统对采集到的语音信号进行预处理;5)预处理完成后,主控系统对语音信号进行端点检测,确定语音信号的起始点和结束点;6)端点检测完成后,主控系统对语音信号进行特征提取,得到12维的混合特征参数,该12维的混合特征参数即为用户输入语音信号的全部特征;7)对语音信号的特征提取完成后,主控系统将得到的特征参数与主控系统内预先存储的特征模板进行匹配,若匹配,则得到最终的识别结果;反之,则重新进行识别模式;8)由语音识别系统中的LCD显示屏显示识别结果,并通过语音识别系统的蓝牙模块无线控制用户指定的设备;9)通过菜单键选择进入训练模式;10)用户通过菜单键选择训练模板的存放点,若各个模板存放点都已存有模板,则需要用户选择其中一个存放点进行数据覆盖;11)选择完训练模板的存放点后,正式进入训练模式, ...
【技术特征摘要】
1.一种基于改进MFCC算法的嵌入式语音识别方法,其特征在于包括以下步骤:1)启动语音识别系统,显示菜单界面,并判断语音识别系统是否是第一次使用,若是,则进入步骤9),反之则进入步骤2);2)通过语音识别系统上的菜单键选择进入识别模式;3)语音识别系统中的主控系统通过采样电路开始采集用户语音信号;4)主控系统对采集到的语音信号进行预处理;5)预处理完成后,主控系统对语音信号进行端点检测,确定语音信号的起始点和结束点;6)端点检测完成后,主控系统对语音信号进行特征提取,得到12维的混合特征参数,该12维的混合特征参数即为用户输入语音信号的全部特征;7)对语音信号的特征提取完成后,主控系统将得到的特征参数与主控系统内预先存储的特征模板进行匹配,若匹配,则得到最终的识别结果;反之,则重新进行识别模式;8)由语音识别系统中的LCD显示屏显示识别结果,并通过语音识别系统的蓝牙模块无线控制用户指定的设备;9)通过菜单键选择进入训练模式;10)用户通过菜单键选择训练模板的存放点,若各个模板存放点都已存有模板,则需要用户选择其中一个存放点进行数据覆盖;11)选择完训练模板的存放点后,正式进入训练模式,并得到训练模板,存入到主控系统的特征模板存储区内,用于语音识别的特征匹配。2.如权利要求1所述识别方法,其特征在于:所述步骤5)中,主控系统对语音信号进行端点检测的方法包括以下步骤:5.1)主控系统提取识别前200ms的语音信号作为背景噪声,依据噪声信息和语音信息的短时平均幅度值的差异,根据单位时间跨过正负阈值的次数设置相应门限;5.2)设定当语音信号超过正负阈值之一或者同时超过正负阈值时,并超过预先设定的时间,则将此作为语音的起始点;设定语音信号同时低于正负阈值,并超过预先设定时间,则将此作为语音的结束点。3.如权利要求1所述识别方法,其特征在于:所述步骤6)中,对语音信号进行特征提取采用改进MFCC算法,MFCC参数的提取包括以下步骤:6.1)对经过预处理后的语音信号进行快速傅里叶变换,转换到频域信号后再计算得到的短时能量谱;6.2)将短时能量谱基于滤波器组进行滤波,再将每个滤波器频带内的能量进行积分,得到功率谱;6.3)将每个滤波器对应的功率值取对数,再对得到的对数功率进行反离散余弦变换,最终得到12个MFCC系数;6.4)再由主控系统对语音信号进行翻转梅尔频率倒谱运算,得到翻转梅尔倒谱系数IMFCC;IMFCC参数的提取流程与MFCC参数的提取流程一致;6.5)得到的MFCC参数与IMFCC参数分别表征了低频段和高频段的语音特点,采用Fisher线性判别准则得到特征分量的Fisher比:式中,rFisher是特征分量的Fisher比;σbetween表示特征分量的类间方差;σwithin表示特征分量的类内方差;6.6)在上述步骤中得到的MFCC参数与IMFCC参数中分别选择Fisher比最大的6个分量组合成12维的混合特征参数,完成语音信号的特征提取。4.如权利要求3所述识别方法,其特征在于:所述步骤6.4)中,翻转梅尔频率fIMel与实际频率f的变换关系为:fIMel=2195.268-2595*lg(1+(4031.25-f)/700)。5.如权利要求3所述识别方法,其特征在于:所述步骤6.5)中,特征分量的类间方差σbetween和特征分量的类内方差σwithin分别为:式中,k等于特征参数的维数,k=1,2,…,12;mk表示语音所有类别上第k个特征分量的均值;表示语音的第i类中第k个特征分量的均值;ωi表示第i类的语音特征序列;c表示语音的类别数,ni...
【专利技术属性】
技术研发人员:任彬,赵增旭,佟宽章,胡佳辉,
申请(专利权)人:石家庄铁道大学,
类型:发明
国别省市:河北,13
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。