一种基于改进MFCC算法的嵌入式语音识别系统及方法技术方案

技术编号:20548105 阅读:25 留言:0更新日期:2019-03-09 20:42
本发明专利技术涉及一种基于改进MFCC算法的嵌入式语音识别系统及方法,其包括:进入识别模式,采集用户语音信号并进行预处理;对语音信号进行端点检测,确定语音信号的起始点和结束点;对语音信号进行特征提取得到12维的混合特征参数,即为用户输入语音信号的全部特征;将得到的特征参数与主控系统内预先存储的特征模板进行匹配,若匹配,则得到最终的识别结果;反之,则重新进行识别模式;通过蓝牙模块无线控制用户指定的设备;选择进入训练模式;用户选择训练模板的存放点,若各个模板存放点都已存有模板,则需要用户选择其中一个存放点进行数据覆盖;进入训练模式,并得到训练模板,存入到主控系统的特征模板存储区内,用于语音识别的特征匹配。

【技术实现步骤摘要】
一种基于改进MFCC算法的嵌入式语音识别系统及方法
本专利技术涉及一种嵌入式语音识别系统及方法,特别是关于一种基于改进MFCC算法的嵌入式语音识别系统及方法。
技术介绍
通过语音识别,用户不必按下按键或做其他的复杂操作,而仅需发出语音指令,即可控制机械设备的运行,此外移动端设备通过语音识别,能够快速地将语音信号转化成文字。语音识别技术提高了人类地生产生活效率,于此同时,语音识别是人工智能的重要研究方向,具有广阔的发展前进。目前,许多国家都将语音识别作为重点研究项目,许多公司也推出了语音识别产品。现有语音识别系统存在以下问题:1、语音识别系统需要借助强大的运算平台做支撑,用户须将语音信号传入云端,在线获得识别结果,这样的方式加大了语音识别的成本,并不适用于自动控制,移动设备等对成本要求较高的领域。2、语音识别平台在移动端上具有运用广泛且识别率较高的优点,但其并不能识别小语种或地方语言,具有一定的局限性。
技术实现思路
针对上述问题,本专利技术的目的是提供一种基于改进MFCC算法的嵌入式语音识别系统及方法,其能够实现多种设备的语音控制,并克服现有技术中无法识别小语种或地方语言的问题。为实现上述目的,本专利技术采取以下技术方案:一种基于改进MFCC算法的嵌入式语音识别方法,其包括以下步骤:1)启动语音识别系统,显示菜单界面,并判断语音识别系统是否是第一次使用,若是,则进入步骤9),反之则进入步骤2);2)通过语音识别系统上的菜单键选择进入识别模式;3)语音识别系统中的主控系统通过采样电路开始采集用户语音信号;4)主控系统对采集到的语音信号进行预处理;5)预处理完成后,主控系统对语音信号进行端点检测,确定语音信号的起始点和结束点;6)端点检测完成后,主控系统对语音信号进行特征提取,得到12维的混合特征参数,该12维的混合特征参数即为用户输入语音信号的全部特征;7)对语音信号的特征提取完成后,主控系统将得到的特征参数与主控系统内预先存储的特征模板进行匹配,若匹配,则得到最终的识别结果;反之,则重新进行识别模式;8)由语音识别系统中的LCD显示屏显示识别结果,并通过语音识别系统的蓝牙模块无线控制用户指定的设备;9)通过菜单键选择进入训练模式;10)用户通过菜单键选择训练模板的存放点,若各个模板存放点都已存有模板,则需要用户选择其中一个存放点进行数据覆盖;11)选择完训练模板的存放点后,正式进入训练模式,并得到训练模板,存入到主控系统的特征模板存储区内,用于语音识别的特征匹配。进一步,所述步骤5)中,主控系统对语音信号进行端点检测的方法包括以下步骤:5.1)主控系统提取识别前200ms的语音信号作为背景噪声,依据噪声信息和语音信息的短时平均幅度值的差异,根据单位时间跨过正负阈值的次数设置相应门限;5.2)设定当语音信号超过正负阈值之一或者同时超过正负阈值时,并超过预先设定的时间,则将此作为语音的起始点;设定语音信号同时低于正负阈值,并超过预先设定时间,则将此作为语音的结束点。进一步,所述步骤6)中,对语音信号进行特征提取采用改进MFCC算法,MFCC参数的提取包括以下步骤:6.1)对经过预处理后的语音信号进行快速傅里叶变换,转换到频域信号后再计算得到的短时能量谱;6.2)将短时能量谱基于滤波器组进行滤波,再将每个滤波器频带内的能量进行积分,得到功率谱;6.3)将每个滤波器对应的功率值取对数,再对得到的对数功率进行反离散余弦变换,最终得到12个MFCC系数;6.4)再由主控系统对语音信号进行翻转梅尔频率倒谱运算,得到翻转梅尔倒谱系数IMFCC;IMFCC参数的提取流程与MFCC参数的提取流程一致;6.5)得到的MFCC参数与IMFCC参数分别表征了低频段和高频段的语音特点,采用Fisher线性判别准则得到特征分量的Fisher比:式中,rFisher是特征分量的Fisher比;σbetween表示特征分量的类间方差;σwithin表示特征分量的类内方差;6.6)在上述步骤中得到的MFCC参数与IMFCC参数中分别选择Fisher比最大的6个分量组合成12维的混合特征参数,完成语音信号的特征提取。进一步,所述步骤6.4)中,翻转梅尔频率fIMel与实际频率f的变换关系为:fIMel=2195.268-2595*lg(1+(4031.25-f)/700)。进一步,所述步骤6.5)中,特征分量的类间方差σbetween和特征分量的类内方差σwithin分别为:式中,k等于特征参数的维数,k=1,2,…,12;mk表示语音所有类别上第k个特征分量的均值;表示语音的第i类中第k个特征分量的均值;ωi表示第i类的语音特征序列;c表示语音的类别数,ni表示语音的各类的样本数;表示第i类语音特征中的第k个分量。进一步,所述步骤7)中,识别匹配采用了DTW算法,经过语音处理后,得到参考模板与测试模板:参考模板表示为R={R(1),R(2),…R(m),…R(M)},测试模板表示为T={T(1),T(2),…T(n),…T(N)},M表示参考模板的帧数,N表示测试模板的帧数,M≠N;时间规整函数为im=φ(in),将测试模板的时间轴非线性的映射到模板的时间轴上,其中m表示参考模板的第m帧,n表示测试模板的第n帧;目标函数表示为D为最优匹配距离,d()表示参考模板与测试模板对应帧的幅值差;通过最优匹配距离D表征语音特征序列的相似度,距离越小,则相似度越高;将测试模板与不同类的特征模板进行匹配,根据匹配距离值判断测试模板所属类别,即得到识别结果。进一步,识别匹配时需满足以下约束条件:(1)时间规整函数是基于时间序列的,需满足单调递增的性质,即φ(in)≤φ(in+1);(2)假定端点检测的结果是精确的,参考模板和测试模板的起点与终点相对应,即φ(1)=1,φ(N)=M;(3)时间规整函数需满足连续性,即φ(in+1)-φ(in)≤1;(4)最大规整量需设定上限,即m-φ(in)≤M。一种实现上述识别方法的基于改进MFCC算法的嵌入式语音识别系统,其包括机身,所述机身上表面设置有LCD显示屏、菜单键、开机\关机键、返回键、确认按键、左方向键、上方向键、右方向键、下方向键和麦克风凹槽;所述LCD显示屏位于所述机身上表面的上部,所述菜单键、开机\关机键和返回键位于同一水平线上,设置在所述LCD显示屏的下方;所述左方向键、上方向键、右方向键和下方向键位于所述机身上表面的中部,并呈圆形分布,位于圆心处设置有所述确认按键;位于所述机身上表面的下部设置有所述麦克风凹槽;位于所述机身底部端面处设置有USB接口;位于所述机身内部设置有蓝牙模块、主控系统、供电电池和采样电路;各按键和蓝牙模块都与所述主控系统连接,由所述蓝牙模块与外部设备进行信息交互;所述供电电池用于为所述主控系统、采样电路和LCD显示屏供电;所述采样电路用于采集用户语音信号,并将采集到的语音信号传输至所述主控系统内;所述主控系统将处理后的信号传输至所述LCD显示屏进行显示。进一步,所述采样电路采用差分放大电路,其包括NPN型三极管Q1、PNP型三极管Q2、第一电阻R1、第二电阻R2、第三电阻R3、第四电阻R4和接地电阻R5;所述采样电路输入端与设置在所述麦克风凹槽内的麦克风连接,输入端正极与所述本文档来自技高网...

【技术保护点】
1.一种基于改进MFCC算法的嵌入式语音识别方法,其特征在于包括以下步骤:1)启动语音识别系统,显示菜单界面,并判断语音识别系统是否是第一次使用,若是,则进入步骤9),反之则进入步骤2);2)通过语音识别系统上的菜单键选择进入识别模式;3)语音识别系统中的主控系统通过采样电路开始采集用户语音信号;4)主控系统对采集到的语音信号进行预处理;5)预处理完成后,主控系统对语音信号进行端点检测,确定语音信号的起始点和结束点;6)端点检测完成后,主控系统对语音信号进行特征提取,得到12维的混合特征参数,该12维的混合特征参数即为用户输入语音信号的全部特征;7)对语音信号的特征提取完成后,主控系统将得到的特征参数与主控系统内预先存储的特征模板进行匹配,若匹配,则得到最终的识别结果;反之,则重新进行识别模式;8)由语音识别系统中的LCD显示屏显示识别结果,并通过语音识别系统的蓝牙模块无线控制用户指定的设备;9)通过菜单键选择进入训练模式;10)用户通过菜单键选择训练模板的存放点,若各个模板存放点都已存有模板,则需要用户选择其中一个存放点进行数据覆盖;11)选择完训练模板的存放点后,正式进入训练模式,并得到训练模板,存入到主控系统的特征模板存储区内,用于语音识别的特征匹配。...

【技术特征摘要】
1.一种基于改进MFCC算法的嵌入式语音识别方法,其特征在于包括以下步骤:1)启动语音识别系统,显示菜单界面,并判断语音识别系统是否是第一次使用,若是,则进入步骤9),反之则进入步骤2);2)通过语音识别系统上的菜单键选择进入识别模式;3)语音识别系统中的主控系统通过采样电路开始采集用户语音信号;4)主控系统对采集到的语音信号进行预处理;5)预处理完成后,主控系统对语音信号进行端点检测,确定语音信号的起始点和结束点;6)端点检测完成后,主控系统对语音信号进行特征提取,得到12维的混合特征参数,该12维的混合特征参数即为用户输入语音信号的全部特征;7)对语音信号的特征提取完成后,主控系统将得到的特征参数与主控系统内预先存储的特征模板进行匹配,若匹配,则得到最终的识别结果;反之,则重新进行识别模式;8)由语音识别系统中的LCD显示屏显示识别结果,并通过语音识别系统的蓝牙模块无线控制用户指定的设备;9)通过菜单键选择进入训练模式;10)用户通过菜单键选择训练模板的存放点,若各个模板存放点都已存有模板,则需要用户选择其中一个存放点进行数据覆盖;11)选择完训练模板的存放点后,正式进入训练模式,并得到训练模板,存入到主控系统的特征模板存储区内,用于语音识别的特征匹配。2.如权利要求1所述识别方法,其特征在于:所述步骤5)中,主控系统对语音信号进行端点检测的方法包括以下步骤:5.1)主控系统提取识别前200ms的语音信号作为背景噪声,依据噪声信息和语音信息的短时平均幅度值的差异,根据单位时间跨过正负阈值的次数设置相应门限;5.2)设定当语音信号超过正负阈值之一或者同时超过正负阈值时,并超过预先设定的时间,则将此作为语音的起始点;设定语音信号同时低于正负阈值,并超过预先设定时间,则将此作为语音的结束点。3.如权利要求1所述识别方法,其特征在于:所述步骤6)中,对语音信号进行特征提取采用改进MFCC算法,MFCC参数的提取包括以下步骤:6.1)对经过预处理后的语音信号进行快速傅里叶变换,转换到频域信号后再计算得到的短时能量谱;6.2)将短时能量谱基于滤波器组进行滤波,再将每个滤波器频带内的能量进行积分,得到功率谱;6.3)将每个滤波器对应的功率值取对数,再对得到的对数功率进行反离散余弦变换,最终得到12个MFCC系数;6.4)再由主控系统对语音信号进行翻转梅尔频率倒谱运算,得到翻转梅尔倒谱系数IMFCC;IMFCC参数的提取流程与MFCC参数的提取流程一致;6.5)得到的MFCC参数与IMFCC参数分别表征了低频段和高频段的语音特点,采用Fisher线性判别准则得到特征分量的Fisher比:式中,rFisher是特征分量的Fisher比;σbetween表示特征分量的类间方差;σwithin表示特征分量的类内方差;6.6)在上述步骤中得到的MFCC参数与IMFCC参数中分别选择Fisher比最大的6个分量组合成12维的混合特征参数,完成语音信号的特征提取。4.如权利要求3所述识别方法,其特征在于:所述步骤6.4)中,翻转梅尔频率fIMel与实际频率f的变换关系为:fIMel=2195.268-2595*lg(1+(4031.25-f)/700)。5.如权利要求3所述识别方法,其特征在于:所述步骤6.5)中,特征分量的类间方差σbetween和特征分量的类内方差σwithin分别为:式中,k等于特征参数的维数,k=1,2,…,12;mk表示语音所有类别上第k个特征分量的均值;表示语音的第i类中第k个特征分量的均值;ωi表示第i类的语音特征序列;c表示语音的类别数,ni...

【专利技术属性】
技术研发人员:任彬赵增旭佟宽章胡佳辉
申请(专利权)人:石家庄铁道大学
类型:发明
国别省市:河北,13

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1