当前位置: 首页 > 专利查询>李庆湧专利>正文

一种语音控制准确率的调整方法及系统技术方案

技术编号:20548129 阅读:26 留言:0更新日期:2019-03-09 20:44
本发明专利技术提供了一种语音控制准确率的调整方法和系统,该方法通过以下步骤实现:选择特定的神经网络模型,对网络的权值初始化;监控是否有用户语音控制信号输入;对输入信号执行预处理;信号经特征提取后,送入训练好的神经网络,得到分类的识别结果;判断该识别结果与系统预存的语音控制指令是否匹配;匹配时,执行相应控制操作;不匹配时,计算语音控制准确率;当语音控制准确率低于预定值或用户启动调整过程时,系统进入准确率调整模式;重新对网络模型进行训练,直至准确率高于设定值。本发明专利技术可以根据需要实时对模型进行训练,调整语音控制准确率,提高对受控设备控制的可靠性;同时利用本发明专利技术中的改进神经网络模型,提高了语音识别精度。

【技术实现步骤摘要】
一种语音控制准确率的调整方法及系统
本专利技术涉及语音控制
,尤其涉及一种语音控制方法和系统。
技术介绍
随着语音识别、人机交互技术的发展与成熟,越来越多的设备采用语音控制。被控设备通过语音采集装备,获取用户语音信号,与贮存的控制命令的语音资料作比对匹配,进行语音识别,解析后将指令发送至控制单元,控制设备进行相关操作。其中,语音识别的精度直接关系到了语音控制的准确率,但目前存在的主要问题是语音识别率不高,无法识别用户命令或错误识别用户命令,存在系统误操作的问题。现有技术中语音识别系统基本由4部分构成:预处理、特征提取、模型库和模式匹配。系统框图如附图1所示语音信号经过处理得到的语音波形,首先需要进行预处理操作。预处理操作主要包括语音信号的预加重、信号的分帧、语音信号的加窗以及语音信号的端点检测;语音信号经过预处理后,接着要对语音信号的重要参数进行特征提取;特征提取后的信号经过训练与模型库中的数据进行匹配,最终得到语音识别的结果。人工神经网络的研究一直是个热潮,因其非线性、自适应、鲁棒性及学习特性并且易于硬件实现等特点而受到人们的极大关注。对于语音信号的处理和识别,由于神经网络的结构与人耳耳蜗的层次和连接极其相似,因此神经网络模型的独特优点和超强的分类和映射能力能够充分借鉴和探索人的听觉神经机理,对神经网络和耳蜗模型互相结合的研究将是改进现有语音识别系统性能的重要方向。近些年,随着信号处理和机器学习领域的发展,语音识别研究已经取得了很大的成功,包括高斯混合模型、隐马尔可夫模型和深层神经网络等技术在内的方法已经获得很高的识别准确率。现阶段是语音识别研究的黄金时期,吸引了诸多科技公司和科研机构。国外像谷歌、微软、苹果等公司都相继推出了基于深度学习的语音识别服务,国内一批企业也纷纷跟进。但目前的基于神经网络算法的语音识别算法也存在一些弊端。例如一个简单的问题通常需要几百倍甚至上千倍的迭代训练,要耗费大量的时间,网络训练时间长;再如局部极小值问题普遍存在于神经网络的优化过程中;在噪声环境下的性能却仍然不尽如人意,且现有算法针对不同噪声的效果差异很大;用户本身说话带有口音或者使用了方言、说话人本身的说话含糊或者不清楚等,也可能造成语音识别效果变差。
技术实现思路
为解决上述影响语音识别率的问题,对此本专利技术提供一种语音控制准确率的调整方法和系统。本专利技术的技术方案:一种语音控制准确率的调整方法,包括步骤:S1:根据语音控制的特点,选择特定的神经网络模型,采集用户的语音信息经特征提取后对模型进行训练,使用已经训练好的参数对网络的权值初始化;根据控制系统的功能和控制需求,设置语音控制指令集;S2:获得所在环境声音信号,将时域信号转化为频域信号,计算信号的能量谱;将信号的能量谱与背景噪声能量谱比较,判断是否存在用户语音控制信号输入;若存在用户语音控制信号输入,执行之后步骤;否则,继续监听环境声音信号;S3:获取用户语音控制信号,对该信号执行预处理步骤,预处理步骤包括:抗混叠滤波步骤;预加重步骤;加窗分帧步骤和端点检测步骤;S4:将预处理后的用户语音控制信号作为输入,经过特征提取后,送入训练好的神经网络中,得到分类的识别结果即用户的语音控制命令;S5:判断该识别结果与系统预存的语音控制指令是否匹配,当用户语音控制命令与预存的控制指令匹配时,系统控制执行部件执行相应的控制操作;当用户语音控制命令与预存的控制命令不匹配时,计算语音控制准确率;S6:当语音控制准确率低于预定值或用户启动调整过程时,系统进入准确率调整模式,执行步骤S7;否则,跳转到步骤S2;S7:系统输出标准语段,提示用户跟读,系统采集用户语音输入,对模型进行训练;再次测量语音控制准确率,当准确率高于阈值时,结束调整过程;若准确率低于阈值,重复调整过程。优选的,步骤S1和S7中对模型训练过程具体为:设在t时刻,网络的输入向量为x(t),隐含向量是h(t),网络的输出向量是o(t)。用V表示输入层与隐含层之间的连接权值,U表示隐含层与隐含层之间的连接权值,W表示隐含层与输出层之间的连接权值,b和a分别表示隐含层和输出层的偏置;hl(t)表示第l个样本在t时刻的隐含变量;ol(t)表示第l个样本在t时刻的输出变量;vl(t)表示第l个样本在t时刻输出层输出;ul(t)表示第l个样本在t时刻隐含层输出;δl(vl(t))表示第l个样本在t时刻输出层的误差反向信号变量;δl(ul(t))表示第l个样本在t时刻隐含层的误差反向信号向量,和分别表示对权值W、V和U的偏导;分别表示对偏置a和b的偏导。首先随机初始化所有的权值和偏置,初始化时间t从1到T正向传播,对第l个样本在t时刻的隐含变量和输出变量进行定义;在t=0时刻,定义隐含变量都为0,随着时间的展开,更新样本在t时刻的隐含变化量和输出变量;hl(t)=f(ul(t))=f(Vxl(t)+Uhl(t-1)+b),(1≤t≤T);ol(t)=g(ul(t))=f(Whl(t)+a),随着时间t从T到1反向传播,计算第l个样本在t时刻输出层的误差反向信号变量和隐含层的误差反向信号变量,对权值w、v、u和偏置a、b的偏导进行更新;δl(vl(t))=ol(t)-vl(t)·g'(vl(t))δl(ul(t))=[(W)Tδl(vl(t))]·f'(vl(t))每次更新网络中的所有权值和偏置。优选的,步骤S3对信号执行预处理步骤具体为:抗混叠滤波步骤:设低通滤波器的截止频率为fc,它与采用频率fs的关系为:预加重步骤:将语音信号通过一个预加重滤波器,其中预加重滤波器的传递函数公式如下:H(z)=1-az-1式中,a为预加重系数,是预加重前的语音信号,T(n)是经过预加重滤波器后得到的信号,其关系可用一阶差分方程表示如下:系数a取0.95;加窗分帧步骤:将采集到的语音信号分为短时的语音片段进行分析,片段长度为10ms~30ms,为抑制分帧产生的Gibbs效应,利用汉宁窗在语音信号上进行滑动将语音信号分成若干帧;端点检测步骤:计算每帧信号的短时过零率和短时平均能量;设语音信号的前m帧为静音段,计算噪声的平均能量和平均过零率;分别为短时平均能量设置高低两个门限,给短时过零率设置一个阈值;用之前设置的高低门限确定语音信号的起始点和终止点,然后再用短时过零率进行修正。优选的,步骤S4中特征提取步骤具体为:对预处理后的语音信号进行FFT变换得到频谱;对得到的频谱进行平方运算,再将得到的能量谱通过若干Mel带通滤波器进行滤波;将信号通过Mel滤波器后再对其取对数,获得相应的对数功率谱;最后再对得到的功率谱进行DCT反离散余弦变换,即可得到MFCC特征提取系数,若对其做一阶和二阶差分,可以得到动态MFCC特征参数。优选的,步骤S4中:使用Softmax分类器对语音输入信号进行概率判断,选取输出值最大的神经元所对应的类别作为分类的识别结果。本专利技术还提供了一种语音控制准确率的调整系统,包括监听模块,预处理模块,语音识别模块,指令集存储模块,匹配模块,准确率调整模块,执行模块,其特征在于:监听模块,用于获得所在环境声音信号,将时域信号转化为频域信号,计算信号的能量谱;将信号的能量谱与背景噪声能量谱比较,判断是否存在用户语音控制信号输入;若存本文档来自技高网
...

【技术保护点】
1.一种语音控制准确率的调整方法,包括步骤:S1:根据语音控制的特点,选择特定的神经网络模型,采集用户的语音信息经特征提取后对模型进行训练,使用已经训练好的参数对网络的权值初始化;根据控制系统的功能和控制需求,设置语音控制指令集;S2:监听用户命令;S3:获取用户语音控制信号,对该信号执行预处理步骤;S4:将预处理后的用户语音控制信号作为输入,经过特征提取后,送入训练好的神经网络中,得到分类的识别结果即用户的语音控制命令;S5:判断该识别结果与系统预存的语音控制指令是否匹配,当用户语音控制命令与预存的控制指令匹配时,系统控制执行部件执行相应的控制操作;不匹配时,计算语音控制准确率;S6:当语音控制准确率低于预定值或用户启动调整过程时,系统进入准确率调整模式,执行步骤S7;否则,跳转到步骤S2;S7:系统输出标准语段,提示用户跟读,系统采集用户语音输入,对模型进行训练;再次测量语音控制准确率,当准确率高于阈值时,结束调整过程;若准确率低于阈值,重复调整过程。

【技术特征摘要】
1.一种语音控制准确率的调整方法,包括步骤:S1:根据语音控制的特点,选择特定的神经网络模型,采集用户的语音信息经特征提取后对模型进行训练,使用已经训练好的参数对网络的权值初始化;根据控制系统的功能和控制需求,设置语音控制指令集;S2:监听用户命令;S3:获取用户语音控制信号,对该信号执行预处理步骤;S4:将预处理后的用户语音控制信号作为输入,经过特征提取后,送入训练好的神经网络中,得到分类的识别结果即用户的语音控制命令;S5:判断该识别结果与系统预存的语音控制指令是否匹配,当用户语音控制命令与预存的控制指令匹配时,系统控制执行部件执行相应的控制操作;不匹配时,计算语音控制准确率;S6:当语音控制准确率低于预定值或用户启动调整过程时,系统进入准确率调整模式,执行步骤S7;否则,跳转到步骤S2;S7:系统输出标准语段,提示用户跟读,系统采集用户语音输入,对模型进行训练;再次测量语音控制准确率,当准确率高于阈值时,结束调整过程;若准确率低于阈值,重复调整过程。2.根据权利要求1所述的一种语音控制准确率的调整方法,其特征在于,步骤S2具体为:获得所在环境声音信号,将时域信号转化为频域信号,计算信号的能量谱;将信号的能量谱与背景噪声能量谱比较,判断是否存在用户语音控制信号输入;若存在用户语音控制信号输入,执行之后步骤;否则,继续监听环境声音信号;步骤S3中预处理步骤包括:抗混叠滤波步骤;预加重步骤;加窗分帧步骤和端点检测步骤。3.根据权利要求1所述的一种语音控制准确率的调整方法,其特征在于,步骤S3对信号执行预处理步骤具体为:抗混叠滤波步骤:设低通滤波器的截止频率为fc,它与采用频率fs的关系为:预加重步骤:将语音信号通过一个预加重滤波器,其中预加重滤波器的传递函数公式如下:H(z)=1-az-1式中,a为预加重系数,是预加重前的语音信号,T(n)是经过预加重滤波器后得到的信号,其关系可用一阶差分方程表示如下:系数a取0.95;加窗分帧步骤:将采集到的语音信号分为短时的语音片段进行分析,片段长度为10ms~30ms,为抑制分帧产生的Gibbs效应,利用汉宁窗在语音信号上进行滑动将语音信号分成若干帧;端点检测步骤:计算每帧信号的短时过零率和短时平均能量;设语音信号的前m帧为静音段,计算噪声的平均能量和平均过零率;分别为短时平均能量设置高低两个门限,给短时过零率设置一个阈值;用之前设置的高低门限确定语音信号的起始点和终止点,然后再用短时过零率进行修正。4.根据权利要求1所述的一种语音控制准确率的调整方法,其特征在于,步骤S4中特征提取步骤具体为:对预处理后的语音信号进行FFT变换得到频谱;对得到的频谱进行平方运算,再将得到的能量谱通过若干Mel带通滤波器进行滤波;将信号通过Mel滤波器后再对其取对数,获得相应的对数功率谱;最后再对得到的功率谱进行DCT反离散余弦变换,即可得到MFCC特征提取系数,若对其做一阶和二阶差分,可以得到动态MFCC特征参数。5.根据权利要求1所述的一种语音控制准确率的调整方法,其特征在于,步骤S4中:使用Softmax分类器对语音输入信号进行概率判断,选取输出值最大的神经元所对应的类别作为分类的识别结果。6.一种语音控制准确率的调整系统,包括监听模块,语音识别模块,指令集存储模块,匹配模块,准确率调整模块,执行模块,其特征在于:监听模块,用于获得所在环境声音信号,将时域信号转化为频域信号,计算信号的能量谱;将信号的能量谱与背景噪声能量谱比较,判断是否存在用户语音控制信号输入;若存在用户语音控制信号输入,执行之后步骤;否则,继续监听环境声音信号;指令集存储模块,用于根据控制系统的功能和控制需求,设置语音控制指令集;语音识别模块,用于在初始化阶段,根据语音控制的特点,选择特定的神经网络模型,采集用户的语音信息经特征提取后对模型进行训练,使用已经训练好的参数对网络的权值初始化;在识别阶段,将预处理后的用户语音控制信号作为输入,经过特征提取后,送入训练好的神经网络中,得到分类的识别结果即用...

【专利技术属性】
技术研发人员:李庆湧
申请(专利权)人:李庆湧
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1