一种噪声环境下在线指令词语音识别方法及系统技术方案

技术编号:31823192 阅读:45 留言:0更新日期:2022-01-12 12:40
一种噪声环境下在线指令词语音识别方法及系统,属于语音识别技术领域,用以解决现有的序列推理模型对于噪声环境下的指令词语音识别效果较差的问题。本发明专利技术的技术要点包括:利用CNN分类模型将语音识别问题转换成图像识别问题进行处理,且利用CNN二分类网络模型准确区分语音和噪音;进一步地,提出基于激活向量输入分类判断方法,使用CNN网络模型的激活向量作为判断依据,准确实现了未知类别语音和指令词语音的分类,很好的解决了开集识别问题。本发明专利技术可以有效拒绝非指令词语音,实现噪声环境下指令词语音的准确识别。本发明专利技术适用于智能挖掘机器人或其它设备工作时的含噪声指令词语音识别。令词语音识别。令词语音识别。

【技术实现步骤摘要】
一种噪声环境下在线指令词语音识别方法及系统


[0001]本专利技术涉及语音识别
,具体涉及一种噪声环境下在线指令词语音识别方法及系统。

技术介绍

[0002]语音识别是一种使机器识别或者理解外界语音输入的一种技术,该技术是实现人与机器更进一步交互的基础,只有机器能够识别出输入语音才有可能进一步理解识别出来的内容并且做出相应的反馈。目前语音识别技术的发展前景非常广阔,作为智能挖掘机器人开发的一个方向,可以辅助驾驶员操控智能挖掘机器人,降低对智能挖掘机器人的操作难度,具有广泛的应用前景。
[0003]近年来深度学习的快速发展,吸引了许多研究者投入精力研究。相关技术被应用到语音识别领域,使得语音识别正确率和计算速度都得到了较大地提升。但是最近几年语音识别在孤立词方面所做的工作较少,且使用的方法都是基于序列推理的方式,这种方式可以应对无噪声环境下的语音识别,但是在噪声环境下效果就不太理想。在智能挖掘机器人的语音识别任务中,噪声是不平稳的,随时可能出现,且可能出现不同的噪声,比如前一时间段智能挖掘机器人在转动驾驶舱,下一时间段智能挖掘机器人开始伸缩大臂,这样的噪声干扰加入到指令词语音信号中,能够很大程度上干扰序列推理模型,如果当前帧的噪声比较大,大概率干扰当前帧的预测输出,进而使得后续的推理全部失败。

技术实现思路

[0004]鉴于以上问题,本专利技术提出一种噪声环境下在线指令词语音识别方法及系统,用以解决现有的序列推理模型对于噪声环境下的指令词语音识别效果较差的问题。
[0005]根据本专利技术一方面,提出一种噪声环境下在线指令词语音识别方法,该方法包括下述步骤:
[0006]步骤一、对实时输入的未知声音信号进行预处理,所述预处理包括高频补偿和分帧处理;
[0007]步骤二、对经过预处理的未知声音信号进行特征提取,获取MFCC特征向量;
[0008]步骤三、将所述MFCC特征向量输入训练好的CNN二分类网络模型,识别获得所述未知声音信号为语音还是噪音;
[0009]步骤四、当识别所述未知声音信号为语音时,将该语音对应的MFCC特征向量进行拼接,计算获得MFCC特征图;将MFCC特征图输入训练好的CNN多分类网络模型对该语音进行识别,获得该语音的识别结果。
[0010]进一步地,步骤一中利用一阶FIR高通滤波器实现所述高频补偿;所述分帧处理为将未知声音信号分成多个短时的语音段,每个语音段称为一帧信号。
[0011]进一步地,步骤三的具体过程包括:
[0012]建立数据缓存区用于存储多帧信号对应的MFCC特征向量;
[0013]每次新的一帧信号对应的MFCC特征向量进入数据缓存区时,则舍弃最开始进入的一帧信号对应的MFCC特征向量;
[0014]将数据缓存区中存储的多帧信号对应的MFCC特征向量进行拼接,计算获得MFCC特征图;
[0015]将所述MFCC特征图输入训练好的CNN二分类网络模型,识别获得所述多帧信号为语音还是噪音,若为语音,则继续对实时输入的、经过预处理的未知声音信号对应的MFCC特征向量按照上述步骤进行处理;若为噪音,则继续等待。
[0016]进一步地,步骤四中所述CNN多分类网络模型训练过程中引入激活向量作为CNN多分类网络模型结构中最后一层softmax运算的输入向量,训练过程包括:在根据训练集数据训练获得CNN多分类网络模型之后,将训练集数据输入模型中计算每个类别的激活向量,对于每个类别,使用该类别的激活向量拟合出对应的GMM函数。
[0017]进一步地,步骤四中将MFCC特征图输入训练好的CNN多分类网络模型对该语音进行识别,获得该语音的识别结果的具体过程包括:将MFCC特征图输入训练好的CNN多分类网络模型,首先计算获得MFCC特征图所属的概率最大的已知类别K,然后计算获得所述MFCC特征图对应的激活向量,然后将所述激活向量代入已知类别K在训练过程中拟合得到的GMM函数中进行计算,判断所述MFCC特征图对应的语音属于未知类别还是已知类别K,当计算得到的函数值大于预设超参数阈值时,判断所述MFCC特征图对应的语音属于上述已知类别K,否则属于未知类别。
[0018]根据本专利技术另一方面,提出一种噪声环境下在线指令词语音识别系统,该系统包括:
[0019]预处理模块,用于对实时输入的未知声音信号进行预处理,所述预处理包括高频补偿和分帧处理;其中,所述分帧处理为将未知声音信号分成多个短时的语音段,每个语音段称为一帧信号;
[0020]特征提取模块,用于对经过预处理的未知声音信号进行特征提取,获取MFCC特征向量;
[0021]二分类模块,用于将所述MFCC特征向量输入训练好的CNN二分类网络模型,识别获得所述未知声音信号为语音还是噪音;
[0022]语音识别模块,用于当二分类模块识别所述未知声音信号为语音时,将该语音对应的MFCC特征向量进行拼接,计算获得MFCC特征图;将MFCC特征图输入训练好的CNN多分类网络模型对该语音进行识别,获得该语音的识别结果。
[0023]进一步地,所述预处理模块中利用一阶FIR高通滤波器实现高频补偿。
[0024]进一步地,所述二分类模块中识别获得所述未知声音信号为语音还是噪音的具体过程包括:
[0025]建立数据缓存区用于存储多帧信号对应的MFCC特征向量;
[0026]每次新的一帧信号对应的MFCC特征向量进入数据缓存区时,则舍弃最开始进入的一帧信号对应的MFCC特征向量;
[0027]将数据缓存区中存储的多帧信号对应的MFCC特征向量进行拼接,计算获得MFCC特征图;
[0028]将所述MFCC特征图输入训练好的CNN二分类网络模型,识别获得所述多帧信号为
语音还是噪音,若为语音,则继续对实时输入的、经过预处理的未知声音信号对应的MFCC特征向量按照上述步骤进行处理;若为噪音,则继续等待。
[0029]进一步地,所述语音识别模块中所述CNN多分类网络模型训练过程中引入激活向量作为CNN多分类网络模型结构中最后一层softmax运算的输入向量,训练过程包括:在根据训练集数据训练获得CNN多分类网络模型之后,将训练集数据输入模型中计算每个类别的激活向量,对于每个类别,使用该类别的激活向量拟合出对应的GMM函数。
[0030]进一步地,所述语音识别模块中将MFCC特征图输入训练好的CNN多分类网络模型对该语音进行识别,获得该语音的识别结果的具体过程包括:将MFCC特征图输入训练好的CNN多分类网络模型,首先计算获得MFCC特征图所属的概率最大的已知类别K,然后计算获得所述MFCC特征图对应的激活向量,然后将所述激活向量代入已知类别K在训练过程中拟合得到的GMM函数中进行计算,判断所述MFCC特征图对应的语音属于未知类别还是已知类别K,当计算得到的函数值大于预设超参数阈值时,判断所述MFCC特征图对应的语音属于上述已知类别K,否则属于未知类别。
[0031]本专利技术的有益技术本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种噪声环境下在线指令词语音识别方法,其特征在于,包括下述步骤:步骤一、对实时输入的未知声音信号进行预处理,所述预处理包括高频补偿和分帧处理;步骤二、对经过预处理的未知声音信号进行特征提取,获取MFCC特征向量;步骤三、将所述MFCC特征向量输入训练好的CNN二分类网络模型,识别获得所述未知声音信号为语音还是噪音;步骤四、当识别所述未知声音信号为语音时,将该语音对应的MFCC特征向量进行拼接,计算获得MFCC特征图;将MFCC特征图输入训练好的CNN多分类网络模型对该语音进行识别,获得该语音的识别结果。2.根据权利要求1所述的一种噪声环境下在线指令词语音识别方法,其特征在于,步骤一中利用一阶FIR高通滤波器实现所述高频补偿;所述分帧处理为将未知声音信号分成多个短时的语音段,每个语音段称为一帧信号。3.根据权利要求2所述的一种噪声环境下在线指令词语音识别方法,其特征在于,步骤三的具体过程包括:建立数据缓存区用于存储多帧信号对应的MFCC特征向量;每次新的一帧信号对应的MFCC特征向量进入数据缓存区时,则舍弃最开始进入的一帧信号对应的MFCC特征向量;将数据缓存区中存储的多帧信号对应的MFCC特征向量进行拼接,计算获得MFCC特征图;将所述MFCC特征图输入训练好的CNN二分类网络模型,识别获得所述多帧信号为语音还是噪音,若为语音,则继续对实时输入的、经过预处理的未知声音信号对应的MFCC特征向量按照上述步骤进行处理;若为噪音,则继续等待。4.根据权利要求3所述的一种噪声环境下在线指令词语音识别方法,其特征在于,步骤四中所述CNN多分类网络模型训练过程中引入激活向量作为CNN多分类网络模型结构中最后一层softmax运算的输入向量,训练过程包括:在根据训练集数据训练获得CNN多分类网络模型之后,将训练集数据输入模型中计算每个类别的激活向量,对于每个类别,使用该类别的激活向量拟合出对应的GMM函数。5.根据权利要求4所述的一种噪声环境下在线指令词语音识别方法,其特征在于,步骤四中将MFCC特征图输入训练好的CNN多分类网络模型对该语音进行识别,获得该语音的识别结果的具体过程包括:将MFCC特征图输入训练好的CNN多分类网络模型,首先计算获得MFCC特征图所属的概率最大的已知类别K,然后计算获得所述MFCC特征图对应的激活向量,然后将所述激活向量代入已知类别K在训练过程中拟合得到的GMM函数中进行计算,判断所述MFCC特征图对应的语音属于未知类别还是已知类别K,当计算得到的函数值大于预设超参数阈值时,判断所述MFCC特征图对应的语音属于上述已知类别K,否则属于未知类别。6.一种噪声环境下在线指令词语音识别系统,其特征在于,包括:预处理模块,...

【专利技术属性】
技术研发人员:王波霍鑫吴鑫
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1