一种具有自适应降噪能力的语音识别方法及装置制造方法及图纸

技术编号:29529154 阅读:23 留言:0更新日期:2021-08-03 15:16
本发明专利技术公开了一种具有自适应降噪能力的语音识别方法及装置,该方法包括获取语音采集设备采集的语音信号,对语音信号进行处理,得到语音特征向量矩阵,将语音特征向量矩阵输入到训练好的级联卷积神经网络中进行降噪和语音识别,得到语音信号对应的识别结果,其中,训练好的级联卷积神经网络是对包含有噪声的语音信号的训练集进行训练得到的。通过部署级联的卷积神经网络,无需添加额外的降噪模块,即可实现降噪和语音识别功能,在识别分类过程中,神经网络依然能学习到降噪过程中分离得到的噪声信号特征。通过这种方式使有效特征不会丢失,同时信号处理的实时性更高,语音识别系统对噪声有更强的鲁棒性,噪声情况下的识别率会有明显提升。

【技术实现步骤摘要】
一种具有自适应降噪能力的语音识别方法及装置
本专利技术涉及语音识别
,尤其涉及一种具有自适应降噪能力的语音识别方法及装置。
技术介绍
随着人工智能技术的发展和芯片技术的进步,越来越多的电子产品开始支持语音控制功能,这极大地提高了用户的操作便捷性,也丰富了产品本身的功能性和拓展性,万物互联的时代正在到来。许多传统电器设备如吸顶灯、空调、电视机、吸油烟机、晾衣架等。此外,对于某些特殊场景,语音识别也可以起到用户识别功能,比如电子门禁,电视儿童锁等功能,相较于传统的钥匙和密码等,语音识别具有很高的可靠性和稳定性,同时不存在遗失风险。这就要求语音识别具有很高的准确性、实时性。目前普遍的语音识别方法是通过大数据采集不同说话人的录音音频并提取具有代表性的多维度特征并构建特征库,在使用时采集用户的发音并与特征库进行对比,如果相似度满足则输出正确结果。这种方法主要取决于语音特征库是否能够覆盖足够多的应用场景和不同说话人的语音特征。然而,在实际使用中,需要考虑不同场景下的环境背景噪声对识别系统的干扰,噪声环境下的语音控制指令波形会产生随即多样性的变化,因为噪声的不可预见性,通常难以和训练数据进行匹配。如果人声与背景噪声的信噪比过低,或者无法准备提取出有效语音信息,那么将严重影响最终的识别结果。为此,通常需要先进行降噪处理,尽可能地剔除掉背景噪声地干扰,再将降噪处理后的语音信号进行多维语音特征提取,降低语音特征中噪声的成分,以提高对噪声的鲁棒性,进行正常的语音识别过程。可以说,语音识别系统的降噪能力对最终的识别结果有着巨大的影响,此外,准确判断语音段和非语音段能够极大地提高系统工作效率,避免噪声环境下的设备误触发,降低设备端能耗。如何寻找合适有效的降噪技术成为了制约语音识别技术发展的重要因素。目前主流的降噪技术主要分为传统的时域频域处理和利用神经网络降噪处理。传统方法在时域对信号的过零率和短时能量进行分析,或者在频域对语音信号的能量谱进行分析,判断噪声地频谱特性,进而区分出人声和环境噪音并针对噪声进行抑制。传统的方式往往只能对某种特定的噪声进行降噪,如白噪声,正弦波等,无法覆盖真实的使用场景,并且降噪技术会使人声信号不可避免地产生有损失,影响后续特征处理。最终需要输出的是一个近似纯净的语音信号,噪声特征被完全消去,如果利用这种输出信号进行后续语音识别操作,会存在有效特征的丢失问题。
技术实现思路
本专利技术实施例提供一种具有自适应降噪能力的语音识别方法及装置,能够覆盖不同使用场景实现主动降噪并完成后续语音识别等功能。第一方面,本专利技术实施例提供一种具有自适应降噪能力的语音识别方法,包括:获取语音采集设备采集的语音信号;对所述语音信号进行处理,得到语音特征向量矩阵;将所述语音特征向量矩阵输入到训练好的级联卷积神经网络中进行降噪和语音识别,得到所述语音信号对应的识别结果;其中,所述训练好的级联卷积神经网络是对包含有噪声的语音信号的训练集进行训练得到的。上述技术方案中,通过部署级联的卷积神经网络,无需添加额外的降噪模块,即可实现降噪和语音识别功能,且由于降噪和识别操作均位于同一个神经网络内,不再是独立的两个过程,互相具有监督作用,在识别分类过程中,神经网络依然能学习到降噪过程中分离得到的噪声信号特征。此外,整个降噪识别过程都是在高纬度空间下实现的,相比现有技术的方案,没有中间维度变换带来的信息损失。通过这种方式使有效特征不会丢失,同时信号处理的实时性更高,语音识别系统对噪声有更强的鲁棒性,噪声情况下的识别率会有明显提升。可选的,所述对所述语音信号进行处理,得到语音特征向量矩阵,包括:对所述语音信号进行分帧、傅里叶变换、预加重和FBANK特征提取,得到包含噪声的语音特征向量矩阵。可选的,所述将所述语音特征向量矩阵输入到训练好的级联卷积神经网络中进行降噪和语音识别,得到所述语音信号对应的识别结果,包括:将所述语音特征向量矩阵输入到所述级联卷积神经网络中的第一级卷积神经网络中进行分类,得到所述语音特征向量矩阵对应的特征矩阵和噪声分类系数矩阵;将所述语音特征向量矩阵对应的特征矩阵和噪声分类系数矩阵输入到所述级联卷积神经网络中的第二级卷积神经网络中进行语音识别,得到所述语音信号对应的识别结果。可选的,所述将所述语音特征向量矩阵输入到所述级联卷积神经网络中的第一级卷积神经网络中进行分类,得到所述语音特征向量矩阵对应的特征矩阵和噪声分类系数矩阵,包括:将所述语音特征向量矩阵输入到所述第一级卷积神经网络中,使用不同尺寸的卷积核进行一维卷积得到高维特征矩阵;将所述高维特征矩阵利用全连接层根据噪声分类标准进行分类,得到分类结果;若所述分类结果为噪声,则确定出所述噪声的类别,根据所述噪声的类别和预设的各类别的噪声分类系数矩阵,确定出所述语音特征向量矩阵对应的噪声分类系数矩阵;将所述分类结果与所述语音特征向量矩阵对应的噪声分类系数矩阵进行运算,得到所述语音特征向量矩阵对应的特征矩阵。可选的,所述将所述语音特征向量矩阵对应的特征矩阵和噪声分类系数矩阵输入到所述级联卷积神经网络中的第二级卷积神经网络中进行语音识别,得到所述语音信号对应的识别结果,包括:将所述语音特征向量矩阵对应的特征矩阵和噪声分类系数矩阵输入到所述第二级卷积神经网络中,得到所述语音特征向量矩阵对应的音频概率;所述第二级卷积神经网络为包含注意力机制的卷积神经网络;使用解码图对所述音频概率对应的音频进行解码得到所述语音信号对应的识别结果。可选的,所述第一级卷积神经网络和所述第二级卷积神经网络包含有残差模块。可选的,所述语音采集设备为双麦克风或麦克风阵列。第二方面,本专利技术实施例提供一种具有自适应降噪能力的语音识别装置,包括:获取单元,用于获取语音采集设备采集的语音信号;处理单元,用于对所述语音信号进行处理,得到语音特征向量矩阵;将所述语音特征向量矩阵输入到训练好的级联卷积神经网络中进行降噪和语音识别,得到所述语音信号对应的识别结果;其中,所述训练好的级联卷积神经网络是对包含有噪声的语音信号的训练集进行训练得到的。可选的,所述处理单元具体用于:对所述语音信号进行分帧、傅里叶变换、预加重和FBANK特征提取,得到包含噪声的语音特征向量矩阵。可选的,所述处理单元具体用于:将所述语音特征向量矩阵输入到所述级联卷积神经网络中的第一级卷积神经网络中进行分类,得到所述语音特征向量矩阵对应的特征矩阵和噪声分类系数矩阵;将所述语音特征向量矩阵对应的特征矩阵和噪声分类系数矩阵输入到所述级联卷积神经网络中的第二级卷积神经网络中进行语音识别,得到所述语音信号对应的识别结果。可选的,所述处理单元具体用于:将所述语音特征向量矩阵输入到所述第一级卷积神经网络中,使用不同尺寸的卷积核进行一维卷积得到高维特征矩阵;将所述高维特征矩阵利用全连接层根据噪声分类标准进行分类,得到分本文档来自技高网
...

【技术保护点】
1.一种具有自适应降噪能力的语音识别方法,其特征在于,包括:/n获取语音采集设备采集的语音信号;/n对所述语音信号进行处理,得到语音特征向量矩阵;/n将所述语音特征向量矩阵输入到训练好的级联卷积神经网络中进行降噪和语音识别,得到所述语音信号对应的识别结果;/n其中,所述训练好的级联卷积神经网络是对包含有噪声的语音信号的训练集进行训练得到的。/n

【技术特征摘要】
1.一种具有自适应降噪能力的语音识别方法,其特征在于,包括:
获取语音采集设备采集的语音信号;
对所述语音信号进行处理,得到语音特征向量矩阵;
将所述语音特征向量矩阵输入到训练好的级联卷积神经网络中进行降噪和语音识别,得到所述语音信号对应的识别结果;
其中,所述训练好的级联卷积神经网络是对包含有噪声的语音信号的训练集进行训练得到的。


2.如权利要求1所述的方法,其特征在于,所述对所述语音信号进行处理,得到语音特征向量矩阵,包括:
对所述语音信号进行分帧、傅里叶变换、预加重和FBANK特征提取,得到包含噪声的语音特征向量矩阵。


3.如权利要求1所述的方法,其特征在于,所述将所述语音特征向量矩阵输入到训练好的级联卷积神经网络中进行降噪和语音识别,得到所述语音信号对应的识别结果,包括:
将所述语音特征向量矩阵输入到所述级联卷积神经网络中的第一级卷积神经网络中进行分类,得到所述语音特征向量矩阵对应的特征矩阵和噪声分类系数矩阵;
将所述语音特征向量矩阵对应的特征矩阵和噪声分类系数矩阵输入到所述级联卷积神经网络中的第二级卷积神经网络中进行语音识别,得到所述语音信号对应的识别结果。


4.如权利要求3所述的方法,其特征在于,所述将所述语音特征向量矩阵输入到所述级联卷积神经网络中的第一级卷积神经网络中进行分类,得到所述语音特征向量矩阵对应的特征矩阵和噪声分类系数矩阵,包括:
将所述语音特征向量矩阵输入到所述第一级卷积神经网络中,使用不同尺寸的卷积核进行一维卷积得到高维特征矩阵;
将所述高维特征矩阵利用全连接层根据噪声分类标准进行分类,得到分类结果;
若所述分类结果为噪声,则确定出所述噪声的类别,根据所述噪声的类别和预设的各类别的噪声分类系数矩阵,确定出所述语音特征向量矩阵对应的噪声分类系数矩...

【专利技术属性】
技术研发人员:杨韬育徐涛牟杰
申请(专利权)人:上海顺久电子科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1