远场语音识别处理方法及装置制造方法及图纸

技术编号:14405482 阅读:270 留言:0更新日期:2017-01-11 17:08
本发明专利技术公开了一种远场语音识别处理方法及装置,该方法包括:接收远场语音;将所述远场语音输入到预先训练得出的基于神经网络的语音训练模型中;通过所述语音训练模型中包含的远场语音和近场语音的音频特征,对接收到的远场语音的音频特征进行去干扰处理,得到处理后的远场语音;对处理后的远场语音进行识别。该方法能够实现对远场语音的优化处理,获取到较佳的处理结果且降低了设备成本投入。

【技术实现步骤摘要】

本专利技术涉及语音处理
,特别涉及一种基于神经网络模型的远场语音识别处理方法及装置
技术介绍
语音是日常生活中携带信息的常用方式,随着语音技术的发展,也出现了越来越多的语音识别系统来进行语音识别,根据语音来源距离的不同,可以有远场语音和近场语音的分别,在进行语音识别时,针对不同的语音,可以采用不同的处理策略,来进行语音处理,以便获取到的清晰可识别的语音信息。尤其是远场语音,由于其传输距离较长,其语音中可能就会包含了更多的干扰,为了降低这些干扰的影响,一般需要进行去噪、去回声等处理。现有技术中,一般是通过麦克风阵列来实现对远场语音的去噪、去回声处理的,这种方式必须布置麦克风阵列,对于不方便布置麦克风阵列的场合来说并不适用。此外,这种方式其实现去噪的困难和复杂程度依赖于麦克风的数目,一般而言,麦克风数目越大,去噪相对来说越容易,当麦克风数量不够时,去噪的效果也会大打折扣。因此,现有麦克风阵列去噪的实现方式,不仅需要足够的麦克风数量,增加了设备成本,而且对远场语音进行去噪处理的效果并不是很好,不能获取到较佳的语音处理结果。
技术实现思路
本专利技术提供一种远场语音识别处理方法及装置,用以解决现有技术中存在的远场语音去噪处理时,设备成本投入高,去噪处理效果不佳的问题,能够在不增加设备投入的情况下,获取到较佳的远场语音处理结果。本专利技术实施例提供一种远场语音识别处理方法,包括:接收远场语音;将所述远场语音输入到预先训练得出的基于神经网络的语音训练模型中;通过所述语音训练模型中包含的远场语音和近场语音的音频特征,对接收到的远场语音的音频特征进行去干扰处理,得到处理后的远场语音;对处理后的远场语音进行识别。在一些可选的实施例中,基于神经网络的语音训练模型的训练过程,包括:录入近场语音,从录入的近场语音中获取近场音频特征;在近场语音中加入远场语音的环境声音,得到模拟远场语音;将近场语音和模拟远场语音加入神经网络中进行训练,得到基于神经网络的语音训练模型。在一些可选的实施例中,将近场语音和模拟远场语音加入神经网络中进行训练时,采用中低层网络特定训练的目标函数进行语音模型训练,具体包括:采用如下公式最小化整个数据库的重建向量和纯净向量的平方误差损失:U是训练事件的总数量;zi是第i个重建特征向量;xi是对应的纯净特征向量。在一些可选的实施例中,上述方法还包括:将基于神经网络的语音训练模型与声学模型相融合,得到融合后语音训练模型;相应的,接收到远场语音时,将所述远场语音输入到融合后语音训练模型中。在一些可选的实施例中,对处理后的远场语音进行识别,具体包括:将处理后的远场语音输入到声学模型中进行识别;或通过融合后语音训练模型直接对处理后的远场语音进行识别。本专利技术实施例还提供一种远场语音识别处理装置,包括:接收模块,用于接收远场语音;输入模块,用于将所述远场语音输入到预先训练得出的基于神经网络的语音训练模型中;处理模块,用于通过所述语音训练模型中包含的远场语音和近场语音的音频特征,对接收到的远场语音的音频特征进行去干扰处理,得到处理后的远场语音;识别模块,用于对处理后的远场语音进行识别。在一些可选的实施例中,上述装置还包括:训练模块,用于录入近场语音,从录入的近场语音中获取近场音频特征;在近场语音中加入远场语音的环境声音,得到模拟远场语音;将近场语音和模拟远场语音加入神经网络中进行训练,得到基于神经网络的语音训练模型。在一些可选的实施例中,所述训练模块,具体用于:将近场语音和模拟远场语音加入神经网络中进行训练时,采用中低层网络特定训练的目标函数进行语音模型训练,具体包括:采用如下公式最小化整个数据库的重建向量和纯净向量的平方误差损失:U是训练事件的总数量;zi是第i个重建特征向量;xi是对应的纯净特征向量。在一些可选的实施例中,所述训练模块,还用于:将基于神经网络的语音训练模型与声学模型相融合,得到融合后语音训练模型;相应的,所述输入模块,具体用于接收到远场语音时,将所述远场语音输入到融合后语音训练模型中。在一些可选的实施例中,所述识别模块,具体用于:将处理后的远场语音输入到声学模型中进行识别;或通过融合后语音训练模型直接对处理后的远场语音进行识别。本专利技术实施例提供的远场语音识别处理方法及装置,接收远场语音时,将远场语音输入到预先训练得出的基于神经网络的语音训练模型中,通过语音训练模型中包含的远场语音和近场语音的音频特征,对接收到的远场语音的音频特征进行去干扰处理,得到处理后的远场语音并进行识别,从而能够以较低的设备成本投入,实现较佳的去噪处理效果,能够在不增加设备成本投入的情况下,获取较佳的远场语音处理效果,使得远程语音能够和近场语音的效果相同或相近,该方法实现简单方便,处理效果好。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1为本专利技术实施例一中远场语音识别处理方法的流程图;图2为本专利技术实施例二中语音训练模型的训练过程示意图;图3为本专利技术实施例二中语音训练模型训练原理示意图;图4为本专利技术实施例三中远场语音识别处理方法的流程图;图5为本专利技术实施例四中远场语音识别处理方法的流程图;图6为本专利技术实施例中远场语音识别处理装置的框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。为了解决现有技术中存在的远场语音去噪处理时,设备成本投入高,去噪处理效果不佳的问题,本专利技术实施例提供一种远场语音识别处理方法,通过神经网络模型进行学习,基于学习结果对接收到的远场语音进行处理,无需布置麦克风阵列,不用增加设备成本,即可实现对远场语音的优化处理,并获取到较佳的处理结果。实施例一本专利技术实施例一提供一种远场语音识别处理方法,其流程如图1所示,包括如下步骤:步骤S101:接收远场语音。用于远场语音处理的设备,通过设置的接收模块,接收远场语音,并进行后续的去混响、去噪处理,以获取质量较佳的语音。步骤S102:将接收到的远场语音输入到预先训练得出的基于神经网络的语音训练模型中。接收到远场语音后,将远场语音输入到语音训练模型中进行去混响、去噪处理,其中语音训练模型可以选用预先训练好的基于神经网络(DeepNeuralNetwork,DNN)的语音训练本文档来自技高网...
远场语音识别处理方法及装置

【技术保护点】
一种远场语音识别处理方法,其特征在于,包括:接收远场语音;将所述远场语音输入到预先训练得出的基于神经网络的语音训练模型中;通过所述语音训练模型中包含的远场语音和近场语音的音频特征,对接收到的远场语音的音频特征进行去干扰处理,得到处理后的远场语音;对处理后的远场语音进行识别。

【技术特征摘要】
1.一种远场语音识别处理方法,其特征在于,包括:接收远场语音;将所述远场语音输入到预先训练得出的基于神经网络的语音训练模型中;通过所述语音训练模型中包含的远场语音和近场语音的音频特征,对接收到的远场语音的音频特征进行去干扰处理,得到处理后的远场语音;对处理后的远场语音进行识别。2.如权利要求1所述的方法,其特征在于,基于神经网络的语音训练模型的训练过程,包括:录入近场语音,从录入的近场语音中获取近场音频特征;在近场语音中加入远场语音的环境声音,得到模拟远场语音;将近场语音和模拟远场语音加入神经网络中进行训练,得到基于神经网络的语音训练模型。3.如权利要求2所述的方法,其特征在于,将近场语音和模拟远场语音加入神经网络中进行训练时,采用中低层网络特定训练的目标函数进行语音模型训练,具体包括:采用如下公式最小化整个数据库的重建向量和纯净向量的平方误差损失:U是训练事件的总数量;zi是第i个重建特征向量;xi是对应的纯净特征向量。4.如权利要求2或3所述的方法,其特征在于,还包括:将基于神经网络的语音训练模型与声学模型相融合,得到融合后语音训练模型;相应的,接收到远场语音时,将所述远场语音输入到融合后语音训练模型中。5.如权利要4所述的方法,其特征在于,对处理后的远场语音进行识别,具体包括:将处理后的远场语音输入到声学模型中进行识别;或通过融合后语音训练模型直接对处理后的远场语音进行识别。6.一种远场语音识别处理装置,其特征在于,...

【专利技术属性】
技术研发人员:江巍关海欣苏牧张军
申请(专利权)人:北京云知声信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1