远场语音识别处理方法及装置制造方法及图纸

技术编号：14405482 阅读：270 留言：0更新日期：2017-01-11 17:08

本发明专利技术公开了一种远场语音识别处理方法及装置，该方法包括：接收远场语音；将所述远场语音输入到预先训练得出的基于神经网络的语音训练模型中；通过所述语音训练模型中包含的远场语音和近场语音的音频特征，对接收到的远场语音的音频特征进行去干扰处理，得到处理后的远场语音；对处理后的远场语音进行识别。该方法能够实现对远场语音的优化处理，获取到较佳的处理结果且降低了设备成本投入。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音处理
，特别涉及一种基于神经网络模型的远场语音识别处理方法及装置。
技术介绍
语音是日常生活中携带信息的常用方式，随着语音技术的发展，也出现了越来越多的语音识别系统来进行语音识别，根据语音来源距离的不同，可以有远场语音和近场语音的分别，在进行语音识别时，针对不同的语音，可以采用不同的处理策略，来进行语音处理，以便获取到的清晰可识别的语音信息。尤其是远场语音，由于其传输距离较长，其语音中可能就会包含了更多的干扰，为了降低这些干扰的影响，一般需要进行去噪、去回声等处理。现有技术中，一般是通过麦克风阵列来实现对远场语音的去噪、去回声处理的，这种方式必须布置麦克风阵列，对于不方便布置麦克风阵列的场合来说并不适用。此外，这种方式其实现去噪的困难和复杂程度依赖于麦克风的数目，一般而言，麦克风数目越大，去噪相对来说越容易，当麦克风数量不够时，去噪的效果也会大打折扣。因此，现有麦克风阵列去噪的实现方式，不仅需要足够的麦克风数量，增加了设备成本，而且对远场语音进行去噪处理的效果并不是很好，不能获取到较佳的语音处理结果。
技术实现思路
本专利技术提供一种远场语音识别处理方法及装置，用以解决现有技术中存在的远场语音去噪处理时，设备成本投入高，去噪处理效果不佳的问题，能够在不增加设备投入的情况下，获取到较佳的远场语音处理结果。本专利技术实施例提供一种远场语音识别处理方法，包括：接收远场语音；将所述远场语音输入到预先训练得出的基于神经网络的语音训练模型中；通过所述语音训练模型中包含的远场语音和近场语音的音频特征，对接收到的远场语音的音频特征进行去干扰处理，得到...
远场语音识别处理方法及装置

【技术保护点】
一种远场语音识别处理方法，其特征在于，包括：接收远场语音；将所述远场语音输入到预先训练得出的基于神经网络的语音训练模型中；通过所述语音训练模型中包含的远场语音和近场语音的音频特征，对接收到的远场语音的音频特征进行去干扰处理，得到处理后的远场语音；对处理后的远场语音进行识别。

【技术特征摘要】
1.一种远场语音识别处理方法，其特征在于，包括：接收远场语音；将所述远场语音输入到预先训练得出的基于神经网络的语音训练模型中；通过所述语音训练模型中包含的远场语音和近场语音的音频特征，对接收到的远场语音的音频特征进行去干扰处理，得到处理后的远场语音；对处理后的远场语音进行识别。2.如权利要求1所述的方法，其特征在于，基于神经网络的语音训练模型的训练过程，包括：录入近场语音，从录入的近场语音中获取近场音频特征；在近场语音中加入远场语音的环境声音，得到模拟远场语音；将近场语音和模拟远场语音加入神经网络中进行训练，得到基于神经网络的语音训练模型。3.如权利要求2所述的方法，其特征在于，将近场语音和模拟远场语音加入神经网络中进行训练时，采用中低层网络特定训练的目标函数进行语音模型训练，具体包括：采用如下公式最小化整个数据库的重建向量和纯净向量的平方误差损失：U是训练事件的总数量；zi是第i个重建特征向量；xi是对应的纯净特征向量。4.如权利要求2或3所述的方法，其特征在于，还包括：将基于神经网络的语音训练模型与声学模型相融合，得到融合后语音训练模型；相应的，接收到远场语音时，将所述远场语音输入到融合后语音训练模型中。5.如权利要4所述的方法，其特征在于，对处理后的远场语音进行识别，具体包括：将处理后的远场语音输入到声学模型中进行识别；或通过融合后语音训练模型直接对处理后的远场语音进行识别。6.一种远场语音识别处理装置，其特征在于，...

【专利技术属性】
技术研发人员：江巍，关海欣，苏牧，张军，
申请(专利权)人：北京云知声信息技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人