远场语音声学模型训练方法及系统技术方案

技术编号：17251445 阅读：50 留言：0更新日期：2018-02-11 10:23

本申请提供一种远场语音声学模型训练方法及系统，所述方法包括：将近场语音训练数据与远场语音训练数据进行混合，生成混合语音训练数据，其中所述远场语音训练数据是对近场语音训练数据进行数据增强处理得到的；使用所述混合语音训练数据训练深度神经网络，生成远场识别声学模型。能够避免现有技术中录制远场语音数据需要花费大量的时间成本和经济成本的问题；既减少了获取远场语音数据的时间和经济成本，又改善了远场语音识别效果。

全部详细技术资料下载

【技术实现步骤摘要】
远场语音声学模型训练方法及系统
本申请涉及人工智能领域，尤其涉及一种远场语音声学模型训练方法及系统。
技术介绍
人工智能(ArtificialIntelligence；AI)，是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。随着人工智能的不断发展，语音交互作为最自然的交互方式日益推广，人们对于语音识别服务的需求越来越多，智能音箱，智能电视，智能冰箱，越来越多的智能产品出现在了大众消费品市场。这一批智能设备的登场将语音识别服务从进场逐渐迁移到了远场。目前，近场语音识别已经能够达到很高的识别率，但是远场语音识别，尤其是说话人距离麦克风3至5米的距离，由于噪声和/或混响等干扰因素的影响，识别率远远低于近场语音识别。远场识别性能之所以下降如此明显，是由于在远场场景下，语音信号幅度过低，噪声和/或混响等其他干扰因素凸显，而目前语音识别系统中的声学模...
远场语音声学模型训练方法及系统

【技术保护点】
一种远场语音声学模型训练方法，其特征在于，包括：将近场语音训练数据与远场语音训练数据进行混合，生成混合语音训练数据，其中所述远场语音训练数据是对近场语音训练数据进行数据增强处理得到的；使用所述混合语音训练数据训练深度神经网络，生成远场识别声学模型。

【技术特征摘要】
1.一种远场语音声学模型训练方法，其特征在于，包括：将近场语音训练数据与远场语音训练数据进行混合，生成混合语音训练数据，其中所述远场语音训练数据是对近场语音训练数据进行数据增强处理得到的；使用所述混合语音训练数据训练深度神经网络，生成远场识别声学模型。2.根据权利要求1所述的方法，其特征在于，所述对近场语音训练数据进行数据增强处理包括：估计远场环境下的冲激响应函数；利用所述冲激响应函数，对近场语音训练数据进行滤波处理；对滤波处理后得到的数据进行加噪处理，得到远场语音训练数据。3.根据权利要求2所述的方法，其特征在于，所述估计远场环境下的冲激响应函数包括：采集远场环境下的多路冲激响应函数；将所述多路冲激响应函数进行合并，得到所述远场环境下的冲激响应函数。4.根据权利要求2所述的方法，其特征在于，所述对滤波处理后得到的数据进行加噪处理包括：选取噪声数据；利用信噪比SNR分布函数，在所述滤波处理后得到的数据中叠加所述噪声数据。5.根据权利要求1所述的方法，其特征在于，所述将近场语音训练数据与远场语音训练数据进行混合，生成混合语音训练数据包括：对近场语音训练数据进行切分，得到N份近场语音训练数据，所述N为正整数；将远场语音训练数据分别与N份近场语音训练数据进行混合，得到N份混合语音训练数据，每一份混合语音训练数据分别用于所述训练深度神经网络过程中的一次迭代。6.根据权利要求1所述的方法，其特征在于，所述利用所述混合语音训练数据训练深度神经网络，生成远场识别声学模型包括：对所述混合语音训练数据进行预处理和特征提取，获取语音特征向量；将语音特征向量作为深度神经网络的输入，语音训练数据中的语音标识作为深度神经网络的输出，训练得到远场识别声学模型。7.一种远场语音声学模型训练系统，其特征在于，包括：混合语音训练数据生成单元，用于将近场语音训练数据与远场语音训练数据进行混合，生成混合语音训练数据，其中所述远场语音训练数据是对近...

【专利技术属性】
技术研发人员：李超，孙建伟，李先刚，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人