远场语音声学模型训练方法及系统技术方案

技术编号:17251445 阅读:39 留言:0更新日期:2018-02-11 10:23
本申请提供一种远场语音声学模型训练方法及系统,所述方法包括:将近场语音训练数据与远场语音训练数据进行混合,生成混合语音训练数据,其中所述远场语音训练数据是对近场语音训练数据进行数据增强处理得到的;使用所述混合语音训练数据训练深度神经网络,生成远场识别声学模型。能够避免现有技术中录制远场语音数据需要花费大量的时间成本和经济成本的问题;既减少了获取远场语音数据的时间和经济成本,又改善了远场语音识别效果。

【技术实现步骤摘要】
远场语音声学模型训练方法及系统
本申请涉及人工智能领域,尤其涉及一种远场语音声学模型训练方法及系统。
技术介绍
人工智能(ArtificialIntelligence;AI),是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。随着人工智能的不断发展,语音交互作为最自然的交互方式日益推广,人们对于语音识别服务的需求越来越多,智能音箱,智能电视,智能冰箱,越来越多的智能产品出现在了大众消费品市场。这一批智能设备的登场将语音识别服务从进场逐渐迁移到了远场。目前,近场语音识别已经能够达到很高的识别率,但是远场语音识别,尤其是说话人距离麦克风3至5米的距离,由于噪声和/或混响等干扰因素的影响,识别率远远低于近场语音识别。远场识别性能之所以下降如此明显,是由于在远场场景下,语音信号幅度过低,噪声和/或混响等其他干扰因素凸显,而目前语音识别系统中的声学模型通常是由近场语音数据训练生成,识别数据和训练数据的不匹配导致远场语音识别率迅速下降。因此,远场语音识别算法研究面临的第一个问题就是如何获得大量的数据。现在主要采用录制数据的方法来获得远场的数据。为了开发语音识别服务,往往需要在不同的房间不同的环境里耗费大量的时间和人力录制大量的数据,才能保证算法的性能,而这需要花费大量的时间成本和经济成本,并浪费了大量的近场训练数据。
技术实现思路
本申请的多个方面提供一种远场语音声学模型训练方法及系统,用以减少获取远场语音数据的时间和经济成本,改善远场语音识别效果。本申请的一方面,提供一种远场语音声学模型训练方法,其特征在于,包括:将近场语音训练数据与远场语音训练数据进行混合,生成混合语音训练数据,其中所述远场语音训练数据是对近场语音训练数据进行数据增强处理得到的;使用所述混合语音训练数据训练深度神经网络,生成远场识别声学模型。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述对近场语音训练数据进行数据增强处理包括:估计远场环境下的冲激响应函数;利用所述冲激响应函数,对近场语音训练数据进行滤波处理;对滤波处理后得到的数据进行加噪处理,得到远场语音训练数据。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述对滤波处理后得到的数据进行加噪处理包括:选取噪声数据;利用信噪比SNR分布函数,在所述滤波处理后得到的数据中叠加所述噪声数据。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述将近场语音训练数据与远场语音训练数据进行混合,生成混合语音训练数据包括:对近场语音训练数据进行切分,得到N份近场语音训练数据,所述N为正整数;将远场语音训练数据分别与N份近场语音训练数据进行混合,得到N份混合语音训练数据,每一份混合语音训练数据分别用于所述训练深度神经网络过程中的一次迭代。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述利用所述混合语音训练数据训练深度神经网络,生成远场识别声学模型包括:对所述混合语音训练数据进行预处理和特征提取,获取语音特征向量;将语音特征向量作为深度神经网络的输入,语音训练数据中的语音标识作为深度神经网络的输出,训练得到远场识别声学模型。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,通过不断迭代调整所述深度神经网络的参数,每次迭代中,将加噪远场语音训练数据与切分后的近场语音训练数据进行混合并打散,训练深度神经网络。本申请的另一方面,提供一种远场语音声学模型训练系统,其特征在于,包括:混合语音训练数据生成单元,用于将近场语音训练数据与远场语音训练数据进行混合,生成混合语音训练数据,其中所述远场语音训练数据是对近场语音训练数据进行数据增强处理得到的;训练单元,用于使用所述混合语音训练数据训练深度神经网络,生成远场识别声学模型。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述系统还包括数据增强单元,用于对所述对近场语音训练数据进行数据增强处理:估计远场环境下的冲激响应函数;利用所述冲激响应函数,对近场语音训练数据进行滤波处理;对滤波处理后得到的数据进行加噪处理,得到远场语音训练数据。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述数据增强党员在估计远场环境下的冲激响应函数时,具体执行:采集远场环境下的多路冲激响应函数;将所述多路冲激响应函数进行合并,得到所述远场环境下的冲激响应函数。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述数据增强单元在对滤波处理后得到的数据进行加噪处理时,具体执行:选取噪声数据;利用信噪比SNR分布函数,在所述滤波处理后得到的数据中叠加所述噪声数据。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述混合语音训练数据生成单元具体用于:对近场语音训练数据进行切分,得到N份近场语音训练数据,所述N为正整数;将远场语音训练数据分别与N份近场语音训练数据进行混合,得到N份混合语音训练数据,每一份混合语音训练数据分别用于所述训练深度神经网络过程中的一次迭代。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述训练单元具体用于:对所述混合语音训练数据进行预处理和特征提取,获取语音特征向量;将语音特征向量作为深度神经网络的输入,语音训练数据中的语音标识作为深度神经网络的输出,训练得到远场识别声学模型。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述训练子单元具体用于,通过不断迭代调整所述深度神经网络的参数,每次迭代中,将加噪远场语音训练数据与切分后的近场语音训练数据进行混合并打散,训练深度神经网络。本申请的另一方面,提供一种设备,其特征在于,所述设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现任一上述的方法。本申请的另一方面,提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现任一上述的方法。由所述技术方案可知,采用本实施例提供的技术方案,能够避免现有技术中获取远场语音数据需要花费大量的时间成本和经济成本的问题;减少获取远场语音数据的时间,降低成本。【附图说明】为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请一实施例提供的远场语音声学模型训练方法的流程示意图;图2为本申请一实施例提供的远场语音声学模型训练方法中对近场语音训练数据进行数据增强处理的流程示意图;图3为本申请一实施例提供的远场语音声学模型训练方法中使用近场语音训练数据对远场语音训练数据进行混合,生成混合语音训练数据的流程示意图;图4为本申请一实施例提供的远场语音声学模型训练方法中利用所述混合语音训练数据训练深度神经网络,生成远场识别本文档来自技高网...
远场语音声学模型训练方法及系统

【技术保护点】
一种远场语音声学模型训练方法,其特征在于,包括:将近场语音训练数据与远场语音训练数据进行混合,生成混合语音训练数据,其中所述远场语音训练数据是对近场语音训练数据进行数据增强处理得到的;使用所述混合语音训练数据训练深度神经网络,生成远场识别声学模型。

【技术特征摘要】
1.一种远场语音声学模型训练方法,其特征在于,包括:将近场语音训练数据与远场语音训练数据进行混合,生成混合语音训练数据,其中所述远场语音训练数据是对近场语音训练数据进行数据增强处理得到的;使用所述混合语音训练数据训练深度神经网络,生成远场识别声学模型。2.根据权利要求1所述的方法,其特征在于,所述对近场语音训练数据进行数据增强处理包括:估计远场环境下的冲激响应函数;利用所述冲激响应函数,对近场语音训练数据进行滤波处理;对滤波处理后得到的数据进行加噪处理,得到远场语音训练数据。3.根据权利要求2所述的方法,其特征在于,所述估计远场环境下的冲激响应函数包括:采集远场环境下的多路冲激响应函数;将所述多路冲激响应函数进行合并,得到所述远场环境下的冲激响应函数。4.根据权利要求2所述的方法,其特征在于,所述对滤波处理后得到的数据进行加噪处理包括:选取噪声数据;利用信噪比SNR分布函数,在所述滤波处理后得到的数据中叠加所述噪声数据。5.根据权利要求1所述的方法,其特征在于,所述将近场语音训练数据与远场语音训练数据进行混合,生成混合语音训练数据包括:对近场语音训练数据进行切分,得到N份近场语音训练数据,所述N为正整数;将远场语音训练数据分别与N份近场语音训练数据进行混合,得到N份混合语音训练数据,每一份混合语音训练数据分别用于所述训练深度神经网络过程中的一次迭代。6.根据权利要求1所述的方法,其特征在于,所述利用所述混合语音训练数据训练深度神经网络,生成远场识别声学模型包括:对所述混合语音训练数据进行预处理和特征提取,获取语音特征向量;将语音特征向量作为深度神经网络的输入,语音训练数据中的语音标识作为深度神经网络的输出,训练得到远场识别声学模型。7.一种远场语音声学模型训练系统,其特征在于,包括:混合语音训练数据生成单元,用于将近场语音训练数据与远场语音训练数据进行混合,生成混合语音训练数据,其中所述远场语音训练数据是对近...

【专利技术属性】
技术研发人员:李超孙建伟李先刚
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1