语音增强方法、模型训练方法、装置和计算机设备制造方法及图纸

技术编号:21973157 阅读:29 留言:0更新日期:2019-08-28 01:50
本申请涉及一种语音增强方法、模型训练方法、装置和计算机设备,所述方法包括:获取语音;从所述语音中提取语音特征;根据所述语音确定用于识别说话人声学身份的身份特征;将所述语音特征和所述身份特征拼接,得到拼接特征;通过说话人无关的语音增强模型处理所述拼接特征,获得经过语音增强的目标语音。本申请提供的方案可以避免传统方案中因SI模型不是由说话者本人的语音训练所得而使所得的语音质量差的问题,从而提高了进行语音增强后所得目标语音的质量。

Speech Enhancement Method, Model Training Method, Device and Computer Equipment

【技术实现步骤摘要】
语音增强方法、模型训练方法、装置和计算机设备
本申请涉及语音处理
,特别是涉及一种语音增强方法、模型训练方法、装置和计算机设备。
技术介绍
语音增强(SpeechEnhancement)的本质是语音降噪,可以有效地抑制语音中的各种干扰噪声,从而提升语音的质量和可懂性。一般而言,麦克风所采集的语音通常是带有一定程度的噪声,通过语音增强的方式将带噪声的语音处理成不带噪声的语音。实现语音增强的方案有多种,其中常用的做法为:采集携带噪声的语音,将携带噪声的语音输入SI(speakerindependent,说话人无关)模型,从而获得经过语音增强的语音。然而,由于SI模型不是由说话者本人的语音训练所得,采用该SI模型对说话者的语音进行语音增强处理,使处理后所得的语音的质量差。
技术实现思路
基于此,有必要针对当使用SI模型对说话者的语音进行语音增强时,使处理后所得的语音的质量较差的技术问题,提供一种语音增强方法、模型训练方法、装置和计算机设备。一种语音增强方法,包括:获取语音;从所述语音中提取语音特征;根据所述语音确定用于识别说话人声学身份的身份特征;将所述语音特征和所述身份特征拼接,得到拼接特征;通过说话人无关的语音增强模型处理所述拼接特征,获得经过语音增强的目标语音。一种语音增强装置,包括:语音获取模块,用于获取语音;语音特征提取模块,用于从所述语音中提取语音特征;身份特征确定模块,用于根据所述语音确定用于识别说话人声学身份的身份特征;特征拼接模块,用于将所述语音特征和所述身份特征拼接,得到拼接特征;处理模块,用于通过说话人无关的语音增强模型处理所述拼接特征,获得经过语音增强的目标语音。一种存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述语音增强方法的步骤。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述语音增强方法的步骤。上述的语音增强方法、装置、存储介质和计算机设备中,从所采集的语音中提取并拼接语音特征和说话人声学身份特征,从而获得具有语音特征和说话人声学身份特征的拼接特征。由于拼接特征具有说话人声学身份的身份特征,说话人无关的语音增强模型处理拼接特征时,可预测出拼接特征中说话人声学身份的身份特征,从而可实现对语音中的噪声进行消除,得到经过语音增强的目标语音,避免了传统方案中因SI模型不是由说话者本人的语音训练所得而使所得的语音质量差的问题,从而提高了进行语音增强后所得目标语音的质量。一种模型训练方法,包括:获取噪声语音样本和无噪声语音样本;所述噪声语音样本和无噪声语音样本对应相同说话人;从所述噪声语音样本中提取训练语音特征;在所述无噪声语音样本中提取训练参考语音特征和用于识别说话人声学身份的训练身份特征;拼接所述训练语音特征和所述训练身份特征,获得训练拼接特征;以所述训练拼接特征作为训练输入,以所述训练参考语音特征作为训练输出,训练说话人无关的语音增强模型。一种模型训练装置,包括:样本获取模块,用于获取噪声语音样本和无噪声语音样本;所述噪声语音样本和无噪声语音样本对应相同说话人;训练特征提取模块,用于从所述噪声语音样本中提取训练语音特征;在所述无噪声语音样本中提取训练参考语音特征和用于识别说话人声学身份的训练身份特征;训练特征拼接模块,用于拼接所述训练语音特征和所述训练身份特征,获得训练拼接特征;训练模块,用于以所述训练拼接特征作为训练输入,以所述训练参考语音特征作为训练输出,训练说话人无关的语音增强模型。一种存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述模型训练方法的步骤。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述模型训练方法的步骤。上述的模型训练方法、装置、存储介质和计算机设备中,从噪声语音样本中提取训练语音特征,从无噪声语音样本提取训练参考语音特征和用于识别说话人声学身份的训练身份特征,进而获得拼接训练语音特征与训练身份特征而成的训练拼接特征。以训练拼接特征作为训练输入,以训练参考语音特征作为训练输出,训练说话人无关的语音增强模型,使训练出来的语音增强模型可预测出后续输入的拼接特征中说话人声学身份的身份特征,避免了传统方案中因SI模型不是由说话者本人的语音训练所得而使所得的语音质量差的问题,从而提高了进行语音增强后所得目标语音的质量。附图说明图1为一个实施例中语音增强方法的流程示意图;图2为一个实施例中将时域语音转换为频谱的示意图;图3为一个实施例中获取语音特征的流程示意图;图4为一个实施例中对拼接特征进行处理的示意图;图5为一个实施例中对语音处理,获得语音特征的步骤的流程示意图;图6为一个实施例中训练说话人无关的语音增强模型的步骤的流程示意图;图7为一个实施例中确定说话人声学身份的身份特征的步骤的流程示意图;图8为一个实施例中对拼接特征进行处理获得经过语音增强的目标语音的步骤的流程示意图;图9为一个实施例中通过双向LSTM模型处理带噪声语音信号获得经过语音增强的干净语音信号的示意图;图10为一个实施例中模型训练方法的流程示意图;图11为另一个实施例中语音增强方法的流程示意图;图12为一个实施例中语音增强装置的结构框图;图13为另一个实施例中语音增强装置的结构框图;图14为一个实施例中模型训练装置的结构框图;图15为一个实施例中计算机设备的结构框图;图16为另一个实施例中计算机设备的结构框图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。如图1所示,在一个实施例中,提供了一种语音增强方法。本实施例主要以该方法应用于终端来举例说明,其中,该终端可以是手机、电脑或智能机器人等。参照图1,该语音增强方法具体包括如下步骤:S102,获取语音。其中,所获取的语音可以携带有噪声。该语音可以是时域连续的语音,也可以是抽样后的离散化的语音。对于语音增强方法所应用的场景不同,获取到语音的方式也不同。因此,可以为以下两种场景对S102进行分析:场景1,语音通话场景。在一个实施例中,终端与远端设备建立通信连接后,接收来源于远端设备发送过来的语音,然后执行S104。其中,接收到的语音可携带有噪声,所携带的噪声可以是环境中的背景噪声、电子线路噪声和电源噪声等。例如,本地用户与远端用户进行语音通话,当本地用户的终端与远端用户的远端设备建立通信连接后,本地用户的终端可接收远端用户发出的语音。该语音可能携带背景噪声、电子线路噪声和电源噪声等场景2,人机交互或通过扬声器演讲的场景。为了使背景噪声不影响智能机器人对语音的识别,终端在识别语音之前对采集的语音进行语音增强处理。或者,为了不影响听众的视听效果,终端在通过扬声器播放语音之前对采集的语音进行语音增强处理。在一个实施例中,终端通过麦克风采集环境中语音,该语音携带有背景噪声,采集到语音后执行S104。S104,从语音中提取语音特征。其中,语音特征可以是关于语音的对数功率谱或梅尔频率倒谱系数。在一个实施例中,终端对所采本文档来自技高网...

【技术保护点】
1.一种语音增强方法,包括:获取语音;从所述语音中提取语音特征;根据所述语音确定用于识别说话人声学身份的身份特征;将所述语音特征和所述身份特征拼接,得到拼接特征;通过说话人无关的语音增强模型处理所述拼接特征,获得经过语音增强的目标语音。

【技术特征摘要】
1.一种语音增强方法,包括:获取语音;从所述语音中提取语音特征;根据所述语音确定用于识别说话人声学身份的身份特征;将所述语音特征和所述身份特征拼接,得到拼接特征;通过说话人无关的语音增强模型处理所述拼接特征,获得经过语音增强的目标语音。2.根据权利要求1所述的方法,其特征在于,所述语音增强模型,是根据训练拼接特征进行训练的;所述训练拼接特征,由噪声语音样本中提取的训练语音特征和无噪声语音样本中提取的训练身份特征拼接而成;所述噪声语音样本和所述无噪声语音样本对应相同说话人。3.根据权利要求1所述的方法,其特征在于,所述从所述语音中提取语音特征包括:对所述语音进行分帧和加窗处理;将处理后所得的各帧语音进行转换,获得所述各帧语音的频谱;根据所述各帧语音的频谱确定语音特征。4.根据权利要求3所述的方法,其特征在于,所述根据所述各帧语音的频谱确定语音特征包括:根据所述各帧语音的频谱确定功率谱;获得与所述功率谱对应的对数功率谱;将所述对数功率谱确定为语音特征,或将所述对数功率谱经过离散余弦变换所得的结果确定为语音特征。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取噪声语音样本和无噪声语音样本;所述噪声语音样本和无噪声语音样本对应相同说话人;从所述噪声语音样本中提取训练语音特征;在所述无噪声语音样本中提取训练参考语音特征和用于识别说话人声学身份的训练身份特征;拼接所述训练语音特征和所述训练身份特征,获得训练拼接特征;以所述训练拼接特征作为训练输入,以所述训练参考语音特征作为训练输出,训练所述语音增强模型。6.根据权利要求1至5任一项所述的方法,其特征在于,所述根据所述语音确定用于识别说话人声学身份的身份特征包括:通过身份特征提取模型处理所提取的语音特征,获得与说话人声学身份的身份特征对应的总体变换矩阵;根据所述总体变换矩阵,从所述语音中提取身份特征参数;对提取的身份特征参数降维,得到用于识别说话人声学身份的身份特征。7.根据权利要求6所述的方法,其特征在于,所述方法还包括:从获取的噪声语音样本中提取第三训练语音特征;将提取的第三训练语音特征输入身份特征提取模型,获得与说话人声学身份的身份特征对应的训练总体变换矩阵;根据所述训练总体变换矩阵,从所述语音中提取训练身份特征参数;根据所述训练身份特征参数与预设的目标身份特征参数之间的差异,调整所述身份特征提取模型,直至满足训练停止条件。8.根据权利要求1至5任一项所述的方法,其特征在于,所述通过说话人无关的语音增强模型处理所述拼接特征,获得经过语音增强的目标语音包括:对所述拼接特征进行归一化处理;通过说话人无关的语音增强模型,对归...

【专利技术属性】
技术研发人员:王燕南甄广启
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1