语音增强方法、模型训练方法、装置和计算机设备制造方法及图纸

技术编号：21973157 阅读：29 留言：0更新日期：2019-08-28 01:50

本申请涉及一种语音增强方法、模型训练方法、装置和计算机设备，所述方法包括：获取语音；从所述语音中提取语音特征；根据所述语音确定用于识别说话人声学身份的身份特征；将所述语音特征和所述身份特征拼接，得到拼接特征；通过说话人无关的语音增强模型处理所述拼接特征，获得经过语音增强的目标语音。本申请提供的方案可以避免传统方案中因SI模型不是由说话者本人的语音训练所得而使所得的语音质量差的问题，从而提高了进行语音增强后所得目标语音的质量。

Speech Enhancement Method, Model Training Method, Device and Computer Equipment

全部详细技术资料下载

【技术实现步骤摘要】
语音增强方法、模型训练方法、装置和计算机设备
本申请涉及语音处理
，特别是涉及一种语音增强方法、模型训练方法、装置和计算机设备。
技术介绍
语音增强(SpeechEnhancement)的本质是语音降噪，可以有效地抑制语音中的各种干扰噪声，从而提升语音的质量和可懂性。一般而言，麦克风所采集的语音通常是带有一定程度的噪声，通过语音增强的方式将带噪声的语音处理成不带噪声的语音。实现语音增强的方案有多种，其中常用的做法为：采集携带噪声的语音，将携带噪声的语音输入SI(speakerindependent，说话人无关)模型，从而获得经过语音增强的语音。然而，由于SI模型不是由说话者本人的语音训练所得，采用该SI模型对说话者的语音进行语音增强处理，使处理后所得的语音的质量差。
技术实现思路
基于此，有必要针对当使用SI模型对说话者的语音进行语音增强时，使处理后所得的语音的质量较差的技术问题，提供一种语音增强方法、模型训练方法、装置和计算机设备。一种语音增强方法，包括：获取语音；从所述语音中提取语音特征；根据所述语音确定用于识别说话人声学身份的身份特征；将所述语音特征和所述身份特征拼接，得到拼接特征；通过说话人无关的语音增强模型处理所述拼接特征，获得经过语音增强的目标语音。一种语音增强装置，包括：语音获取模块，用于获取语音；语音特征提取模块，用于从所述语音中提取语音特征；身份特征确定模块，用于根据所述语音确定用于识别说话人声学身份的身份特征；特征拼接模块，用于将所述语音特征和所述身份特征拼接，得到拼接特征；处理模块，用于通过说话人无关的语音增强模型处理所述拼接特征，...

【技术保护点】
1.一种语音增强方法，包括：获取语音；从所述语音中提取语音特征；根据所述语音确定用于识别说话人声学身份的身份特征；将所述语音特征和所述身份特征拼接，得到拼接特征；通过说话人无关的语音增强模型处理所述拼接特征，获得经过语音增强的目标语音。

【技术特征摘要】
1.一种语音增强方法，包括：获取语音；从所述语音中提取语音特征；根据所述语音确定用于识别说话人声学身份的身份特征；将所述语音特征和所述身份特征拼接，得到拼接特征；通过说话人无关的语音增强模型处理所述拼接特征，获得经过语音增强的目标语音。2.根据权利要求1所述的方法，其特征在于，所述语音增强模型，是根据训练拼接特征进行训练的；所述训练拼接特征，由噪声语音样本中提取的训练语音特征和无噪声语音样本中提取的训练身份特征拼接而成；所述噪声语音样本和所述无噪声语音样本对应相同说话人。3.根据权利要求1所述的方法，其特征在于，所述从所述语音中提取语音特征包括：对所述语音进行分帧和加窗处理；将处理后所得的各帧语音进行转换，获得所述各帧语音的频谱；根据所述各帧语音的频谱确定语音特征。4.根据权利要求3所述的方法，其特征在于，所述根据所述各帧语音的频谱确定语音特征包括：根据所述各帧语音的频谱确定功率谱；获得与所述功率谱对应的对数功率谱；将所述对数功率谱确定为语音特征，或将所述对数功率谱经过离散余弦变换所得的结果确定为语音特征。5.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取噪声语音样本和无噪声语音样本；所述噪声语音样本和无噪声语音样本对应相同说话人；从所述噪声语音样本中提取训练语音特征；在所述无噪声语音样本中提取训练参考语音特征和用于识别说话人声学身份的训练身份特征；拼接所述训练语音特征和所述训练身份特征，获得训练拼接特征；以所述训练拼接特征作为训练输入，以所述训练参考语音特征作为训练输出，训练所述语音增强模型。6.根据权利要求1至5任一项所述的方法，其特征在于，所述根据所述语音确定用于识别说话人声学身份的身份特征包括：通过身份特征提取模型处理所提取的语音特征，获得与说话人声学身份的身份特征对应的总体变换矩阵；根据所述总体变换矩阵，从所述语音中提取身份特征参数；对提取的身份特征参数降维，得到用于识别说话人声学身份的身份特征。7.根据权利要求6所述的方法，其特征在于，所述方法还包括：从获取的噪声语音样本中提取第三训练语音特征；将提取的第三训练语音特征输入身份特征提取模型，获得与说话人声学身份的身份特征对应的训练总体变换矩阵；根据所述训练总体变换矩阵，从所述语音中提取训练身份特征参数；根据所述训练身份特征参数与预设的目标身份特征参数之间的差异，调整所述身份特征提取模型，直至满足训练停止条件。8.根据权利要求1至5任一项所述的方法，其特征在于，所述通过说话人无关的语音增强模型处理所述拼接特征，获得经过语音增强的目标语音包括：对所述拼接特征进行归一化处理；通过说话人无关的语音增强模型，对归...

【专利技术属性】
技术研发人员：王燕南，甄广启，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人