一种语音增强方法、系统及智能设备技术方案

技术编号:34125868 阅读:26 留言:0更新日期:2022-07-14 14:11
本发明专利技术公开了一种语音增强方法、系统及智能设备,方法包括:提取输入语音的特征信息并通过深度神经网络识别人员类别;根据人员类别选择非特定人语音增强模型或不同特定人的语音增强模型;将语音数据输入选择的语音增强模型得到增强的语音信息。本发明专利技术解决了如何针对某一个或多个特定使用者进行快速、高效语音增强的技术问题。强的技术问题。强的技术问题。

A speech enhancement method, system and intelligent device

【技术实现步骤摘要】
一种语音增强方法、系统及智能设备


[0001]本专利技术属于人工智能
,特别是涉及一种语音增强方法、系统及智能设备。

技术介绍

[0002]随着电商模式的不断发展,直播带货已成为最流行的网络营销方式。目前,直播的场景已经不仅仅局限于直播间,更多的是在室外场景下的户外直播。室外场景下,直播设备通常是手机、IPAD等便携式智能设备,在直播过程中不可避免地受到外界非稳态噪声的干扰,考虑到直播设备通常就是主播本人在使用,如何对主播的语音信息进行语音增强以降低外界非稳态噪声的干扰是亟待解决的问题。
[0003]随着机器学习和神经网络技术的快速发展,深度学习的有监督神经网络语音增强算法逐渐成为研究热点,深度神经网络(Deep Neural Networks,以下简称DNN)、CNN、RNN等语音增强模型已经逐渐取代了传统的语音增强算法。深度神经网络的语音增强技术主要是通过声学特征的提取和深度神经网络训练将语音从带噪信号中分离出来,实现语音增强。但是,特征提取和神经网络训练所需的处理资源较多,处理时间较长,而且并未考虑特定使用人的语音信息,针对某一个或多个特定使用者的语音增强效果较差。
[0004]目前还没有针对某一个或多个特定使用者进行快速、高效语音增强的技术,为此,提出一种语音增强方法、系统及智能设备。

技术实现思路

[0005]本专利技术为了解决上述问题,提出一种语音增强方法、系统及智能设备。本专利技术的一种语音增强方法,包括:
[0006]采用第一训练数据训练非特定人语音增强模型;
[0007]在非特定人语音增强模型基础上采用特定人训练数据训练特定人语音增强模型;
[0008]提取语音特征信息并通过深度神经网络识别人员类别;
[0009]将语音数据根据人员类别输入相应模型得到增强的语音信息。
[0010]优选地,所述采用第一训练数据训练非特定人语音增强模型,包括步骤:
[0011]将标准语音数据和噪声数据按预设信噪比混叠合成的语音信号作为模拟带噪语音;
[0012]采用标准语音数据库作为纯净语音,模拟带噪语音及其对应的纯净语音共同构成第一训练数据;
[0013]将模拟带噪语音作为对抗网络生成器G的输入数据,将纯净语音作为生成器G的目标输出,输入到生成对抗网络;
[0014]以对抗学习的方式训练得到的生成器G即为非特定人语音增强模型。
[0015]进一步优选地,采用第一训练数据训练非特定人语音增强模型之后,还包括步骤、在非特定人语音增强模型的基础上采用第二训练数据训练新的非特定人语音增强模型:
[0016]将第一训练数据中合成的模拟带噪语音经过统计学语音增强算法处理后产生第
一增强语音,第二训练数据为模拟带噪语音及其对应的第一增强语音;所述统计学语音增强算法包括IMCRA

OMLSA算法、IMCRA最小控制迭代平均算法、最优修正对数幅度估计算法的任一项或组合;
[0017]将模拟带噪语音作为对抗网络生成器G的输入数据,将第一增强语音作为生成器G的目标输出,输入到当前非特定人语音增强模型的对抗网络;
[0018]以对抗学习的方式训练得到的生成器G即为新的非特定人语音增强模型。优选地,所述特定人训练数据包括第三训练数据和/或第四训练数据,所述第三训练数据包括特定人带噪语音及其相对应的特定人纯净语音,所述特定人带噪语音是特定人纯净语音和标准噪声数据库按预设信噪比合成的语音,所述特定人纯净语音是设定的安静环境噪音下采集的特定人语音;所述第四训练数据包括特定人真实带噪语音及相对应的第四增强语音,所述特定人真实带噪语音是实际场景噪声环境下采集的特定人带噪语音,所述第四增强语音是特定人真实带噪语音经过统计学语音增强算法处理后得到的语音信息。
[0019]优选地,所述在非特定人语音增强模型基础上采用特定人训练数据训练特定人语音增强模型,包括步骤:
[0020]将第三训练数据的特定人带噪语音作为对抗网络生成器G的输入数据,将特定人纯净语音作为生成器G的目标输出,
[0021]或将第四训练数据的特定人真实带噪语音作为对抗网络生成器G的输入数据,将第四增强语音作为生成器G的目标输出;
[0022]将数据输入到当前非特定人语音增强模型对应的对抗网络;
[0023]以对抗学习的方式训练得到的生成器G即为特定人语音增强模型。
[0024]优选地,所述在非特定人语音增强模型基础上采用特定人训练数据训练特定人语音增强模型,包括步骤:
[0025]将第三训练数据的特定人带噪语音作为对抗网络生成器G的输入数据,将特定人纯净语音作为生成器G的目标输出,输入到当前非特定人语音增强模型的对抗网络;
[0026]以对抗学习的方式训练得到的生成器G即为第一特定人语音增强模型;
[0027]将第四训练数据的特定人真实带噪语音作为对抗网络生成器G的输入数据,将第四增强语音作为生成器G的目标输出,输入到第一特定人语音增强模型的对抗网络;
[0028]以对抗学习的方式再次训练得到的生成器G即为特定人语音增强模型。进一步优选地,所述以对抗学习的方式训练得到的生成器G,包括步骤:
[0029]将训练数据输入判别器D,判别器D的目标输出为“1”,通过误差反向传播算法对判别器D进行训练使其学习训练数据的数据分布;
[0030]通过反向误差传播算法对生成器G进行训练,其中,对生成器G的训练中,训练数据输入生成器G,生成器G的目标输出为使判别器D的输出为“1”;
[0031]通过反向误差传播算法对判别器D进行训练,其中,对判别器D的训练中,生成器G产生的信号输入判别器D,判别器D的目标输出为“0”;
[0032]固定判别器D的参数,调整生成器G的隐藏层参数,生成器G不断产生信号并通过判别器D对该生成信号进行判别,直至判别器D输出“1”时结束训练,训练得到的生成器G的映射关系即为所需的语音增强模型;
[0033]在上述训练过程中,生成器G的训练输入数据表示为隐藏层表示参量为z,p
z
(z)
表示生成器G学习到的分布,表示真实训练数据的分布,G的训练过程为最小化损失函数:其中,V(G)表示损失函数,附加L1正则化项最小化生成器G的生成信号和训练数据对相应语音
x
之间的欧氏距离,λ为设定的权重参数。
[0034]优选地,所述提取语音特征信息并通过深度神经网络识别人员类别,包括步骤:
[0035]采用第五训练数据训练深度神经网络,所述第五训练数据包括特定人语音信息及其相对应的类别信息,所述特定人语音信息是在设定的安静环境噪音下采集的一个或多个特定人的语音信息,所述类别信息是不同特定人的分类信息;
[0036]提取语音输入信号的特征参数,所述特征参数包括对数功率谱参数、梅尔倒谱参数、线性预测参数的任一项或多项组合;
[0037]将语音输入信号的特征参数输入深度神经网络得到样本特征;<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音增强方法,其特征在于,包括:采用第一训练数据训练非特定人语音增强模型;在非特定人语音增强模型基础上采用特定人训练数据训练特定人语音增强模型;提取语音特征信息并通过深度神经网络识别人员类别;将语音数据根据人员类别输入相应模型得到增强的语音信息。2.根据权利要求1所述的语音增强方法,其特征在于,所述采用第一训练数据训练非特定人语音增强模型,包括步骤:将标准语音数据和噪声数据按预设信噪比混叠合成的语音信号作为模拟带噪语音;采用标准语音数据库作为纯净语音,模拟带噪语音及其对应的纯净语音共同构成第一训练数据;将模拟带噪语音作为对抗网络生成器G的输入数据,将纯净语音作为生成器G的目标输出,输入到生成对抗网络;以对抗学习的方式训练得到的生成器G即为非特定人语音增强模型。3.根据权利要求2所述的语音增强方法,其特征在于,采用第一训练数据训练非特定人语音增强模型之后,还包括步骤、在非特定人语音增强模型的基础上采用第二训练数据训练新的非特定人语音增强模型:将第一训练数据中合成的模拟带噪语音经过统计学语音增强算法处理后产生第一增强语音,第二训练数据为模拟带噪语音及其对应的第一增强语音;所述统计学语音增强算法包括IMCRA

OMLSA算法、IMCRA最小控制迭代平均算法、最优修正对数幅度估计算法的任一项或组合;将模拟带噪语音作为对抗网络生成器G的输入数据,将第一增强语音作为生成器G的目标输出,输入到当前非特定人语音增强模型的对抗网络;以对抗学习的方式训练得到的生成器G即为新的非特定人语音增强模型。4.根据权利要求1所述的语音增强方法,其特征在于,所述特定人训练数据包括第三训练数据和/或第四训练数据,所述第三训练数据包括特定人带噪语音及其相对应的特定人纯净语音,所述特定人带噪语音是特定人纯净语音和标准噪声数据库按预设信噪比合成的语音,所述特定人纯净语音是设定的安静环境噪音下采集的特定人语音;所述第四训练数据包括特定人真实带噪语音及相对应的第四增强语音,所述特定人真实带噪语音是实际场景噪声环境下采集的特定人带噪语音,所述第四增强语音是特定人真实带噪语音经过统计学语音增强算法处理后得到的语音信息。5.根据权利要求4所述的语音增强方法,其特征在于,所述在非特定人语音增强模型基础上采用特定人训练数据训练特定人语音增强模型,包括步骤:将第三训练数据的特定人带噪语音作为对抗网络生成器G的输入数据,将特定人纯净语音作为生成器G的目标输出,或将第四训练数据的特定人真实带噪语音作为对抗网络生成器G的输入数据,将第四增强语音作为生成器G的目标输出;将数据输入到当前非特定人语音增强模型对应的对抗网络;以对抗学习的方式训练得到的生成器G即为特定人语音增强模型。6.根据权利要求4所述的语音增强方法,其特征在于,所述在非特定人语音增强模型基
础上采用特定人训练数据训练特定人语音增强模型,包括步骤:将第三训练数据的特定人带噪语音作...

【专利技术属性】
技术研发人员:吴建锋项灵剑严军荣
申请(专利权)人:三维通信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1