一种语音增强方法、系统及智能设备技术方案

技术编号：34125868 阅读：26 留言：0更新日期：2022-07-14 14:11

本发明专利技术公开了一种语音增强方法、系统及智能设备，方法包括：提取输入语音的特征信息并通过深度神经网络识别人员类别；根据人员类别选择非特定人语音增强模型或不同特定人的语音增强模型；将语音数据输入选择的语音增强模型得到增强的语音信息。本发明专利技术解决了如何针对某一个或多个特定使用者进行快速、高效语音增强的技术问题。强的技术问题。强的技术问题。

A speech enhancement method, system and intelligent device

全部详细技术资料下载

【技术实现步骤摘要】
一种语音增强方法、系统及智能设备

[0001]本专利技术属于人工智能
，特别是涉及一种语音增强方法、系统及智能设备。

技术介绍

[0002]随着电商模式的不断发展，直播带货已成为最流行的网络营销方式。目前，直播的场景已经不仅仅局限于直播间，更多的是在室外场景下的户外直播。室外场景下，直播设备通常是手机、IPAD等便携式智能设备，在直播过程中不可避免地受到外界非稳态噪声的干扰，考虑到直播设备通常就是主播本人在使用，如何对主播的语音信息进行语音增强以降低外界非稳态噪声的干扰是亟待解决的问题。
[0003]随着机器学习和神经网络技术的快速发展，深度学习的有监督神经网络语音增强算法逐渐成为研究热点，深度神经网络(Deep Neural Networks,以下简称DNN)、CNN、RNN等语音增强模型已经逐渐取代了传统的语音增强算法。深度神经网络的语音增强技术主要是通过声学特征的提取和深度神经网络训练将语音从带噪信号中分离出来，实现语音增强。但是，特征提取和神经网络训练所需的处理资源较多，处理时间较长，而且并未考虑特定使用人的语音信息，针对某一个或多个特定使用者的语音增强效果较差。
[0004]目前还没有针对某一个或多个特定使用者进行快速、高效语音增强的技术，为此，提出一种语音增强方法、系统及智能设备。

技术实现思路

[0005]本专利技术为了解决上述问题，提出一种语音增强方法、系统及智能设备。本专利技术的一种语音增强方法，包括：
[0006]采用第一训练数据训练非特定人语音增强模...

【技术保护点】

【技术特征摘要】
1.一种语音增强方法，其特征在于，包括：采用第一训练数据训练非特定人语音增强模型；在非特定人语音增强模型基础上采用特定人训练数据训练特定人语音增强模型；提取语音特征信息并通过深度神经网络识别人员类别；将语音数据根据人员类别输入相应模型得到增强的语音信息。2.根据权利要求1所述的语音增强方法，其特征在于，所述采用第一训练数据训练非特定人语音增强模型，包括步骤：将标准语音数据和噪声数据按预设信噪比混叠合成的语音信号作为模拟带噪语音；采用标准语音数据库作为纯净语音，模拟带噪语音及其对应的纯净语音共同构成第一训练数据；将模拟带噪语音作为对抗网络生成器G的输入数据，将纯净语音作为生成器G的目标输出，输入到生成对抗网络；以对抗学习的方式训练得到的生成器G即为非特定人语音增强模型。3.根据权利要求2所述的语音增强方法，其特征在于，采用第一训练数据训练非特定人语音增强模型之后，还包括步骤、在非特定人语音增强模型的基础上采用第二训练数据训练新的非特定人语音增强模型：将第一训练数据中合成的模拟带噪语音经过统计学语音增强算法处理后产生第一增强语音，第二训练数据为模拟带噪语音及其对应的第一增强语音；所述统计学语音增强算法包括IMCRA
‑
OMLSA算法、IMCRA最小控制迭代平均算法、最优修正对数幅度估计算法的任一项或组合；将模拟带噪语音作为对抗网络生成器G的输入数据，将第一增强语音作为生成器G的目标输出，输入到当前非特定人语音增强模型的对抗网络；以对抗学习的方式训练得到的生成器G即为新的非特定人语音增强模型。4.根据权利要求1所述的语音增强方法，其特征在于，所述特定人训练数据包括第三训练数据和/或第四训练数据，所述第三训练数据包括特定人带噪语音及其相对应的特定人纯净语音，所述特定人带噪语音是特定人纯净语音和标准噪声数据库按预设信噪比合成的语音，所述特定人纯净语音是设定的安静环境噪音下采集的特定人语音；所述第四训练数据包括特定人真实带噪语音及相对应的第四增强语音，所述特定人真实带噪语音是实际场景噪声环境下采集的特定人带噪语音，所述第四增强语音是特定人真实带噪语音经过统计学语音增强算法处理后得到的语音信息。5.根据权利要求4所述的语音增强方法，其特征在于，所述在非特定人语音增强模型基础上采用特定人训练数据训练特定人语音增强模型，包括步骤：将第三训练数据的特定人带噪语音作为对抗网络生成器G的输入数据，将特定人纯净语音作为生成器G的目标输出，或将第四训练数据的特定人真实带噪语音作为对抗网络生成器G的输入数据，将第四增强语音作为生成器G的目标输出；将数据输入到当前非特定人语音增强模型对应的对抗网络；以对抗学习的方式训练得到的生成器G即为特定人语音增强模型。6.根据权利要求4所述的语音增强方法，其特征在于，所述在非特定人语音增强模型基
础上采用特定人训练数据训练特定人语音增强模型，包括步骤：将第三训练数据的特定人带噪语音作...

【专利技术属性】
技术研发人员：吴建锋，项灵剑，严军荣，
申请(专利权)人：三维通信股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人