实时语音增强方法技术

技术编号：20122550 阅读：68 留言：0更新日期：2019-01-16 12:54

本发明专利技术涉及一种通用的实时语音增强方法，具体方法包括以下步骤：系统接收包含语音和多种环境干扰的含噪语音；使用多层的深度神经网络处理该含噪语音；系统输出增强的语音信号。使用深度神经网络处理含噪语音的过程具体包含以下部分：使用变换层提取变换域声学特征，特征中包括语音的幅度和相位信息；利用特征学习模块产生掩膜；利用产生的掩膜与含噪语音的变换域声学特征运算产生增强的语音的变换域声学特征；增强的语音的变换域声学特征经过反变换合成增强的语音波形。本发明专利技术采用有监督学习方法对含噪语音的幅度和相位同时进行语音增强处理；本发明专利技术提出的方法通过构建时域损失函数，利用沿时间展开的反向传播进行训练，克服了信号与声谱转换不一致问题。

Real-time speech enhancement method

The present invention relates to a general real-time speech enhancement method, which includes the following steps: system receives noisy speech containing speech and various environmental disturbances; processing the noisy speech using multi-layer deep neural network; system outputs enhanced speech signal. The process of processing noisy speech using deep neural network includes the following parts: extracting acoustic features in transform domain by using transform layer, including amplitude and phase information of speech; generating mask by using feature learning module; generating enhanced acoustic features in transform domain by using generated mask and acoustic feature operation in transform domain of noisy speech; The domain acoustic characteristics are synthesized by inverse transformation to enhance the speech waveform. The invention adopts supervised learning method to enhance the amplitude and phase of noisy speech at the same time; the method overcomes the inconsistency between signal and spectrum conversion by constructing a time-domain loss function and training by using backward propagation along time.

全部详细技术资料下载

【技术实现步骤摘要】
实时语音增强方法
本专利技术涉及语音增强
，尤其涉及一种基于深度学习模型的端对端的实时语音增强方法。
技术介绍
随着电子设备的不断发展，语音设备也成为人们日常生活不可或缺的部分。在语音采集的过程中，外界噪声和混响等干扰不可避免影响到语音质量。所以，在采集语音后应对其进行处理以获得“纯净”的语音信号。这一过程被称为语音增强。语音增强模型中，声谱图因为可以有效反映语音的声学特性所以常被用作语音增强的特征输入。但在语音处理过程中，声谱与原信号的不一致问题导致声谱特征无法被有效利用。同时，噪声和混响等干扰除了对语音信号幅度有影响，对相位信息也会产生作用，如何有效利用含噪语音的相位信息进行语音增强也成为需要解决的问题。
技术实现思路
本专利技术的目的在于，针对现有技术的缺陷提供一种通用的实时语音增强方法。本专利技术解决其技术问题所采用的技术方案是:设计一种通用的实时语音增强方法，本方法包括如下步骤:1.系统接收电子格式的含噪语音，其中包含语音和多种环境干扰；2.接收的含噪语音输入端对端的深度神经网络，网络中各个模块对所述含噪语音进行处理；3.所述深度神经网络输出增强后的语...

【技术保护点】
1.一种实时语音增强方法，其特征在于，包括如下步骤：(1)接收电子格式的含噪语音，其中包含语音和多种环境干扰；(2)接收的含噪语音输入端对端的深度神经网络，网络中各个模块对所述含噪语音进行处理；(3)所述深度神经网络输出增强后的语音。

【技术特征摘要】
1.一种实时语音增强方法，其特征在于，包括如下步骤：(1)接收电子格式的含噪语音，其中包含语音和多种环境干扰；(2)接收的含噪语音输入端对端的深度神经网络，网络中各个模块对所述含噪语音进行处理；(3)所述深度神经网络输出增强后的语音。2.如权利要求1所述的一种实时语音增强方法，其特征在于，所述步骤(2)中接收的含噪语音输入端对端的深度神经网络，网络中各个模块对所述含噪语音进行处理，包括如下步骤：(2-1)所述深度神经网络提取含噪语音的变换域声学特征；(2-2)所述深度神经网络的特征学习模块通过学习含噪语音的变换域声学特征产生掩膜；(2-3)利用产生的掩膜与所述含噪语音的变换域声学特征运算产生增强的语音的变换域声学特征；(2-4)使用增强的语音的变换域声学特征，经过反变换，合成增强的语音波...

【专利技术属性】
技术研发人员：朱梦尧，杜行健，史璇，
申请(专利权)人：上海大学，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人