语音降噪方法及电子设备技术

技术编号:24891342 阅读:16 留言:0更新日期:2020-07-14 18:17
本发明专利技术提供一种语音降噪方法及电子设备,所述方法包括:基于待处理语音获取第一语音,其中,所述待处理语音包括N帧信号,所述第一语音的第i帧信号包括所述待处理语音的第i帧至第i+J帧信号,N和J均为正整数,i为1至N‑J中的任意值;将所述第一语音输入用于降噪的LSTM长短期记忆神经网络;基于所述LSTM神经网络的输出获取降噪处理后的语音。本发明专利技术实施例能够提高语音降噪效果。

【技术实现步骤摘要】
语音降噪方法及电子设备
本专利技术涉及自然语言处理
,尤其涉及一种语音降噪方法及电子设备。
技术介绍
自然语言是指通过自然进化产生的人类之间用于交流的语言。自然语言处理(NaturalLanguageProcessing,NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。自然语言处理技术可以采用网络模型对语音进行处理,满足各个使用场景的需求,例如,在语音识别使用场景,可以采用语音识别网络模型将语音处理为文字。语音中通常包含噪声,在采用网络模型对语音进行处理之前,需要对语音进行降噪。现有技术中,通常采用滤波器对语音进行降噪,而滤波器对非线性噪声的抑制效果较差,使得降噪效果较差。
技术实现思路
本专利技术实施例提供一种语音降噪方法及电子设备,以解决现有技术中采用滤波器对语音进行降噪的降噪效果较差的问题。为了解决上述技术问题,本专利技术是这样实现的:第一方面,本专利技术实施例提供了一种语音降噪方法,应用于电子设备,所述方法包括:基于待处理语音获取第一语音,其中,所述待处理语音包括N帧信号,所述第一语音的第i帧信号包括所述待处理语音的第i帧至第i+J帧信号,N和J均为正整数,i为1至N-J中的任意值;将所述第一语音输入用于降噪的LSTM长短期记忆神经网络;基于所述LSTM神经网络的输出获取降噪处理后的语音。第二方面,本专利技术实施例提供了一种电子设备,所述电子设备包括:第一获取模块,用于基于待处理语音获取第一语音,其中,所述待处理语音包括N帧信号,所述第一语音的第i帧信号包括所述待处理语音的第i帧至第i+J帧信号,N和J均为正整数,i为1至N-J中的任意值;输入模块,用于将所述第一语音输入用于降噪的LSTM长短期记忆神经网络;第二获取模块,用于基于所述LSTM神经网络的输出获取降噪处理后的语音。第三方面,本专利技术实施例提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如第一方面所述的语音降噪方法中的步骤。第四方面,本专利技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的语音降噪方法中的步骤。本专利技术实施例中,基于待处理语音获取第一语音,其中,所述待处理语音包括N帧信号,所述第一语音的第i帧信号包括所述待处理语音的第i帧至第i+J帧信号,N和J均为正整数,i为1至N-J中的任意值;将所述第一语音输入用于降噪的LSTM长短期记忆神经网络;基于所述LSTM神经网络的输出获取降噪处理后的语音。这样,通过对待处理语音的连续M帧信号进行拼接处理,将拼接处理后的语音信号输入LSTM神经网络进行降噪处理,能够同时消除线性噪声和非线性噪声,从而能够提高降噪效果。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的一种语音降噪方法的流程图;图2是本专利技术实施例提供的一种电子设备的结构示意图之一;图3是本专利技术实施例提供的一种电子设备的结构示意图之二;图4是本专利技术实施例提供的一种电子设备的结构示意图之三。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在本专利技术实施例中,电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载移动终端、可穿戴设备、以及计步器等。参见图1,图1是本专利技术实施例提供的一种语音降噪方法的流程图,所述方法应用于电子设备,如图1所示,包括以下步骤:步骤101、基于待处理语音获取第一语音,其中,所述待处理语音包括N帧信号,所述第一语音的第i帧信号包括所述待处理语音的第i帧至第i+J帧信号,N和J均为正整数,i为1至N-J中的任意值。其中,所述基于待处理语音获取第一语音,可以是,基于待处理语音的时域信号获取第一语音的时域信号,或者,还可以是,基于待处理语音的频域信号获取第一语音的频域信号。J的值可以为预设值,J的值可以为2,或者可以为4,或者可以为6,等等,本专利技术实施例对此不进行限定。所述第一语音的第i帧信号包括所述待处理语音的第i帧至第i+J帧信号,可以是,将待处理语音的每相邻的J+1帧信号拼接在一起,得到所述第一语音。以J的值为1为例,可以将待处理语音的每相邻的两帧信号拼接在一起,将拼接出来的N-1帧信号作为第一语音。在实际应用中,可以设置采样率为8000采样得到待处理语音,待处理语音的每帧长可以为16ms,待处理语音的每一帧时域信号可以包括128个短整型点。步骤102、将所述第一语音输入用于降噪的LSTM长短期记忆神经网络。其中,在基于待处理语音的频域信号获取第一语音的频域信号的情况下,可以将所述第一语音的频域信号输入用于降噪的LSTM长短期记忆神经网络;在基于待处理语音的时域信号获取第一语音的时域信号的情况下,可以基于所述第一语音的时域信号获取所述第一语音的频域信号,所述将所述第一语音输入用于降噪的LSTM长短期记忆神经网络,可以包括:将所述第一语音的频域信号输入用于降噪的LSTM长短期记忆神经网络。步骤103、基于所述LSTM神经网络的输出获取降噪处理后的语音。其中,所述基于所述LSTM神经网络的输出获取降噪处理后的语音,可以是,将所述LSTM神经网络的输出与所述第一语音的频域信号相乘,得到降噪处理后的语音的频域信号,基于所述降噪处理后的语音的频域信号获取所述降噪处理后的语音的时域信号;或者,还可以是,将所述LSTM神经网络的输出转化为时域信号,将转化的时域信号作为降噪处理后的语音。在实际应用中,可以将所述LSTM神经网络的输出与所述第一语音的频域信号相乘,得到降噪处理后的语音的多帧频域信号,可以将降噪处理后的语音的每帧频域信号乘以32768,再进行逆快速傅里叶变换,可以得到降噪处理后的语音的时域信号。以降噪处理后的语音的每帧频域信号包括256维的向量为例,可以将向量中的每个分量乘以32768,再进行逆快速傅里叶变换,得到包括128个采样点的降噪处理后的语音的时域信号。需要说明的是,LSTM神经网络可以预先训练获得,可以将纯净语音信号与噪声进行叠加,将叠加后的语音信号作为LSTM神经网络的训练样本,可以将纯净语音信号作为LSTM神经网络训练的目标输出;或者,还可以将纯净语音信号与噪声进行叠加,将叠加后的语音信号作为LSTM神经网络的训练样本,可以将叠加后的语音信号与纯净语音信本文档来自技高网...

【技术保护点】
1.一种语音降噪方法,应用于电子设备,其特征在于,所述方法包括:/n基于待处理语音获取第一语音,其中,所述待处理语音包括N帧信号,所述第一语音的第i帧信号包括所述待处理语音的第i帧至第i+J帧信号,N和J均为正整数,i为1至N-J中的任意值;/n将所述第一语音输入用于降噪的LSTM长短期记忆神经网络;/n基于所述LSTM神经网络的输出获取降噪处理后的语音。/n

【技术特征摘要】
1.一种语音降噪方法,应用于电子设备,其特征在于,所述方法包括:
基于待处理语音获取第一语音,其中,所述待处理语音包括N帧信号,所述第一语音的第i帧信号包括所述待处理语音的第i帧至第i+J帧信号,N和J均为正整数,i为1至N-J中的任意值;
将所述第一语音输入用于降噪的LSTM长短期记忆神经网络;
基于所述LSTM神经网络的输出获取降噪处理后的语音。


2.根据权利要求1所述的方法,其特征在于,所述基于待处理语音获取第一语音,包括:
基于待处理语音的时域信号获取第一语音的时域信号;
所述将所述第一语音输入用于降噪的LSTM长短期记忆神经网络之前,所述方法还包括:
基于所述第一语音的时域信号获取所述第一语音的频域信号;
所述将所述第一语音输入用于降噪的LSTM长短期记忆神经网络,包括:
将所述第一语音的频域信号输入用于降噪的LSTM长短期记忆神经网络。


3.根据权利要求2所述的方法,其特征在于,所述将所述第一语音的频域信号输入用于降噪的LSTM长短期记忆神经网络,包括:
基于所述第一语音的频域信号获取第二语音的频域信号,其中,所述第二语音的第m帧频域信号包括所述第一语音的第m帧至第m+K帧频域信号,K为正整数,m为1至N-J-K中的任意值;
将所述第二语音的频域信号输入所述LSTM神经网络。


4.根据权利要求2所述的方法,其特征在于,所述基于所述LSTM神经网络的输出获取降噪处理后的语音,包括:
将所述LSTM神经网络的输出与所述第一语音的频域信号相乘,得到降噪处理后的语音的频域信号;
基于所述降噪处理后的语音的频域信号获取所述降噪处理后的语音的时域信号。


5.根据权利要求2所述的方法,其特征在于,所述基于所述第一语音的时域信号获取所述第一语音的频域信号,包括:
将所述第一语音的时域信号中的每帧信号进行傅里叶变换,所述每帧信号包括多个采样点;
计算进行傅里叶变换后的每帧信号中的每个采样点的复数的模值;
分别对所述每帧信号中每个采样点的复数的模值进行取对数运算;
将取对数运算后得到的值进行归一化处理,得到所述第一语音的频域信号。


6....

【专利技术属性】
技术研发人员:张东魁冯大航陈孝良
申请(专利权)人:北京声智科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1