【技术实现步骤摘要】
一种基于Conv
‑
TasNet深度学习模型和OMLSA的语音降噪增强方法
[0001]本专利技术涉及语音处理技术,尤其涉及一种基于
Conv
‑
TasNet
深度学习模型和
OMLSA
的语音降噪增强方法
。
技术介绍
[0002]随着移动互联网和各类移动终端与应用的普及,日常生活中越来越多使用通过移动终端进行各种各样的音视频应用
(
语音通话
、
视频通话
、
视频会议
、
视频直播等
)。
这些应用场景大多数环境复杂并且随时发生变动,对于在进行这些音视频应用时声音的处理首先要考虑的是如何在各类不同场景下实现自适应的语音降噪和增强
。
[0003]常规的语音降噪增强方法一般包含以下:
1.
通过硬件线性滤波器来做简单的降噪处理,比如高通滤波器消除低频噪声
、
用一些陷波滤波器消除某些频段的持续噪声
。2.
通过谱减法对离线稳态噪声的降噪处理,先取一段非人声音频,记录下噪声的频谱能量,然后从音频频谱中减去这个噪声频谱能量
。3.
基于统计模型的实时降噪算法,用统计的方法估算出音频每个频点对应噪声和语言的能量
(
适用于相对平稳噪声
)
,比如维纳滤波器
、WEBRTC
的噪声处理算法
、MCRA&OMLSA />算法等
。4.
子空间算法:针对已知的噪声类型,量身定做一个降噪算法,把噪声和人声投影到高维度的空间,把不容易分离的信号变成高维度可分的子空间,从而实现可分的信号;可以对风噪建模,有效去噪,但缺点很明显,每种噪声都得单独建模
。5.
基于机器学习等人工智能的算法:训练神经网络进行降噪,特点是噪声鲁棒性好,能兼顾稳态
、
非稳态和瞬态噪声
。
[0004]论文
《Conv
‑
TasNet:Surpassing Ideal Time
‑
Frequency Magnitude Masking for Speech Separation》
提出了一种全卷积时域音频分离网络
—Conv
‑
TasNet
,是端到端的时域语音分离模型
。Conv
‑
TasNet
通过使用线性编码器生成了一种对语音波形的表示形式,并针对单个说话人的分离进行了优化
。
然后将一组加权函数应用于编码器的输出来实现说话人分离
。
最后使用线性解码器得到分离出的语音波形
。
使用由一维空洞卷积块组成的时域卷积网络
(TCN)
计算掩码,这使得网络可以对语音信号的长期依赖性进行建模,同时保持较小的模型尺寸
。
该框架解决了
STFT
域语音分离的缺点,包括相位和幅度的解耦,用于分离的混合音频的次优表示以及计算
STFT
的高延迟
。
通过使用卷积编码器
‑
解码器体系结构替代
STFT
来实现改进
。Conv
‑
TasNet
中的分离是使用时间卷积网络
(TCN)
架构以及深度可分离的卷积运算来完成的,以应对深层
LSTM
网络的挑战
。
评估表明,即使使用目标说话人的理想时频掩码,
Conv
‑
TasNet
的性能也远胜于
STFT
语音分离系统
。
此外,
Conv
‑
TasNet
具有更小的模型尺寸和更短的最小延迟,这使其适用于低资源,低延迟的应用程序
。
[0005]如图4至图6所示,上述全卷积时域音频分离网络的语音降噪增强方法,具体包括:采用
Conv
‑
TasNet
神经网络模型对带噪语音进行降噪
。
在采用
Conv
‑
TasNet
神经网络模型对带噪语音进行降噪过程中,输入的带噪语音可以被分为长度为
L
的重叠段,采用
x
k
∈R1×
L
表示长度为
L
的重叠段,再对
x
k
进行一维全卷积处理得到
w
,
w
采用
N
维表示,
w∈R1×
N
,可根据如
下公式计算得到
w
:
[0006]w
=
H(xU
T
)
ꢀꢀ
(1)
,
[0007]其中,
H(xU
T
)
为一个非线性函数,
U
为将信号
x
k
转换为
N
维的信号
w
的一维卷积运算公式,
U∈R
N
×
L
,
U
包含了
N
个向量
。
[0008]在解码器中,采用一维转置卷积运算对
w
进行重建波形得到可根据如下公式计算得到
[0009][0010]其中,是重建波形的
x
,
V∈R
N
×
L
是解码器的基函数,每个波形
x
的长度为
L
,将重建后的重叠重构段相加在一起以生成最终的波形
。
[0011]如图5所示,该语音降噪方法还包括:
Conv
‑
TasNet
神经网络模型受到时间卷积网络
(TCN)
的启发,包括全卷积分离模块,全卷积分离模块由一个个堆叠的一维膨胀卷积块组成
。
在全卷积分离模块中的序列建模任务重,使用
TCN
替代了
RNN。TCN
中的每一层都有膨胀因子逐渐增加的一维膨胀卷积块组成
。
一维膨胀卷积块的设计应用了
residual path
和
skip
‑
connection path
,在实际应用中,一个一维膨胀卷积块的
residual path
作为下一个一维膨胀卷积块的输入,而所有一维膨胀卷积块的
skip
‑
connection path
总和作为
TCN
的输出从而得到
Conv
‑
TasNet<本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.
一种基于
Conv
‑
TasNet
深度学习模型和
OMLSA
的语音降噪增强方法,其特征在于,包括:步骤1:获取带噪语音信号
y(t)
;步骤2:对带噪语音信号
y(t)
进行短时傅里叶变换得到带噪语音信号
y(t)
的时域频谱;步骤3:通过训练数据集对
Conv
‑
TasNet
神经网络模型进行训练得到优化的
Conv
‑
TasNet
神经网络模型,通过优化的
Conv
‑
TasNet
神经网络模型对带噪语音信号
y(t)
的时域频谱进行降噪得到语音信号步骤4:采用
OMLSA
方法对降噪语音信号的频谱特征进行语音增强得到语音信号步骤5:对语音信号进行短时傅里叶逆变换得到语音信号步骤6:对语音信号进行重叠相加得到语音信号
x(t)。2.
根据权利要求1所述的一种基于
Conv
‑
TasNet
深度学习模型和
OMLSA
的语音降噪增强方法,其特征在于,所述
Conv
‑
TasNet
神经网络模型包括编码器
、
分离网络和解码器
。3.
根据权利要求2所述的一种基于
Conv
‑
TasNet
深度学习模型和
OMLSA
的语音降噪增强方法,其特征在于,所述通过训练数据集对
Conv
‑...
【专利技术属性】
技术研发人员:张卫,龙皋月,杜申利,杨利中,魏小彬,王斌,
申请(专利权)人:浙江华数广电网络股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。