当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于听觉感知的低复杂度语音增强方法技术

技术编号:39719408 阅读:5 留言:0更新日期:2023-12-17 23:25
本发明专利技术涉及语音信号处理领域,具体涉及一种基于听觉感知的低复杂度语音增强方法

【技术实现步骤摘要】
一种基于听觉感知的低复杂度语音增强方法


[0001]本专利技术涉及语音信号处理领域,具体涉及一种基于听觉感知的低复杂度语音增强方法

尤其关注在信噪比低下的环境中,由于噪声的干扰导致麦克风捕捉的音频声音质量受到影响的问题


技术介绍

[0002]在现代通信与嵌入式系统中,语音降噪技术,亦被称为语音增强
(SE)
技术,在嘈杂环境中的语音通信质量改进领域扮演着关键角色

然而,在为资源受限设备,如微控制器
、FPGA
等低计算设备,以及类似智能手机的资源受限设备执行语音增强时,存在一些挑战

传统的语音增强模型往往由大量参数构成,这将导致语音增强模型在空间受限设备上的运行变得困难

此外,传统的语音增强方法需要大量的计算资源,这限制了其在资源受限设备上的广泛部署

[0003]近年来,许多语音增强算法被提出

尽管其中许多方法在处理静态噪声时有效,但实际应用中存在各种类型的静态和非静态噪声,这些噪声会显著影响语音增强任务的性能

因此,需要有效的语音增强算法来应用于实际应用中

近年来,基于深度学习
(DL)
的语音增强算法展示出强大的建模能力,如深度神经网络
(DNNs)、
卷积神经网络
(CNNs)
和长短期记忆网络
(LSTMs)。
然而,由于基于神经网络的语音增强方法在计算资源受限时性能会下降,其根本原因在于处理频谱特征或波形特征需要占用大量的参数和计算资源

[0004]在各种场景中,语音增强被建模为一个回归问题

非线性回归函数通过声学特征参数化

神经网络设计用于计算采样率为
16kHz
的语音中,处理单个频谱帧通常需要
257
个点,处理单个
25ms
长度的语音帧则需要处理
400
个采样点

因此,在现实场景中,提出一种高效且有效的语音增强方法依然是一项具有挑战性的工作


技术实现思路

[0005]本专利技术目的在于提出一种利用听觉感知机理来提高低计算资源下基于神经网络的语音增强的方法

系统流程图如附图1所示,具体包括:
1)
对含噪语音利用
Gammatone
滤波器组分割成不同的子带,并计算每个子带的
Gammatone
特征;
2)Pitch
提取以及利用
Pitch
设计子带梳状滤波器;
3)
设计基于
CNN
模型的清音和浊音处理单元

最终通过一个逆的滤波器组生成最终的增强后的语音

[0006]具体步骤如下:
[0007]1)Gammatone
滤波器组和
Gammatone
特征
[0008]我们使用
Gammatone
滤波器组
(GTF)
将音频信号
a(t)
分成不同的子带,并在广泛的中心频率范围内重现人类听觉滤波器的心理学估计

[0009]输出的第
k
个子带信号记为:
[0010]a(k

t)

a(t)*g
c
(k

t)
,1<
k

K
[0011]其中
a(k

t)
是语音信号的第
k
个子带,
K
表示所设置的子带个数
(
本文中将其设置

32)

t
是时间域采样点的索引,
g
c
(k

t)
是第
k
个子带的脉冲响应

[0012]脉冲响应是通过以下公式获得的:
[0013]g
c
(k

t)

At
a
‑1exp(
‑2πω
f
ERB
N
(f
k
)t)
×
cos(2
π
f
k
+
φ
)
[0014]其中
At
a
‑1exp(
‑2πω
f
ERB
N
(f
k
)t)
表示由伽马分布表示的振幅项,
A
是振幅,
a
是滤波器的阶数,
φ
是原始相位,
f
k
是第
k
个滤波器的中心频率,
ERB
N
是等效矩形带宽,计算方法如下:
[0015][0016]其中
f
k
是第
k
个子带的中心频率,
Q
ear
是在高频处的渐近滤波器质量,
B
min
是最小的带宽


A

a
分别设置为
9.26

24.7。
[0017]为了解决直接利用经过
GTF
处理的噪声音频波形作为卷积神经网络
(CNN)
的输入所带来的显著计算开销,提高处理效率和准确性,我们提出了利用
Gammatone
滤波器组进行分子带的方法

该方法旨在计算效率和处理精度之间取得平衡,使各种应用中噪声音频信号的处理更加高效和有效

[0018]为了计算
CNN
的输入特征,我们对不同子带信号进行了帧化

在本文中,我们使用了帧大小为
400
和帧移
200
的设置

然后计算每个帧特征的能量,并使用这些能量的平均值来获得输入特征

[0019]第
τ
帧的能量可以表示为:
[0020][0021]其中
y(
τ

k

t)
是由
GTF
分割出的噪声语音,
L
是帧长

在重塑和拼接上下文特征后,
CNN
的输入特征表示成其中
B
是批处理大小,
F
是上下文帧数,
K
是子带数

[0022]2)Pitch本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于听觉感知的低复杂度语音增强方法,其特征在于,包括如下步骤:
1)
对含噪语音利用
Gammatone
滤波器组分割成不同的子带,并计算每个子带的
Gammatone
特征;
2)Pitch
提取以及利用
Pitch
设计子带梳状滤波器;
3)
设计基于
CNN
模型的清音和浊音处理单元:使用掩蔽技术来确定每个帧中存在浊音和清音片段;当一个帧被识别为浊音时,对其应用谐波增强;利用神经网络估计谐波增强信号和经过子带梳状滤波器增强后的信号的强度,然后,将这两组强度分别与经梳状滤波器和掩蔽增强的信号相乘,以获得最终的谐波增强信号;进一步引入全频带的干净语音信号,使谐波增强的音频更接近训练目标;
4)
通过一个逆的滤波器组生成最终的增强后的语音
。2.
根据权利要求1所述的一种基于听觉感知的低复杂度语音增强方法,其特征在于,所述步骤
1)
具体如下:使用
Gammatone
滤波器组
(GTF)
将音频信号
a(t)
分成不同的子带,并在广泛的中心频率范围内重现人类听觉滤波器的心理学估计;输出的第
k
个子带信号记为:
a(k

t)

a(t)*g
c
(k

t)
,1<
k

K
其中
a(k

t)
是语音信号的第
k
个子带,
K
表示所设置的子带个数,
t
是时间域采样点的索引,
g
c
(k

t)
是第
k
个子带的脉冲响应;脉冲响应是通过以下公式获得的:
g
c
(k

t)

At
a
‑1exp(
‑2πω
f
ERB
N
(f
k
)t)
×
cos(2
π
f
k
+
φ
)
其中
At
a
‑1exp(
‑2πω
f
ERB
N
(f
k
)t)
表示由伽马分布表示的振幅项,
A
是振幅,
a
是滤波器的阶数,
φ
是原始相位,
f
k
是第
k
个滤波器的中心频率,
ERB
N
是等效矩形带宽,计算方法如下:其中
f
k
是第
k
个子带的中心频率,
Q
ear
是在高频处的渐近滤波器质量,
B
min
是最小的带宽;为了计算
CNN
的输入特征,对不同子带信号进行了帧化,在本文中,使用帧大小为
400
和帧移
200
的设置,然后计算每个帧特征的能量,并使用这些能量的平均值来获得输入特征;第
τ
帧的能量可以表示为:其中
y(
τ

k

t)
是由
GTF
分割出的噪声语音,
L
是帧长;在重塑和拼接上下文特征后,
CNN
的输入特征表示成其中
B
是批处理大小,
F
是上下文帧数,
K
是子带数
。3.
根据权利要求1所述的一种基于听觉感知的低复杂度语音增强方法,其特征在于,所述步骤
2)
具体...

【专利技术属性】
技术研发人员:王龙标李楠党建武
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1