一种基于听觉感知的低复杂度语音增强方法技术

技术编号：39719408 阅读：5 留言：0更新日期：2023-12-17 23:25

本发明专利技术涉及语音信号处理领域，具体涉及一种基于听觉感知的低复杂度语音增强方法

全部详细技术资料下载

【技术实现步骤摘要】
一种基于听觉感知的低复杂度语音增强方法

[0001]本专利技术涉及语音信号处理领域，具体涉及一种基于听觉感知的低复杂度语音增强方法
。
尤其关注在信噪比低下的环境中，由于噪声的干扰导致麦克风捕捉的音频声音质量受到影响的问题
。

技术介绍

[0002]在现代通信与嵌入式系统中，语音降噪技术，亦被称为语音增强
(SE)
技术，在嘈杂环境中的语音通信质量改进领域扮演着关键角色
。
然而，在为资源受限设备，如微控制器
、FPGA
等低计算设备，以及类似智能手机的资源受限设备执行语音增强时，存在一些挑战
。
传统的语音增强模型往往由大量参数构成，这将导致语音增强模型在空间受限设备上的运行变得困难
。
此外，传统的语音增强方法需要大量的计算资源，这限制了其在资源受限设备上的广泛部署
。
[0003]近年来，许多语音增强算法被提出
。
尽管其中许多方法在处理静态噪声时有效，但实际应用中存在各种类型的静态和非静态噪声，这些噪声会显著影响语音增强任务的性能
。
因此，需要有效的语音增强算法来应用于实际应用中
。
近年来，基于深度学习
(DL)
的语音增强算法展示出强大的建模能力，如深度神经网络
(DNNs)、
卷积神经网络
(CNNs)
和长短期记忆网络
(LSTMs)。
然而，由于基于神经网络的语音增强方...

【技术保护点】

【技术特征摘要】
1.
一种基于听觉感知的低复杂度语音增强方法，其特征在于，包括如下步骤：
1)
对含噪语音利用
Gammatone
滤波器组分割成不同的子带，并计算每个子带的
Gammatone
特征；
2)Pitch
提取以及利用
Pitch
设计子带梳状滤波器；
3)
设计基于
CNN
模型的清音和浊音处理单元：使用掩蔽技术来确定每个帧中存在浊音和清音片段；当一个帧被识别为浊音时，对其应用谐波增强；利用神经网络估计谐波增强信号和经过子带梳状滤波器增强后的信号的强度，然后，将这两组强度分别与经梳状滤波器和掩蔽增强的信号相乘，以获得最终的谐波增强信号；进一步引入全频带的干净语音信号，使谐波增强的音频更接近训练目标；
4)
通过一个逆的滤波器组生成最终的增强后的语音
。2.
根据权利要求1所述的一种基于听觉感知的低复杂度语音增强方法，其特征在于，所述步骤
1)
具体如下：使用
Gammatone
滤波器组
(GTF)
将音频信号
a(t)
分成不同的子带，并在广泛的中心频率范围内重现人类听觉滤波器的心理学估计；输出的第
k
个子带信号记为：
a(k
，
t)
＝
a(t)*g
c
(k
，
t)
，1＜
k
＜
K
其中
a(k
，
t)
是语音信号的第
k
个子带，
K
表示所设置的子带个数，
t
是时间域采样点的索引，
g
c
(k
，
t)
是第
k
个子带的脉冲响应；脉冲响应是通过以下公式获得的：
g
c
(k
，
t)
＝
At
a
‑1exp(
‑2πω
f
ERB
N
(f
k
)t)
×
cos(2
π
f
k
+
φ
)
其中
At
a
‑1exp(
‑2πω
f
ERB
N
(f
k
)t)
表示由伽马分布表示的振幅项，
A
是振幅，
a
是滤波器的阶数，
φ
是原始相位，
f
k
是第
k
个滤波器的中心频率，
ERB
N
是等效矩形带宽，计算方法如下：其中
f
k
是第
k
个子带的中心频率，
Q
ear
是在高频处的渐近滤波器质量，
B
min
是最小的带宽；为了计算
CNN
的输入特征，对不同子带信号进行了帧化，在本文中，使用帧大小为
400
和帧移
200
的设置，然后计算每个帧特征的能量，并使用这些能量的平均值来获得输入特征；第
τ
帧的能量可以表示为：其中
y(
τ
，
k
，
t)
是由
GTF
分割出的噪声语音，
L
是帧长；在重塑和拼接上下文特征后，
CNN
的输入特征表示成其中
B
是批处理大小，
F
是上下文帧数，
K
是子带数
。3.
根据权利要求1所述的一种基于听觉感知的低复杂度语音增强方法，其特征在于，所述步骤
2)
具体...

【专利技术属性】
技术研发人员：王龙标，李楠，党建武，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人