一种基于频域自注意力网络的语音质量增强方法及系统技术方案

技术编号：40665909 阅读：21 留言：0更新日期：2024-03-18 19:00

本发明专利技术公开了一种基于频域自注意力网络的语音质量增强方法及系统，首先输入原始语音并进行预处理；然后将处理后频率响应输入频域自注意力网络；最终输出信号并对输出的信号进行后处理得到语音增强信号；频域自注意力网络，包括位置编码模块、N个相同的基本单元模块；位置编码模块包括位置编码层；基本单元模块包括多注意力头层、残差连接和层归一化层、前馈层；N个相同的基本单元模块，其中N由所需网络深度决定。本发明专利技术能够实现对语音信号中噪声的去除，在语音通信方具有重要意义。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于语音质量处理，涉及一种语音质量增强方法及系统，尤其涉及一种基于频域自注意力网络的语音质量增强方法及系统。

技术介绍

1、20世纪60年代中期数字信号处理领域形成的诸多富有实践性的理论和算法,如快速傅立叶变换(fft）以及各种数字滤波器等是语音信号数字处理的各项理论和技术基础。在70年中后期之后，线性预测技术（lpc)已经用于语音信号的信息压缩和特征提取，并已成为语音信号处理中非常重要的一个工具。80年代语音信号处理技术的重大发展是隐马尔可夫模型（hmm）描述语音信号过程的产生过程。进入上世纪90年代以来，语音信号采集与分析技术在实际应用方面取得了许多突破性的研究进展。

2、在商业、教育和医疗保健等需要远程工作领域，对电话会议系统有着较大的需求。因此电话会议系统的语音质量十分关键。因此能否极大程度去除噪声对语音质量提升有着决定性作用。在全双工通信中，当回声干扰双端通话（dt）场景时，这些问题变得更具挑战性。因此，能够解决声学回声、噪声和去混响的解决方案对于实现无缝通信至关重要。

3、近年来，随着科学技...

【技术保护点】

1.一种基于频域自注意力网络的语音质量增强方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于频域自注意力网络的语音质量增强方法，其特征在于：步骤S1中，对输入的原始语音进行预处理，包括傅里叶变换、归一化和升维操作，所述傅里叶变换是利用快速傅里叶变换函数获得输入语音数据的频率响应，包括幅度响应特性和相位响应特性，所述归一化是利用最大最小值将幅度响应特性和相位响应特性进行归一化，并将相位响应特性尺度变换为0到2Π的长度区间，所述升维操作是将本为一维序列的频域信号裁剪为若干个一定长度的序列，并将这些序列按列堆叠成二维矩阵。

3.根据权利要求1所述的基于频域自...

【技术特征摘要】

1.一种基于频域自注意力网络的语音质量增强方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于频域自注意力网络的语音质量增强方法，其特征在于：步骤s1中，对输入的原始语音进行预处理，包括傅里叶变换、归一化和升维操作，所述傅里叶变换是利用快速傅里叶变换函数获得输入语音数据的频率响应，包括幅度响应特性和相位响应特性，所述归一化是利用最大最小值将幅度响应特性和相位响应特性进行归一化，并将相位响应特性尺度变换为0到2π的长度区间，所述升维操作是将本为一维序列的频域信号裁剪为若干个一定长度的序列，并将这些序列按列堆叠成二维矩阵。

3.根据权利要求1所述的基于频域自注意力网络的语音质量增强方法，其特征在于：步骤s2中，所述位置编码模块中的位置编码函数为：

4.根据权利要求1所述的基于频域自注意力网络的语音质量增强方法，其特征在于：步骤s2中，将位置编码后的频率响应输入若干个并列的注意力头组成的多注意力头层，其中每个注意力头由三个可进行参数优化的权重矩阵、、组成，用于获得查询q、键值k、值v，具体计算公式为：

5.根据权利要求4所述的基于频域自注意力网络的语...

【专利技术属性】
技术研发人员：袁程浩，归子涵，刘瑨玮，杨光义，贺威，
申请(专利权)人：武汉大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人