【技术实现步骤摘要】
一种基于噪声分类的轻量级语音增强系统
[0001]本专利技术属于语音信号处理
,具体涉及一种基于噪声分类的轻量级语音增强系统。
技术介绍
[0002]语音增强技术是语音信号处理领域中的一个重要分支,其主要目的在于改善语音的质量和提高语音的可懂度。语音增强技术作为前端模块,在语音识别系统、语音编码器、助听器等领域有着广泛的应用,通常使用深度学习网络模型卷积循环神经网络对带噪语音进行降噪处理,以实现对带噪语音的增强处理。
[0003]随着深度学习在语音信号处理领域的发展,深度学习模型计算量越加复杂,相应的也带来了模型精度的不断提升。通常情况下深度学习模型在进行训练时,为了加快训练速度,通常会使用多GPU的高性能处理器分布式训练,当模型部署到内存空间较小的嵌入式平台(如ET200按键式调度台)时,由于其计算性能和存储空间有限,而基于深度学习的语音增强模型的复杂度高、计算量大,会导致模型部署困难,同时因为模型计算速度慢,会导致高延迟,对实时通信造成影响。若是通过普通的模型量化,虽然可以减少模型尺寸和存储空间,但也会导致 ...
【技术保护点】
【技术特征摘要】
1.一种基于噪声分类的轻量级语音增强系统,其特征在于:包括音频输入模块、音频处理模块和音频输出模块,所述音频输入模块,用于预处理和语音特征提取功能;所述音频处理模块,用于噪声分类和语音增强功能;所述音频输出模块,用于后处理功能;所述语音增强系统还包括处理带噪音频的以下步骤:语音信号预处理:包括预加重、分帧、帧移和加窗;语音特征提取:包括离散傅里叶变换、取模和取相位角;噪声分类:使用噪声帧的幅度谱特征进行训练得到分类模型;语音增强:使用基于注意力机制的卷积循环神经网络对多种类型的带噪语音进行分别训练得到网络模型的不同参数,并使用权值量化技术降低模型复杂度;后处理:对语音增强模块输出的增强语音信号帧恢复成语音流并发送到对方。2.根据权利要求1所述的一种基于噪声分类的轻量级语音增强系统,其特征在于:所述语音信号预处理,具体包括以下步骤:S11、预加重:采用一阶高通滤波器消除口唇辐射对高频声的影响,提高高频分量;S12、分帧和帧移:通过将语音信号分成较短的时间段实现分帧操作,同时需要将相邻两帧信号重叠一部分以保证语音信号较为平滑;S13、加窗:将分好的帧数乘一段同长度的数据。3.根据权利要求1所述的一种基于噪声分类的轻量级语音增强系统,其特征在于:所述语音特征提取具体流程为:对每一帧信号做离散傅里叶变换得到频谱,然后对频谱取模...
【专利技术属性】
技术研发人员:严体华,缪亚泰,罗小宝,
申请(专利权)人:西安电子科技大学广州研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。