基于KAN卷积改进的DCU-Net智能音箱语音识别降噪方法技术

技术编号:43683265 阅读:38 留言:0更新日期:2024-12-18 21:04
本发明专利技术公开的基于KAN卷积改进的DCU‑Net智能音箱语音识别降噪方法,构建基于KAN卷积改进的DCU‑Net降噪网络模型并进行训练,通过模型编码器层对音频数据的复数频谱进行编码,提取并增强特征信息,再利用局部稀疏注意力机制加权处理,之后解码特征信息并重构为模型降噪后的音频数据;将模型降噪后的音频数据和相应的纯净语音输入L<subgt;wSDR</subgt;损失函数计算损失值并更新模型参数,训练完成后冻结模型参数更新,切换验证集并调优模型超参数。本发明专利技术有效降低了模型的复杂度,增强了模型在处理复杂音频场景中的鲁棒性,同时实现了高效的音频噪声抑制,提升智能音箱中的语音识别准确率。

【技术实现步骤摘要】

本专利技术属于音频降噪处理方法,具体涉及基于kan卷积改进的dcu-net智能音箱语音识别降噪方法。


技术介绍

1、音频降噪技术是信号处理中的一个关键领域,旨在从噪声干扰的音频信号中恢复出清晰的语音或声音。这项技术对于多种应用至关重要,包括语音通信、音频和视频编辑、听力辅助设备、监控系统等。音频信号中的噪声可以分类为稳态噪声和非稳态噪声,它们各自具有不同的特性和处理挑战。

2、传统音频降噪技术通常采用以下五种方案:设计针对特定噪声特性的高低带通滤波器;使用频域转换估计噪声功率谱,如谱减法;利用信号和噪声的统计特性,例如自回归(ar)和移动平均(ma)模型进行降噪;采用子空间方法将信号分解为噪声子空间和信号子空间,然后抑制噪声成分;以及对信号的短时傅里叶变换(stft)矩阵进行奇异值分解(svd),去除低奇异值成分以抑制噪声。

3、近年来,深度学习技术的发展为音频降噪带来了新的解决方向。与传统方法相比,基于深度学习的方法不仅能有效处理稳态噪声,对非稳态噪声的处理也表现出色。当前基于深度学习的音频降噪技术主要包括:卷积神经网络(cnn)本文档来自技高网...

【技术保护点】

1.基于KAN卷积改进的DCU-Net智能音箱语音识别降噪方法,其特征在于,包括以下步骤:

2.如权利要求1所述的基于KAN卷积改进的DCU-Net智能音箱语音识别降噪方法,其特征在于,所述步骤1中的预处理方法具体为:首先,去除音频中的静默段;然后,计算各噪声类别在音频数据集中出现的频率,并为每个类别分配惩罚权重,使用反比例方法赋予出现频率较低的类别更高的权重;最后,对长度不一致的音频进行截断或者零填充处理,将所有音频的长度标准化。

3.如权利要求1所述的基于KAN卷积改进的DCU-Net智能音箱语音识别降噪方法,其特征在于,所述步骤2中在进行音频数据集划分时使噪...

【技术特征摘要】

1.基于kan卷积改进的dcu-net智能音箱语音识别降噪方法,其特征在于,包括以下步骤:

2.如权利要求1所述的基于kan卷积改进的dcu-net智能音箱语音识别降噪方法,其特征在于,所述步骤1中的预处理方法具体为:首先,去除音频中的静默段;然后,计算各噪声类别在音频数据集中出现的频率,并为每个类别分配惩罚权重,使用反比例方法赋予出现频率较低的类别更高的权重;最后,对长度不一致的音频进行截断或者零填充处理,将所有音频的长度标准化。

3.如权利要求1所述的基于kan卷积改进的dcu-net智能音箱语音识别降噪方法,其特征在于,所述步骤2中在进行音频数据集划分时使噪声类型在各子集中均匀分布,并设置随机种子。

4.如权利要求1所述的基于kan卷积改进的dcu-net智能音箱语音识别降噪方法,其特征在于,所述步骤3中构建的模型包括三个具有不同感受野的编码器层encoder1、encoder2、encoder3,局部稀疏注意力模块lsa和三个解码器层decoder1、decoder2、decoder3;

5.如权利要求4所述的基于kan卷积改进的dcu-net智能音箱语音识别降噪方法,其特征在于,所述音频数据的复数频谱通过短时傅里叶变换获得,短时傅里叶变换的窗口类型采用汉明窗,窗口长度...

【专利技术属性】
技术研发人员:周红芳郑康运
申请(专利权)人:西安理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1