一种语音数据的处理方法及处理装置制造方法及图纸

技术编号：39311232 阅读：12 留言：0更新日期：2023-11-12 15:56

本发明专利技术适用于语音处理的技术领域，提供了一种语音数据的处理方法及处理装置，所述处理方法包括：将多个待处理语音数据进行预处理和子带分解，得到子带频谱；将所述子带频谱输入编码模块，得到第一特征数据；将所述第一特征数据输入自注意力模块，得到由所述自注意力模块输出的第一处理结果；将所述第三处理结果进行短时傅里叶变换，得到第四处理结果；将所述第三处理结果和所述第四处理结果进行点乘运算，得到增益结果；将所述增益结果进行逆短时傅里叶变换、加窗以及信号重构，得到语音增强结果，并基于所述语音增强结果进行语音识别。增强后的语音信号可能更清晰、可辨认度更高，提高了语音识别的准确性和性能。提高了语音识别的准确性和性能。提高了语音识别的准确性和性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音数据的处理方法及处理装置

[0001]本专利技术属于语音处理的
，尤其涉及一种语音数据的处理方法及处理装置。

技术介绍

[0002]语音识别和语音处理技术正在不断进步，但仍存在一些困难。当前语音数据处理方法在高噪声环境下的准确性有限，而且对于口音、说话速度和语言表达方式的变化非常敏感。此外，在资源受限或网络不稳定的环境中，现有的语音处理方法通常面临性能退化的挑战，这限制了其广泛应用领域。
[0003]近年来，深度神经网络（DNN）已被应用于降噪和去混响任务中，并取得了显著的效果。基于深度学习的方法能够通过大规模数据集的训练来捕捉语音信号的显著特征，同时保留语音细节。这包括使用卷积神经网络（CNN）、循环神经网络（RNN）和变分自编码器（VAE）等。这些方法在降噪和去混响任务上展现出了较好的性能，但仍然存在一些挑战，如处理长时延迟和不完美的复杂场景效果等问题。
[0004]但是，目前深度学习算法对于语音数据处理的处理精度偏低，这是一个亟需解决的技术问题。

技术实现思路

[0005]有鉴于此，本专利技术实施例提供了一种语音数据的处理方法、处理装置、终端设备以及计算机可读存储介质，以解决目前深度学习算法对于语音数据处理的处理精度偏低的技术问题。
[0006]本专利技术实施例的第一方面提供了一种语音数据的处理方法，所述处理方法包括：将多个待处理语音数据进行预处理和子带分解，得到子带频谱；将所述子带频谱输入编码模块，得到第一特征数据；将所述第一特征数据输入自注意力模块，得到...

【技术保护点】

【技术特征摘要】
1.一种语音数据的处理方法，其特征在于，所述处理方法包括：将多个待处理语音数据进行预处理和子带分解，得到子带频谱；将所述子带频谱输入编码模块，得到第一特征数据；将所述第一特征数据输入自注意力模块，得到由所述自注意力模块输出的第一处理结果；将所述第一处理结果输入解码模块，得到由所述解码模块输出的第二处理结果；将所述第二处理结果输入卷积层，得到由所述卷积层输出的第三处理结果；将所述第三处理结果进行短时傅里叶变换，得到第四处理结果；将所述第三处理结果和所述第四处理结果进行点乘运算，得到增益结果；将所述增益结果进行逆短时傅里叶变换、加窗以及信号重构，得到语音增强结果，并基于所述语音增强结果进行语音识别；其中，所述编码模块的输出与所述自注意力模块的输出拼接得到所述解码模块的输入，所述解码模块中第二子模块的输入由所述解码模块的第一子模块和编码模块中第二个子模块的输出拼接组成，所述解码模块中第三子模块的输入由所述解码模块的第二子模块和编码模块中第一个子模块的输出拼接组成，所述卷积层的输入为所述解码模块的输出。2.如权利要求1所述的语音数据的处理方法，其特征在于，所述将多个待处理语音数据进行预处理和子带分解，得到子带频谱的步骤，包括：将多个待处理语音数据进行滤波处理，得到多个第一语音数据；将多个所述第一语音数据进行混响卷积，得到多个第二语音数据；将多个所述第二语音数据进行噪声混合处理，得到多个第三语音数据；将多个所述第三语音数据进行短时傅里叶变换，并进行子带分解，得到所述子带频谱。3.如权利要求2所述的语音数据的处理方法，其特征在于，所述将多个所述第三语音数据进行短时傅里叶变换，并进行子带分解，得到子带频谱的步骤，包括：对所述第三语音数据进行预加重处理，得到第四语音数据；将所述第四语音数据进行分帧加窗和短时傅里叶变换，得到第五语音数据；将所述第五语音数据进行子带分解，并转换为预设数据格式，得到所述子带频谱。4.如权利要求1所述的语音数据的处理方法，其特征在于，所述编码模块包括多个第一卷积模块，所述第一卷积模块包括依次连接的卷积层、批量归一化层和激活层；多个所述第一卷积模块之间通过最大池化层连接。5.如权利要求1所述的语音数据的处理方法，其特征在于，所述将所述第一特征数据输入自注意力模块，得到由所述自注意力模块输出的第一处理结果的步骤，包括：所述自注意力模块通过三种预设的线性变换矩阵，将所述第一特征数据中每一位置上的特征向量映射至查询向量、键向量和值向量上；所述自注意力模块将所述查询向量和所述键向量代入如下公式一，得到注意力得分；其中，a
i
表示所述注意力得分，Q表示所述查询向量，K表示所述键向量，为所述键向量的维度，为所述查询向量的维度，和预训练权重矩阵，tanh（）表示双曲正切函数；
将所述值向量和所述注意力得分代入如下公式二，得到所述第一处理结果；其中，c
...

【专利技术属性】
技术研发人员：韦伟才，邓海蛟，马健莹，潘晖，
申请(专利权)人：深圳市龙芯威半导体科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人