一种语音数据的处理方法及处理装置制造方法及图纸

技术编号:39311232 阅读:12 留言:0更新日期:2023-11-12 15:56
本发明专利技术适用于语音处理的技术领域,提供了一种语音数据的处理方法及处理装置,所述处理方法包括:将多个待处理语音数据进行预处理和子带分解,得到子带频谱;将所述子带频谱输入编码模块,得到第一特征数据;将所述第一特征数据输入自注意力模块,得到由所述自注意力模块输出的第一处理结果;将所述第三处理结果进行短时傅里叶变换,得到第四处理结果;将所述第三处理结果和所述第四处理结果进行点乘运算,得到增益结果;将所述增益结果进行逆短时傅里叶变换、加窗以及信号重构,得到语音增强结果,并基于所述语音增强结果进行语音识别。增强后的语音信号可能更清晰、可辨认度更高,提高了语音识别的准确性和性能。提高了语音识别的准确性和性能。提高了语音识别的准确性和性能。

【技术实现步骤摘要】
一种语音数据的处理方法及处理装置


[0001]本专利技术属于语音处理的
,尤其涉及一种语音数据的处理方法及处理装置。

技术介绍

[0002]语音识别和语音处理技术正在不断进步,但仍存在一些困难。当前语音数据处理方法在高噪声环境下的准确性有限,而且对于口音、说话速度和语言表达方式的变化非常敏感。此外,在资源受限或网络不稳定的环境中,现有的语音处理方法通常面临性能退化的挑战,这限制了其广泛应用领域。
[0003]近年来,深度神经网络(DNN)已被应用于降噪和去混响任务中,并取得了显著的效果。基于深度学习的方法能够通过大规模数据集的训练来捕捉语音信号的显著特征,同时保留语音细节。这包括使用卷积神经网络(CNN)、循环神经网络(RNN)和变分自编码器(VAE)等。这些方法在降噪和去混响任务上展现出了较好的性能,但仍然存在一些挑战,如处理长时延迟和不完美的复杂场景效果等问题。
[0004]但是,目前深度学习算法对于语音数据处理的处理精度偏低,这是一个亟需解决的技术问题。

技术实现思路

[0005]有鉴于此,本专利技术实施例提供了一种语音数据的处理方法、处理装置、终端设备以及计算机可读存储介质,以解决目前深度学习算法对于语音数据处理的处理精度偏低的技术问题。
[0006]本专利技术实施例的第一方面提供了一种语音数据的处理方法,所述处理方法包括:将多个待处理语音数据进行预处理和子带分解,得到子带频谱;将所述子带频谱输入编码模块,得到第一特征数据;将所述第一特征数据输入自注意力模块,得到由所述自注意力模块输出的第一处理结果;将所述第一处理结果输入解码模块,得到由所述解码模块输出的第二处理结果;将所述第二处理结果输入卷积层,得到由所述卷积层输出的第三处理结果;将所述第三处理结果进行短时傅里叶变换,得到第四处理结果;将所述第三处理结果和所述第四处理结果进行点乘运算,得到增益结果;将所述增益结果进行逆短时傅里叶变换、加窗以及信号重构,得到语音增强结果,并基于所述语音增强结果进行语音识别;其中,所述编码模块的输出与所述自注意力模块的输出拼接得到所述解码模块的输入,所述解码模块中第二子模块的输入由所述解码模块的第一子模块和编码模块中第二个子模块的输出拼接组成,所述解码模块中第三子模块的输入由所述解码模块的第二子模块和编码模块中第一个子模块的输出拼接组成,所述卷积层的输入为所述解码模块的输
出。
[0007]进一步地,所述将多个待处理语音数据进行预处理和子带分解,得到子带频谱的步骤,包括:将多个待处理语音数据进行滤波处理,得到多个第一语音数据;将多个所述第一语音数据进行混响卷积,得到多个第二语音数据;将多个所述第二语音数据进行噪声混合处理,得到多个第三语音数据;将多个所述第三语音数据进行短时傅里叶变换,并进行子带分解,得到所述子带频谱。
[0008]进一步地,所述将多个所述第三语音数据进行短时傅里叶变换,并进行子带分解,得到子带频谱的步骤,包括:对所述第三语音数据进行预加重处理,得到第四语音数据;将所述第四语音数据进行分帧加窗和短时傅里叶变换,得到第五语音数据;将所述第五语音数据进行子带分解,并转换为预设数据格式,得到所述子带频谱。
[0009]进一步地,所述编码模块包括多个第一卷积模块,所述第一卷积模块包括依次连接的卷积层、批量归一化层和激活层;多个所述第一卷积模块之间通过最大池化层连接。
[0010]进一步地,所述将所述第一特征数据输入自注意力模块,得到由所述自注意力模块输出的第一处理结果的步骤,包括:所述自注意力模块通过三种预设的线性变换矩阵,将所述第一特征数据中每一位置上的特征向量映射至查询向量、键向量和值向量上;所述自注意力模块将所述查询向量和所述键向量代入如下公式一,得到注意力得分;其中,a
i
表示所述注意力得分,Q表示所述查询向量,K表示所述键向量,为所述键向量的维度,为所述查询向量的维度,和预训练权重矩阵,tanh()表示双曲正切函数;将所述值向量和所述注意力得分代入如下公式二,得到所述第一处理结果;
[0011]其中,c
i
表示所述第一处理结果,a
i
表示所述注意力得分,v
j
表示第j个所述值向量,j表示所述值向量的数量。
[0012]进一步地,在所述将多个待处理语音数据进行滤波处理,得到多个第一语音数据的步骤之前,还包括:样本语音数据经过编码模块、自注意力模块和解码模块处理,得到样本处理结果;根据所述样本处理结果和标准处理结果计算对数均方误差和多分辨率短时傅里叶变换误差;根据所述对数均方误差和所述多分辨率短时傅里叶变换误差,调整所述编码模块、所述自注意力模块和所述解码模块的参数,得到训练后的编码模块、自注意力模块和解码模块。
[0013]进一步地,所述根据所述样本处理结果和标准处理结果计算对数均方误差和多分
辨率短时傅里叶变换误差的步骤,包括:基于样本处理结果和标准处理结果各自对应的频谱图的实部和虚部计算所述对数均方误差;通过如下公式三计算频谱收敛性损失和对数STFT幅度损失;
[0014]其中,表示所述频谱收敛性损失,表示所述对数STFT幅度损失,和分别表示Frobenius范数和L1范数,表示STFT幅度,N表示幅度中的元素数量。
[0015]本专利技术实施例的第二方面提供了一种语音数据的处理装置,包括:分解单元,用于将多个待处理语音数据进行预处理和子带分解,得到子带频谱;第一处理单元,用于将所述子带频谱输入编码模块,得到第一特征数据;第二处理单元,用于将所述第一特征数据输入自注意力模块,得到由所述自注意力模块输出的第一处理结果;第三处理单元,用于将所述第一处理结果输入解码模块,得到由所述解码模块输出的第二处理结果;第四处理单元,用于将所述第二处理结果输入卷积层,得到由所述卷积层输出的第三处理结果;变换单元,用于将所述第三处理结果进行短时傅里叶变换,得到第四处理结果;运算单元,用于将所述第三处理结果和所述第四处理结果进行点乘运算,得到增益结果;第五处理单元,用于将所述增益结果进行逆短时傅里叶变换、加窗以及信号重构,得到语音增强结果,并基于所述语音增强结果进行语音识别;其中,所述编码模块的输出与所述自注意力模块的输出拼接得到所述解码模块的输入,所述解码模块中第二子模块的输入由所述解码模块的第一子模块和编码模块中第二个子模块的输出拼接组成,所述解码模块中第三子模块的输入由所述解码模块的第二子模块和编码模块中第一个子模块的输出拼接组成,所述卷积层的输入为所述解码模块的输出。
[0016]本专利技术实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述方法的步骤。
[0017]本专利技术实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述方法的步骤。
[0018]本专利技术实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音数据的处理方法,其特征在于,所述处理方法包括:将多个待处理语音数据进行预处理和子带分解,得到子带频谱;将所述子带频谱输入编码模块,得到第一特征数据;将所述第一特征数据输入自注意力模块,得到由所述自注意力模块输出的第一处理结果;将所述第一处理结果输入解码模块,得到由所述解码模块输出的第二处理结果;将所述第二处理结果输入卷积层,得到由所述卷积层输出的第三处理结果;将所述第三处理结果进行短时傅里叶变换,得到第四处理结果;将所述第三处理结果和所述第四处理结果进行点乘运算,得到增益结果;将所述增益结果进行逆短时傅里叶变换、加窗以及信号重构,得到语音增强结果,并基于所述语音增强结果进行语音识别;其中,所述编码模块的输出与所述自注意力模块的输出拼接得到所述解码模块的输入,所述解码模块中第二子模块的输入由所述解码模块的第一子模块和编码模块中第二个子模块的输出拼接组成,所述解码模块中第三子模块的输入由所述解码模块的第二子模块和编码模块中第一个子模块的输出拼接组成,所述卷积层的输入为所述解码模块的输出。2.如权利要求1所述的语音数据的处理方法,其特征在于,所述将多个待处理语音数据进行预处理和子带分解,得到子带频谱的步骤,包括:将多个待处理语音数据进行滤波处理,得到多个第一语音数据;将多个所述第一语音数据进行混响卷积,得到多个第二语音数据;将多个所述第二语音数据进行噪声混合处理,得到多个第三语音数据;将多个所述第三语音数据进行短时傅里叶变换,并进行子带分解,得到所述子带频谱。3.如权利要求2所述的语音数据的处理方法,其特征在于,所述将多个所述第三语音数据进行短时傅里叶变换,并进行子带分解,得到子带频谱的步骤,包括:对所述第三语音数据进行预加重处理,得到第四语音数据;将所述第四语音数据进行分帧加窗和短时傅里叶变换,得到第五语音数据;将所述第五语音数据进行子带分解,并转换为预设数据格式,得到所述子带频谱。4.如权利要求1所述的语音数据的处理方法,其特征在于,所述编码模块包括多个第一卷积模块,所述第一卷积模块包括依次连接的卷积层、批量归一化层和激活层;多个所述第一卷积模块之间通过最大池化层连接。5.如权利要求1所述的语音数据的处理方法,其特征在于,所述将所述第一特征数据输入自注意力模块,得到由所述自注意力模块输出的第一处理结果的步骤,包括:所述自注意力模块通过三种预设的线性变换矩阵,将所述第一特征数据中每一位置上的特征向量映射至查询向量、键向量和值向量上;所述自注意力模块将所述查询向量和所述键向量代入如下公式一,得到注意力得分;其中,a
i
表示所述注意力得分,Q表示所述查询向量,K表示所述键向量,为所述键向量的维度,为所述查询向量的维度,和预训练权重矩阵,tanh()表示双曲正切函数;
将所述值向量和所述注意力得分代入如下公式二,得到所述第一处理结果;其中,c
...

【专利技术属性】
技术研发人员:韦伟才邓海蛟马健莹潘晖
申请(专利权)人:深圳市龙芯威半导体科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1