System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 语音处理的方法及装置、电子设备、存储介质制造方法及图纸_技高网

语音处理的方法及装置、电子设备、存储介质制造方法及图纸

技术编号:40646626 阅读:7 留言:0更新日期:2024-03-13 21:26
本申请涉及语音处理技术领域,公开一种语音处理的方法及装置、电子设备、存储介质。该方法包括:获取上一帧的输出语音数据和当前帧的混合语音数据;根据上一帧的输出语音数据、当前帧的混合语音数据利用预设的神经网络模型获取步长;根据步长更新预设的自适应滤波器中与上一帧的输出语音数据对应的状态估计矩阵;根据更新后的状态估计矩阵、上一帧的输出语音数据和当前帧的混合语音数据确定当前帧的输出语音数据。这样,由于神经网络模型是预先通过大量的语音数据训练获得,能够使得通过神经网络模型确定的步长,更容易使自适应滤波器达到收敛。从而加快自适应滤波器的收敛速度,以更快的抑制声反馈,进而提高用户的体验感。

【技术实现步骤摘要】

本专利技术涉及语音处理,尤其是涉及一种语音处理的方法及装置、电子设备、存储介质


技术介绍

1、声反馈通常是由于扬声器和麦克风之间的耦合而产生的,当反馈满足振荡条件时将会产生啸叫现象,导致音质的退化。相关技术中,通常使用自适应滤波器对语音数据进行处理,从而抑制声反馈。传统的自适应滤波器,由自适应算法更新自适应滤波器的步长。其中,自适应算法通常获取每一帧的输入语音数据和期望信号之间的误差信号,并根据误差信号不断调整步长。通常来说,传统的自适应滤波器需要在处理十几帧语音数据后才能收敛,抑制声反馈的速度较慢,导致用户的体验感较差。

2、需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。


技术实现思路

1、为了对披露的实施例的一些方面有基本的理解,下面给出了简单的概括。所述概括不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围,而是作为后面的详细说明的序言。

2、本公开实施例提供了一种语音处理的方法及装置、电子设备、存储介质,以提高抑制声反馈的速度。

3、本申请实施例提供了一种语音处理的方法,包括:获取上一帧的输出语音数据和当前帧的混合语音数据,所述当前帧的混合语音数据由所述上一帧的输出语音数据和当前帧的输入语音数据混合得到;根据所述上一帧的输出语音数据、所述当前帧的混合语音数据利用预设的神经网络模型获取步长;根据所述步长更新预设的自适应滤波器中与所述上一帧的输出语音数据对应的状态估计矩阵;根据更新后的状态估计矩阵、所述上一帧的输出语音数据和所述当前帧的混合语音数据确定所述当前帧的输出语音数据。

4、在上述实现过程中,通过神经网络模型利用上一帧的输出语音数据和当前帧的混合语音数据来确定自适应滤波器的步长,并利用该步长更新自适应滤波器中与上一帧的输出语音数据对应的状态估计矩阵。由于神经网络模型是预先通过大量的语音数据训练获得,能够使得通过神经网络模型确定的步长,更容易使得自适应滤波器达到收敛。从而加快自适应滤波器的收敛速度,以更快的抑制声反馈,进而提高用户的体验感。同时,相关技术中还存在采用端到端神经声学模型抑制声反馈的方式。但是,采用端到端神经声学模型需要对完整的每一帧语音数据进行处理。而本申请的抑制声反馈的方式只需要通过神经网络模型对与步长相关的部分数据进行处理。因此,本申请的抑制声反馈的方式相较于相关技术中采用端到端神经声学模型对声反馈进行抑制的方式算力更低。由此,能够使得算力较低的小型助听设备能够通过本申请的技术方案抑制声反馈。

5、进一步的,根据所述上一帧的输出语音数据、所述当前帧的混合语音数据利用预设的神经网络模型获取步长,包括:获取所述上一帧的输出语音数据对应的状态估计矩阵;根据所述上一帧的输出语音数据、所述当前帧的混合语音数据和所述上一帧的输出语音数据对应的状态估计矩阵确定当前帧的输入语音数据对应的误差估计矩阵;将所述上一帧的输出语音数据、上一帧的输出语音数据对应的状态估计矩阵和所述当前帧的输入语音数据对应的误差估计矩阵输入所述预设的神经网络模型,获得所述步长。

6、在上述实现过程中,在大量的实践经验中发现影响步长的参数主要是上一帧的输出语音数据、上一帧的输出语音数据对应的状态估计矩阵和当前帧的输入语音数据对应的误差估计矩阵。因此,预先训练神经网络模型,并通过将上一帧的输出语音数据、上一帧的输出语音数据对应的状态估计矩阵和当前帧的输入语音数据对应的误差估计矩阵输入预先训练的神经网络模型,能够获得让自适应滤波器能够更快收敛的步长。

7、进一步的,根据所述上一帧的输出语音数据、所述当前帧的混合语音数据和所述上一帧的输出语音数据对应的状态估计矩阵确定当前帧的输入语音数据对应的误差估计矩阵,包括:利用预设的时频转换算法对所述上一帧的输出语音数据进行处理,获得当前帧的参考信号;利用预设的时频转换算法对所述当前帧的混合语音数据进行处理,获得当前帧的频域语音数据;通过计算et=yt-ht-1*xt,获得误差估计矩阵;其中,et为当前帧的输入语音数据对应的误差估计矩阵;yt为当前帧的频域语音数据;ht-1为上一帧的输出语音数据对应的状态估计矩阵;xt为当前帧的参考信号。

8、在上述实现过程中,由于在频域中对语音数据进行分析,能够更好地揭示语音数据的频率特性。同时,在频域中也可以有效地去除噪声,提高语音数据的清晰度。因此,先将上一帧的输出语音数据和当前帧的混合语音数据分别转换到频域中,再利用频域中的当前帧的参考信号和频域中的当前帧的频域语音数据进行计算,能够使得计算出来的误差估计矩阵能更反应出上一帧的输出语音数据和当前帧的混合语音数据之间的差异性。

9、进一步的,根据所述步长更新预设的自适应滤波器中与所述上一帧的输出语音数据对应的状态估计矩阵,包括:通过计算ht=ht-1+gt*et,获得状态估计矩阵;其中,ht为当前帧的输出语音数据对应的状态估计矩阵;ht-1为上一帧的输出语音数据对应的状态估计矩阵;gt为当前帧的步长。

10、通常来说,自适应滤波器中的状态估计矩阵是用于描述自适应滤波器的权值、误差信号等内部状态变量与输入语音数据之间关系的矩阵。步长是控制自适应滤波器的权值更新的参数。通过调整步长,可以控制权值更新的幅度和速度,从而影响自适应滤波器的性能。如果步长过大,权值更新会过快,可能导致自适应滤波器不稳定或出现振荡。如果步长过小,权值更新会过慢,可能导致自适应滤波器收敛速度较慢。在上述实现过程中,通过结合上一帧的输出语音数据对应的状态估计矩阵、当前帧的步长和当前帧的输入语音数据对应的误差估计矩阵来更新状态估计矩阵,能够调整自适应滤波器的权值,以便于调整后的自适应滤波器能够更快速的收敛。

11、进一步的,根据更新后的状态估计矩阵、所述上一帧的输出语音数据和所述当前帧的混合语音数据确定所述当前帧的输出语音数据,包括:根据更新后的状态估计矩阵和所述上一帧的输出语音数据确定当前帧的输入语音数据对应的声反馈估计;根据所述当前帧的混合语音数据和所述声反馈估计确定当前帧的输出语音数据。

12、在上述实现过程中,由于语音信号是动态变化的,因此利用上一帧的输出语音数据能够保证声反馈估计的连续性,从而更好的捕捉当前帧的输入语音数据对应的声反馈情况。同时,由于自适应滤波器中的状态估计矩阵是用于描述自适应滤波器的权值、误差信号等内部状态变量与输入语音数据之间关系的矩阵。因此,结合更新后的状态估计矩阵和上一帧的输出语音数据,能够更准确的确定声反馈估计。进而利用该反馈估计信号定确定出的当前帧的输出语音数据,抑制声反馈的效果能够更好。

13、进一步的,根据更新后的状态估计矩阵和所述上一帧的输出语音数据确定当前帧的输入语音数据对应的声反馈估计,包括:利用预设的时频转换算法对所述上一帧的输出语音数据进行处理,获得当前帧的参考信号;计算获得当前帧的输入语音数据对应的声反馈估计;其中,为当前帧的输入本文档来自技高网...

【技术保护点】

1.一种语音处理的方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,根据所述上一帧的输出语音数据、所述当前帧的混合语音数据利用预设的神经网络模型获取步长,包括:

3.根据权利要求2所述的方法,其特征在于,根据所述上一帧的输出语音数据、所述当前帧的混合语音数据和所述上一帧的输出语音数据对应的状态估计矩阵确定当前帧的输入语音数据对应的误差估计矩阵,包括:

4.根据权利要求1所述的方法,其特征在于,根据所述步长更新预设的自适应滤波器中与所述上一帧的输出语音数据对应的状态估计矩阵,包括:

5.根据权利要求1所述的方法,其特征在于,根据更新后的状态估计矩阵、所述上一帧的输出语音数据和所述当前帧的混合语音数据确定所述当前帧的输出语音数据,包括:

6.根据权利要求5所述的方法,其特征在于,根据更新后的状态估计矩阵和所述上一帧的输出语音数据确定当前帧的输入语音数据对应的声反馈估计,包括:

7.根据权利要求1至6任一项所述的方法,其特征在于,根据更新后的状态估计矩阵、所述上一帧的输出语音数据和所述当前帧的混合语音数据确定所述当前帧的输出语音数据后,所述方法还包括:

8.一种语音处理的装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现权利要求1至7任一项所述的语音处理的方法。

10.一种存储介质,其特征在于,所述存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,所述计算机可执行指令促使处理器实现权利要求1至7任一项所述的语音处理的方法。

...

【技术特征摘要】

1.一种语音处理的方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,根据所述上一帧的输出语音数据、所述当前帧的混合语音数据利用预设的神经网络模型获取步长,包括:

3.根据权利要求2所述的方法,其特征在于,根据所述上一帧的输出语音数据、所述当前帧的混合语音数据和所述上一帧的输出语音数据对应的状态估计矩阵确定当前帧的输入语音数据对应的误差估计矩阵,包括:

4.根据权利要求1所述的方法,其特征在于,根据所述步长更新预设的自适应滤波器中与所述上一帧的输出语音数据对应的状态估计矩阵,包括:

5.根据权利要求1所述的方法,其特征在于,根据更新后的状态估计矩阵、所述上一帧的输出语音数据和所述当前帧的混合语音数据确定所述当前帧的输出语音数据,包括:

6.根据权利要求5所述的方法,其特征...

【专利技术属性】
技术研发人员:魏子凯卢县董璘
申请(专利权)人:恒玄科技上海股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1