语音增强方法及相关设备技术

技术编号:35979248 阅读:24 留言:0更新日期:2022-12-17 22:49
本申请涉及人工智能(AI)领域,具体涉及一种语音增强方法及相关设备,该方法包括:在进入PNR模式后,获取带噪语音信号和目标语音相关数据,其中,带噪语音包含目标用户的语音信号与干扰噪声信号;目标语音相关数据用于指示目标用户的语音特征;根据目标语音相关数据通过经过已训练好的语音降噪模型对带噪语音信号进行降噪处理,以得到目标用户的降噪语音信号;其中,语音降噪模型是基于神经网络实现的。采用本申请实施例可以实现对目标人语音的增强和对干扰的抑制。强和对干扰的抑制。强和对干扰的抑制。

【技术实现步骤摘要】
语音增强方法及相关设备


[0001]本申请涉及语音处理领域,尤其涉及一种语音增强方法及相关设备。

技术介绍

[0002]近几年,智能设备极大地丰富了人们的生活,当设备工作在安静场景中,语音通话质量和语音交互(唤醒和识别率)功能已经能较好地满足需求,但是当设备工作在环境噪声、语音干扰的场景条件下,语音通话质量、唤醒率和识别率的体验效果会下降,需要依靠语音增强算法实现增强目标语音和滤除干扰的目的。
[0003]环境噪声抑制和语音干扰抑制一直是的热点问题。通用降噪方法,一种方式是根据背景噪声信号和语音音乐信号之间频谱特征的差异,利用一段时间内采集到的信号进行背景噪声进行估计,然后根据估计出的背景噪声特征进行环境噪声抑制,该方法对于平稳噪声效果较好,但是对于语音干扰则完全失效。另一种方式除了利用背景噪声信号和语音音乐信号之间频谱特征的差异,还利用了不同声道间相关性的差异,例如多通道噪声抑制或者麦克风阵列波束形成技术,这类方法对于具有特定方向的语音干扰具有一定的抑制,但是对于干扰源方位变化跟踪效果往往无法满足需求,且无法实现对特定目标人的语音增强。
[0004]目前,语音增强和干扰抑制功能的实现主要通过传统或基于人工智能(artificial intelligence,AI)的通用降噪、分离等算法来实现,该方法通常可以提升语音通话和交互体验,但在语音干扰场景条件下,难以实现突出目标语音、抑制干扰语音的效果,体验较差。

技术实现思路

[0005]本申请实施例提供一种语音增强方法及相关设备,采用本申请实施例可以在各种环境噪声和语音干扰的场景下,抑制除了目标用户的语音之外的所有干扰噪声,突出目标用户的声音,提升了用户进行语音通话和语音交互等的体验。
[0006]第一方面,本申请实施例提供一种语音增强方法,包括:在终端设备进入特定人降噪(personalized noise reduction,PNR)模式后,获取带噪语音信号和目标语音相关数据,其中,带噪语音信号包含干扰噪声信号与目标用户的语音信号;目标语音相关数据用于指示目标用户的语音特征;根据目标语音相关数据通过已训练好的语音降噪模型对第一带噪语音信号进行降噪处理,得到目标用户的降噪语音信号;其中,语音降噪模型是基于神经网络实现的。
[0007]其中,干扰噪声信号包括非目标用户的语音信号、环境噪声信号(比如汽车鸣笛声、机器作业时发出的声音)等。
[0008]可选地,目标语音相关数据可以为目标用户的注册语音信号,可以为目标用户的语音拾取(voice pick up,VPU)信号,还可以为目标用户的声纹特征或者目标用户的视频唇动信息等。
[0009]通过目标语音相关数据指导语音降噪模型从带噪语音信号中提取出目标用户的语音信号,抑制除了目标用户的语音之外的所有干扰噪声,突出目标用户的声音,提升了用户进行语音通话和语音交互等的体验。
[0010]在一个可行的实施例中,本申请的方法还包括:
[0011]获取目标用户的语音增强系数;基于目标用户的语音增强系数对目标用户的降噪语音信号进行增强处理,以得到目标用户的增强语音信号,其中,目标用户的增强语音信号的幅度与目标用户的降噪语音信号的幅度的比值为目标用户语音增强系数。
[0012]通过引入目标用户的语音增强系数,可以进一步增强目标用户的语音信号,从而达到进一步突出目标用户的声音,抑制非目标用户的声音的目的,提升了用户进行语音通话和语音交互等的体验。
[0013]进一步地,通过降噪处理还得到干扰噪声信号,本申请的方法还包括:
[0014]获取干扰噪声抑制系数;基于干扰噪声抑制系数对干扰噪声信号进行抑制处理,以得到干扰噪声抑制信号,其中,干扰噪声抑制信号的幅度与干扰噪声信号的幅度的比值为干扰噪声抑制系数;将干扰噪声抑制信号与目标用户的增强语音信号进行融合,以得到输出信号。
[0015]可选地,干扰噪声抑制系数的取值范围为(0,1)。
[0016]通过引入干扰噪声抑制系数,进一步抑制非目标用户的声音,间接突出了目标用户的声音。
[0017]在一个可行的实施例中,通过降噪处理还得到干扰噪声信号,本申请的方法还包括:
[0018]获取干扰噪声抑制系数;基于干扰噪声抑制系数对干扰噪声信号进行抑制处理,以得到干扰噪声抑制信号,其中,干扰噪声抑制信号的幅度与干扰噪声信号的幅度的比值为干扰噪声抑制系数;将干扰噪声抑制信号与目标用户的降噪语音信号进行融合,以得到输出信号。
[0019]由于在实际应用中,耳中只出现目标用户的声音,没有噪声,会让用户很不习惯,因此通过引入干扰噪声抑制系数和干扰噪声信号,实现可在引入干扰噪声抑制系数抑制干扰噪声信号的同时,也使得在通话时听到噪音信号,提高了用户体验。
[0020]在一个可行的实施例中,目标用户包括M个,目标语音相关数据包括M个目标用户的语音相关数据,目标用户的降噪语音信号包括M个目标用户的降噪语音信号,目标用户的语音增强系数包括M个目标用户的语音增强系数,M为大于1的整数,
[0021]根据目标语音相关数据通过语音降噪模型对第一带噪语音信号进行降噪处理,得到目标用户的降噪语音信号,包括:
[0022]对于M个目标用户中任一目标用户A,根据目标用户A的语音相关数据通过语音降噪模型对第一带噪语音信号进行降噪处理,以得到目标用户A的降噪语音信号;对于M个目标用户中的每个目标用户均按照该方式进行处理,可得到M个目标用户的降噪语音信号;
[0023]基于目标用户的语音增强系数对目标用户的降噪语音信号进行增强处理,以得到目标用户的增强语音信号,包括:
[0024]基于目标用户A的语音增强系数对目标用户A的降噪语音信号进行处理,以得到目标用户A的增强语音信号;目标用户A的增强语音信号的幅度与目标用户A的降噪语音信号
的幅度的比值为目标用户A的语音增强系数;按照该方式对M个目标用户中每个目标用户的降噪语音信号进行处理,可得到M个目标用户的增强语音信号。
[0025]本申请的方法还包括:基于M个目标用户的增强语音信号得到输出信号。
[0026]采用上述并行的方式可以对多个目标用户的语音信号进行增强,并且对于多个目标用户,可以通过设置语音增强系数来进一步调整目标用户的增强语音信号,从而解决了在多人情况下语音降噪的问题。
[0027]在一个可行的实施例中,目标用户包括M个,目标语音相关数据包括M个目标用户的语音相关数据,目标用户的降噪语音信号包括M个目标用户的降噪语音信号,M为大于1的整数,
[0028]根据目标语音相关数据通过语音降噪模型对第一带噪语音信号进行降噪处理,以得到目标用户的降噪语音信号和干扰噪声信号,包括:
[0029]根据M个目标用户中第1个目标用户的语音相关数据通过语音降噪模型对第一带噪语音信号进行降噪处理,得到第1个目标用户的降噪语音信号和不包含第1个目标用户的语音信号的第一带噪语音信号;根据M个目标用户中第2个目标用户的语本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音增强方法,所述方法应用于终端设备,其特征在于,包括:在所述终端设备进入特定人降噪PNR模式后,获取第一带噪语音信号和目标语音相关数据,其中,所述第一带噪语音信号包含干扰噪声信号与目标用户的语音信号;所述目标语音相关数据用于指示所述目标用户的语音特征;根据所述目标语音相关数据通过语音降噪模型对所述第一带噪语音信号进行降噪处理,以得到所述目标用户的降噪语音信号;其中,所述语音降噪模型是基于神经网络实现的。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述目标用户的语音增强系数;基于所述目标用户的语音增强系数对所述目标用户的降噪语音信号进行增强处理,以得到所述目标用户的增强语音信号,其中,所述目标用户的增强语音信号的幅度与所述目标用户的降噪语音信号的幅度的比值为所述语音增强系数。3.根据权利要求2所述的方法,其特征在于,通过所述降噪处理还得到所述干扰噪声信号;所述方法还包括:获取干扰噪声抑制系数;基于所述干扰噪声抑制系数对所述干扰噪声信号进行抑制处理,以得到干扰噪声抑制信号,其中,所述干扰噪声抑制信号的幅度与所述干扰噪声信号的幅度的比值为所述干扰噪声抑制系数;将所述干扰噪声抑制信号与所述目标用户的增强语音信号进行融合,以得到输出信号。4.根据权利要求1所述的方法,其特征在于,通过所述降噪处理还得到所述干扰噪声信号;所述方法还包括:获取干扰噪声抑制系数;基于所述干扰噪声抑制系数对所述干扰噪声信号进行抑制处理,以得到干扰噪声抑制信号,其中,所述干扰噪声抑制信号的幅度与所述干扰噪声信号的幅度的比值为所述干扰噪声抑制系数;将所述干扰噪声抑制信号与所述目标用户的降噪语音信号进行融合,以得到输出信号。5.根据权利要求2所述的方法,其特征在于,所述目标用户包括M个,所述目标语音相关数据包括所述M个目标用户的语音相关数据,所述目标用户的降噪语音信号包括所述M个目标用户的降噪语音信号,所述目标用户的语音增强系数包括所述M个目标用户的语音增强系数,所述M为大于1的整数;所述根据所述目标语音相关数据通过语音降噪模型对所述第一带噪语音信号进行降噪处理,以得到目标用户的降噪语音信号,包括:对于所述M个目标用户中任一目标用户A,根据所述目标用户A的语音相关数据通过所述语音降噪模型对所述第一带噪语音信号经过进行降噪处理,以得到所述目标用户A的降噪语音信号;所述基于所述目标用户的语音增强系数对所述目标用户的降噪语音信号进行增强处理,以得到所述目标用户的增强语音信号,包括:
基于所述目标用户A的语音增强系数对所述目标用户A的降噪语音信号进行增强处理,以得到所述目标用户A的增强语音信号;所述目标用户A的增强语音信号的幅度与所述目标用户A的降噪语音信号的幅度的比值为所述目标用户A的语音增强系数;所述方法还包括:基于所述M个目标用户的增强语音信号得到输出信号。6.根据权利要求3所述的方法,其特征在于,所述目标用户包括M个,所述目标语音相关数据包括所述M个目标用户的语音相关数据,所述目标用户的降噪语音信号包括所述M个目标用户的降噪语音信号,所述M为大于1的整数;根据所述目标语音相关数据通过语音降噪模型对所述第一带噪语音信号进行降噪处理,得到目标用户的降噪语音信号和所述干扰噪声信号,包括:根据所述M个目标用户中第1个目标用户的语音相关数据通过所述语音降噪模型对所述第一带噪语音信号进行降噪处理,以得到所述第1个目标用户的降噪语音信号和不包含所述第1个目标用户的语音信号的第一带噪语音信号;根据所述M个目标用户中第2个目标用户的语音相关数据通过所述语音降噪模型对所述不包含所述第1个目标用户的语音信号的第一带噪语音信号进行降噪处理,得到所述第2个目标用户的降噪语音信号和不包含所述第1个目标用户的语音信号和第2个目标用户的语音信号的第一带噪语音信号;重复上述过程,直至根据第M个目标用户的语音相关数据通过所述语音降噪模型对不包含所述第1至M

1个目标用户的语音信号的第一带噪语音信号进行降噪处理,得到所述第M个目标用户的降噪语音信号和所述干扰噪声信号。7.根据权利要求3所述的方法,其特征在于,所述目标用户包括M个,所述目标语音相关数据包括所述M个目标用户的语音相关数据,所述目标用户的降噪语音信号包括所述M个目标用户的降噪语音信号,所述M为大于1的整数;根据所述目标语音相关数据通过所述语音降噪模型对所述第一带噪语音信号进行降噪处理,以得到所述目标用户的降噪语音信号和所述干扰噪声信号,包括:根据所述M个目标用户的语音相关数据通过所述语音降噪模型对所述第一带噪语音信号进行降噪处理,以得到所述M个目标用户的降噪语音信号和所述干扰噪声信号。8.根据权利要求1

4任一项所述的方法,其特征在于,所述目标用户包括M个,所述目标用户的相关数据包括所述目标用户的注册语音信号,所述语音降噪模型包括第一编码网络、第二编码网络、时间卷积网络TCN和第一解码网络;所述根据所述目标语音相关数据通过语音降噪模型对所述第一带噪语音信号进行降噪处理,以得到所述目标用户的降噪语音信号,包括:利用所述第一编码网络和所述第二编码网络分别对所述目标用户的注册语音信号和所述第一带噪语音信号进行特征提取,以得到所述目标用户的注册语音信号的特征向量和所述第一带噪语音信号的特征向量;根据所述目标用户的注册语音信号的特征向量和所述第一带噪语音信号的特征向量得到第一特征向量;根据所述TCN和所述第一特征向量得到第二特征向量;根据所述第一解码网络和所述第二特征向量得到所述目标用户的降噪语音信号。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:根据所述第一解码网络和所述第二特征向量还得到所述干扰噪声信号。10.根据权利要求5所述的方法,其特征在于,所述目标用户A的相关数据包括所述目标用户A的注册语音信号,所述语音降噪模型包括第一编码网络、第二编码网络、TCN和第一解码网络;所述根据所述目标用户A的语音相关数据通过语音降噪模型对所述第一带噪语音信号进行降噪处理,以得到所述目标用户A的降噪语音信号,包括:利用所述第一编码网络和所述第二编码网络分别对所述目标用户A的注册语音信号和所述第一带噪语音信号进行特征提取,以得到所述目标用户A的注册语音信号的特征向量和所述第一带噪语音信号的特征向量;根据所述目标用户A的注册语音信号的特征向量和所述第一带噪语音信号的特征向量得到第一特征向量;根据所述TCN和所述第一特征向量得到第二特征向量;根据所述第一解码网络和所述第二特征向量得到所述目标用户A的降噪语音信号。11.根据权利要求6所述的方法,其特征在于,所述M个目标用户中第i个目标用户的相关数据包括所述第i个目标用户的注册语音信号,所述i为大于0且小于或者等于M的整数,所述语音降噪模型包括第一编码网络、第二编码网络、TCN和第一解码网络,利用所述第一编码网络和所述第二编码网络分别对所述目标用户的注册语音信号和第一噪声信号进行特征提取,得到所述第i个目标用户的注册语音信号的特征向量和该第一噪声信号的特征向量;其中,所述第一噪声信号为不包含第1至i

1个目标用户的语音信号的第一带噪语音信号;根据所述第i个目标用户的注册语音信号的特征向量和所述第一噪声信号的特征向量得到第一特征向量;根据所述TCN和第一特征向量得到第二特征向量;根据所述第一解码网络和所述第二特征向量得到所述第i个目标用户的降噪语音信号和第二噪声信号,其中,所述第二噪声信号为不包含第1至i个目标用户的语音信号的第一带噪语音信号。12.根据权利要求7所述的方法,其特征在于,对于所述M个目标用户的语音相关数据,每个目标用户的相关数据包括该目标用户的注册语音信号,所述语音降噪模型包括M个第一编码网络、第二编码网络、TCN、第一解码网络和M个第三解码网络;所述根据所述M个目标用户的语音相关数据通过所述语音降噪模型对所述带噪语音进行降噪处理,以得到所述M个目标用户的降噪语音信号和所述干扰噪声信号,包括:利用所述M个第一编码网络分别对所述M个目标用户的注册语音信号进行特征提取,得到M个目标用户的注册语音信号的特征向量;利用所述第二编码网络对所述第一带噪语音信号进行特征提取,得到所述第一带噪语音信号的特征向量;根据所述M个目标用户的注册语音信号的特征向量和所述第一带噪语音信号的特征向量得到第一特征向量;根据所述TCN和所述第一特征向量得到第二特征向量;根据所述M个第三解码网络中的每个第三解码网络、所述第二特征向量和与该第三解
码网络对应的第一编码网络输出的特征向量得到M个目标用户的降噪语音信号;根据所述第一解码网络、所述第二特征向量与所述第一带噪语音信号的特征向量得到所述干扰噪声信号。13.根据权利要求1

4任一项所述的方法,其特征在于,所述目标用户的相关数据包括所述目标用户的语音拾取VPU信号,所述语音降噪模型包括预处理模块、第三编码网络、门控循环单元GRU、第二解码网络和后处理模块;所述根据所述目标语音相关数据通过语音降噪模型对所述第一带噪语音信号进行降噪处理,以得到所述目标用户的降噪语音信号,包括:通过所述预处理模块分别对所述第一带噪语音信号和所述目标用户的VPU信号进行时频变换,以得到所述第一带噪语音信号的第一频域信号和所述VPU信号的第二频域信号;对所述第一频域信号和所述第二频域信号进行融合,以得到第一融合频域信号;将所述第一融合频域信号先后经过所述第三编码网络、所述GRU和所述第二解码网络处理,以得到所述目标用户的语音信号的第三频域信号的掩膜;通过所述后处理模块根据所述第三频域信号的掩膜对所述第一频域信号进行后处理,以得到所述第三频域信号;对所述第三频域信号进行频时变换,以得到所述目标用户的降噪语音信号;其中,所述第三编码模块和所述第二解码模块均是基于卷积层和频域变换模块FTB实现的。14.根据权利要求13所述的方法,其特征在于,将所述第一融合频域信号先后经过所述第三编码网络、所述GRU和所述第二解码网络处理还得到所述第一频域信号的掩膜;通过所述后处理模块根据所述第一频域信号的掩膜对所述第一频域信号进行后处理,得到所述干扰噪声信号的第四频域信号;对所述第四频域信号进行频时变换,以得到所述干扰噪声信号。15.根据权利要求5所述的方法,其特征在于,所述目标用户A的相关数据包括所述目标用户A的VPU信号,所述语音降噪模型包括预处理模块、第三编码网络、GRU、第二解码网络和后处理模块,所述根据所述目标用户A的语音相关数据通过语音降噪模型对所述第一带噪语音信号进行降噪处理,以得到所述目标用户A的降噪语音信号,包括:通过所述预处理模块分别对所述第一带噪语音信号和所述目标用户A的VPU信号进行时频变换,以得到所述第一带噪语音信号的第一频域信号和所述目标用户A的VPU信号的第九频域信号;对所述第一频域信号和所述第九频域信号进行融合,得到第二融合频域信号;将所述第二融合频域信号先后经过所述第三编码网络、所述GRU和所述第二解码网络处理,以得到所述目标用户A的语音信号的第十频域信号的掩膜;通过所述后处理模块根据所述第十频域信号的掩膜对所述第一频域信号进行后处理,得到所述第十频域信号;对所述第十频域信号进行频时变换,以得到所述目标用户A的降噪语音信号;其中,所述第三编码模块和所述第二解码模块均是基于卷积层和FTB实现的。16.根据权利要求6所述的方法,其特征在于,所述M个目标用户中第i个目标用户的相
关数据包括所述第i个目标用户的VPU信号,所述i为大于0且小于或者等于M的整数,通过所述预处理模块对第一噪声信号和所述第i个目标用户的VPU信号均进行时频变换,以得到该第一噪声信号的第十一频域信号和所述第i个目标用户的VPU信号的第十二频域信号;对所述第十一频域信号和所述第十二频域信号进行融合,得到第三融合频域信号;其中,所述第一噪声信号为不包含第1至i

1个目标用户的语音信号的第一带噪语音信号;将所述第三融合频域信号先后经过所述第三编码网络、所述GRU和所述第二解码网络处理得到所述第i个目标用户的语音信号的第十三频域信号的掩膜和所述第十一频域信号的掩膜;通过所述后处理模块根据所述第十三频域信号的掩膜和所述第十一频域信号的掩膜对所述第十一频域信号进行后处理,得到所述第十三频域信号和第二噪声信号的第十四频域信号;对所述第十三频域信号和所述第十四频域信号进行频时变换,得到所述第i个目标用户的降噪语音信号和所述第二噪声信号,所述第二噪声信号为不包含第1至i个目标用户的语音信号的第一带噪语音信号;其中,所述第三编码模块和所述第二解码模块均是基于卷积层和FTB实现的。17.根据权利要求6、7、11、12和16任一项所述的方法,其特征在于,所述基于所述目标用户的语音增强系数对所述目标用户的降噪语音信号进行增强处理,以得到所述目标用户的增强语音信号,包括:对于所述M个目标用户中的目标用户A,基于所述目标用户A的语音增强系数对所述目标用户A的降噪语音信号进行增强处理,以得到所述目标用户A的增强语音信号;所述目标用户A的增强语音信号的幅度与所述目标用户A的降噪语音信号的幅度的比值为所述目标用户A的语音增强系数;所述将所述干扰噪声抑制信号与所述目标用户的增强语音信号进行融合,以得到输出信号,包括:将M个目标用户的增强语音信号与所述干扰噪声抑制信号进行融合,以得到所述输出信号。18.根据权利要求1

4任一项所述的方法,其特征在于,所述目标用户的相关数据包括所述目标用户的VPU信号,所述方法还包括:获取所述目标用户的耳内声音信号;所述根据所述目标语音相关数据通过语音降噪模型对所述第一带噪语音信号进行降噪处理,以得到所述目标用户的降噪语音信号,包括:分别对所述第一带噪语音信号和所述耳内声音信号进行时频变换,以得到所述第一带噪语音信号的第一频域信号和所述耳内声音信号的第五频域信号;根据所述目标用户的VPU信号、所述第一频域信号和所述第五频域信号得到所述第一带噪语音信号与所述耳内声音信号的协方差矩阵;基于所述协方差矩阵得到第一最小方差无失真响应MVDR权重;基于所述第一MVDR权重、所述第一频域信号和所述第五频域信号得到所述第一带噪语音信号的第六频域信号和所述耳内声音信号的第七频域信号;根据所述第六频域信号和所述第七频域信号得到所述降噪语音信号的第八频域信号;
对所述第八频域信号进行频时变换,以得到所述降噪语音信号。19.根据权利要求18所述的方法,其特征在于,所述方法还包括:根据所述降噪语音信号和所述第一带噪语音信号得到所述干扰噪声信号。20.根据权利要求5所述的方法,其特征在于,所述目标用户A的相关数据包括所述目标用户A的VPU信号,所述方法还包括:获取所述目标用户A的耳内声音信号;所述根据所述目标用户A的语音相关数据通过语音降噪模型对所述第一带噪语音信号进行降噪处理,以得到所述目标用户A的降噪语音信号,包括:分别对所述第一带噪语音信号和所述目标用户A的耳内声音信号进行时频变换,得到所述第一带噪语音信号的第一频域信号和所述目标用户A的耳内声音信号的第十五频域信号;根据所述目标用户A的VPU信号、所述第一频域信号和所述第十五频域信号得到所述第一带噪语音信号和所述目标用户A的耳内声音信号的协方差矩阵;基于所述协方差矩阵得到第二MVDR权重;基于所述第二MVDR权重、所述第一频域信号和所述第十五频域信号得到所述第一带噪语音信号的第十六频域信号和所述目标用户A的耳内声音信号的第十七频域信号;根据所述第十六频域信号和所述第十七频域信号得到所述目标用户A的降噪语音信号的第十八频域信号;对所述十八频域信号进行频时变换,以得到所述目标用户A的降噪语音信号。21.根据权利要求8

12任一项所述的方法,其特征在于,所述方法还包括:获取所述终端设备所处环境的第一噪音片段和第二噪音片段;所述第一噪音片段和第二噪音片段在时间上是连续的噪音片段;获取所述第一噪音片段的信噪比SNR和声压级SPL;若所述第一噪音片段的SNR大于第一阈值且所述第一噪音片段的SPL大于第二阈值,则提取所述第一噪音片段的第一临时特征向量;基于所述第一临时语音特征向量对所述第二噪音片段进行降噪处理,以得到第二降噪噪音片段;基于所述第二降噪噪音片段和所述第二噪音片段进行损伤评估,以得到第一损伤评分;若所述第一损伤评分不大于第三阈值,进入所述PNR模式;所述获取第一带噪语音信号包括:从在所述第一噪音片段之后产生的噪声信号中确定所述第一带噪语音信号;所述注册语音信号的特征向量包括所述第一临时特征向量。22.根据权利要求21所述的方法,其特征在于,若所述第一损伤评分不大于第三阈值,所述方法还包括:通过所述终端设备发出第一提示信息,所述第一提示信息用于提示是否使得所述终端设备进入所述PNR模式;在检测到所述目标用户的同意进入所述PNR模式的操作指令后,才进入所述PNR模式。23.根据权利要求21或22所述的方法,其特征在于,所述方法还包括:在检测到终端设备再次被使用时,获取第二带噪语音信号;
在所述第二带噪语音信号的SNR低于第四阈值时,根据所述第一临时特征向量对所述第二带噪语音信号进行降噪处理,以得到所述当前使用者的降噪语音信号;基于所述当前使用者的降噪语音信号和所述第二带噪语音信号进行损伤评估,以得到第二损伤评分;当所述第二损伤评分不大于第五阈值时,通过所述终端设备发出所述第二提示信息,所述第二提示信息用于提示所述当前使用者所述终端设备能够进入PNR模式;在检测到所述当前使用者的同意进入所述PNR模式的操作指令后,使得所述终端设备进入PNR模式对第三带噪语音信号进行降噪处理,所述第三带噪语音信号是在所述第二带噪语音信号之后获取的;在检测到所述当前使用者的不同意进入所述PNR模式的操作指令后,采用非PNR模式对所述第三带噪语音信号进行降噪处理。24.根据权利要求21或22所述的方法,其特征在于,所述方法还包括:若所述第一噪音片段的SNR不大于所述第一阈值或者所述第一噪音片段的SPL不大于所述第二阈值,且所述终端设备已存储参考临时声纹特征向量,获取第三噪音片段;根据所述参考临时声纹特征向量对所述第三噪音片段进行降噪处理,得到第三降噪噪音片段;根据所述第三噪音片段和所述第三降噪噪音片段进行损伤评估,以得到第三损伤评分;若所述第三损伤评分大于第六阈值且所述第三噪音片段的SNR小于第七阈值,或者所述第三损伤评分大于第八阈值且所述第三噪音片段的SNR不小于所述第七阈值,则通过所述终端设备发出所述第三提示信息,所述第三提示信息用于提示当前使用者所述终端设备能够进入PNR模式;在检测到所述当前使用者的同意进入所述PNR模式的操作指令后,使得所述终端设备进入PNR模式对第四带噪语音信号进行降噪处理;在检测到所述当前使用者的不同意进入所述PNR模式的操作指令后,采用非PNR模式对所述第四带噪语音信号进行降噪处理;其中,所述第四带噪语音信号是从在所述第三噪音片段之后产生的噪声信号中确定的。25.根据权利要求8

12任一项所述的方法,其特征在于,所述方法还包括:获取所述终端设备所处环境的第一噪音片段和第二噪音片段;所述第一噪音片段和第二噪音片段在时间上是连续的噪音片段;获取所述终端设备的辅助设备的麦克风阵列针对所述终端设备所处的环境采集的信号;利用所述采集的信号计算得到所述第一噪音片段的信号到达角DOA和SPL;若所述第一噪音片段的DOA大于第九阈值且小于第十阈值,且所述第一噪音片段的SPL大于第十一阈值,则提取所述第一噪音片段的第二临时特征向量,基于所述第二临时特征向量对所述第二噪音片段进行降噪处理,以得到第三降噪噪音片段;基于所述第三降噪噪音片段和所述第二噪音片段进行损伤评估,以得到第四损伤评分;若所述第四损伤评分大于第十二阈值,则进入所述PNR模式;所述获取第一带噪语音信号包括:从在所述第一噪音片段之后产生的噪声信号中确定所述第一带噪语音信号;
所述注册语音信号的特征向量包括所述第二临时特征向量。26.根据权利要求25所述的方法,其特征在于,若所述第四损伤评分不大于所述第十二阈值,所述方法还包括:通过所述终端设备发出第四提示信息,所述第四提示信息用于提示是否使得所述终端设备进入所述PNR模式;在检测到所述目标用户的同意进入所述PNR模式的操作指令后,才进入所述PNR模式。27.根据权利要求1

20任一项所述的方法,其特征在于,所述方法还包括:当检测到终端设备处于手持通话状态时,不进入所述PNR模式;当检测到所述终端设备处于免提通话状态时,进入所述PNR模式,其中,所述目标用户为所述终端设备的拥有者或者正在使用所述终端设备的用户;当检测到所述终端设备处于视频通话状态时,进入所述PNR模式,其中,所述目标用户为所述终端设备的拥有者或者距离所述终端设备最近的用户;当检测到所述终端设备连接到耳机进行通话时,进入所述PNR模式,其中,所述目标用户为佩戴所述耳机的用户;所述第一带噪语音信号和所述目标语音相关数据是通过所述耳机采集得到的;或当检测到所述终端设备连接到智能大屏设备、智能手表或者车载设备时,进入所述PNR模式,其中所述目标用户为所述终端设备的拥有者或者正在使用所述终端设备的用户,所述第一带噪语音信号和目标语音相关数据是由所述智能大屏设备、所述智能手表或者所述车载设备的音频采集硬件采集得到的。28.根据权利要求1

20任一项所述的方法,其特征在于,所述方法还包括:获取当前环境的音频信号的分贝值;若所述当前环境的音频信号的分贝值超过预设分贝值,且所述终端设备启动的应用程序对应的PNR功能未开启,则开启所述终端设备启动的应用程序对应的PNR功能,并进入所述PNR模式。29.根据权利要求1

20任一项所述的方法,其特征在于,所述终端设备包括显示屏,所述显示屏包括多个显示区域,其中,所述多个显示区域中的每个显示区域显示标签和对应的功能按键,所述功能按键用于控制对应标签所指示的功能或者应用程序的PNR功能的开启和关闭。30.根据权利要求1

20任一项所述的方法,其特征在于,当所述终端设备与另一终端设备之间进行语音数据传输时,所述方法还包括:接收所述另一终端设备发送的语音增强请求,所述语音增强请求用于指示所述终端设备开启通话功能的PNR功能;响应于所述语音增强请求,通过所述终端设备发出第三提示信息,所述第三提示信息用于提示是否使得所述终端设备开启所述通话功能的PNR功能;当检测到确认开启通话功能的PNR功能的操作指令后,开启所述通话功能的PNR功能,并进入PNR模式;向所述另一终端设备发送语音增强响应消息,所述语音增强响应消息用于指示所述终端设备已开启通话功能的PNR功能。31.根据权利要求5

7、10

12和17任一项所述的方法,其特征在于,当所述终端设备启
动视频通话或者视频录制功能,所述终端设备的显示界面包括第一区域和第二区域,所述第一区域用于显示视频通话内容或者视频录制的内容,所述第二区域用于显示M个控件和对应的M个标签,所述M个控件与所述M个目标用户一一对应,所述M个控件中的每个控件包括滑动按钮和滑动条,通过控制所述滑动按钮在所述滑动条上滑动,以调节该控件对应的标签所指示目标用户的语音增强系数。32.根据权利要求5

7、10

12和17任一项所述的方法,其特征在于,当所述终端设备启动视频通话或者视频录制功能,所述终端设备的显示界面包括第一区域,所述第一区域用于显示视频通话内容或者视频录制的内容;当检测到针对所述视频通话内容或者视频录制内容中任一对象的操作时,在所述第一区域显示该对象对应的控件,该控件包括滑动按钮和滑动条,通过控制所述滑动按钮在所述滑动条上滑动,以调节该对象的语音增强系数。33.根据权利要求1

4和8任一项所述的方法,其特征在于,当所述终端设备为智能交互设备时,所述目标语音相关数据包括包含唤醒词的语音信号,所述第一带噪语音信号包括包含命令词的音频信号。34.一种终端设备,其特征在于,包括:获取单元,用于在所述终端设备进入特定人降噪PNR模式后,获取第一带噪语音信号和目标语音相关数据,其中,所述第一带噪语音信号包含干扰噪声信号与所述目标用户的语音信号,所述目标语音相关数据用于指示所述目标用户的语音特征;降噪单元,用于根据所述目标语音相关数据和语音降噪模型对所述第一带噪语音信号进行降噪处理,以得到所述目标用户的降噪语音信号,其中,所述语音降噪模型是基于神经网络实现的。35.根据权利要求34的终端设备,其特征在于,所述获取单元,还用于获取所述目标用户的语音增强系数;所述降噪单元,还用于基于所述目标用户的语音增强系数对所述目标用户的降噪语音信号进行增强处理,以得到所述目标用户的增强语音信号,其中,所述目标用户的增强语音信号的幅度与所述目标用户的降噪语音信号的幅度的比值为所述目标用户的语音增强系数。36.根据权利要求35所述的终端设备,其特征在于,所述获取单元,还用于在通过所述降噪处理还得到所述干扰噪声信号后,获取干扰噪声系数;所述降噪单元,还用于基于所述干扰噪声抑制系数对所述干扰噪声信号进行抑制处理,以得到干扰噪声抑制信号,其中,所述干扰噪声抑制信号的幅度与所述干扰噪声信号的幅度的...

【专利技术属性】
技术研发人员:魏善义吴超邱炎廖猛范泛彭世强李斌赵文斌李江李海婷黄雪妍
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1