一种语音增强方法和装置制造方法及图纸

技术编号:27464013 阅读:23 留言:0更新日期:2021-03-02 17:25
本申请实施例公开了一种语音增强方法和装置,涉及通信技术领域,解决了现有技术在声音环境较为复杂的场景下,无法对环境做到自适应,用户智能交互的体验较差的问题,该语音增强方法通过采用人工智能技术,可以提升用户智能交互体验。具体方案为:电子设备采集第一声音,第一声音包括第二声音和背景声音中的至少一项;电子设备识别第一声音;当第一声音存在第二声音时,电子设备对第二声音进行声音分析,得到第三声音;电子设备处理第三声音。电子设备处理第三声音。电子设备处理第三声音。

【技术实现步骤摘要】
一种语音增强方法和装置


[0001]本申请实施例涉及通信
,尤其涉及一种语音增强方法和装置。

技术介绍

[0002]目前,传统的语音增强算法对不同环境下的所有输入声音进行同一套语音增强算法,不论输入任何声音都进行同样的增强。例如,以智能音箱的接收的声音包括人声、电视声、狗叫声、水流声等多种声音的情况下,采用现有的语音增强算法将对所有声音进行同样的增强,这将导致智能音箱可能无法准确的获知用户命令,造成智能音箱语音交互不输出,或者语音交互输出不出准确等问题,使得用户智能交互的体验较差。因此,现有的语音增强算法在声音环境较为复杂的场景下,无法对环境做到自适应,用户智能交互的体验较差。

技术实现思路

[0003]本申请实施例提供一种语音增强方法和装置,能够在声音环境较为复杂的场景下,准确的从复杂的声音环境中捕捉到目标用户的语音,提升了用户智能交互的体验。
[0004]本申请实施例的第一方面,提供一种语音增强方法,该方法包括:电子设备采集第一声音,该第一声音包括第二声音和背景声音中的至少一项;该电子设备识别该第一声音;当该第一声音存在上述第二声音时,该电子设备对该第二声音进行声音分析,得到第三声音;该电子设备处理该第三声音。基于本方案,通过识别采集到的第一声音,并在第一声音中存在第二声音时,从第一声音中分离出第二声音(人声),并从第二声音中提取出第三声音(用户语音交互命令),从而对用户语音交互命令进行处理,获得的语音交互输出较为准确,因此能够准确的完成语音交互,提升了用户智能交互的体验。而且本申请在从复杂的声音环境中提取用户语音交互命令时,通过对声音进行识别和分析,并结合声音的属性信息,得到用户语音交互命令(第三声音),因此,该语音增强方法并不是对所有输入的声音进行同样的增强,而是结合当前采集的声音的属性信息进行针对性增强,因此能够适应复杂的声音环境,提升了复杂声音环境下用户的智能交互体验。
[0005]结合第一方面,在一种可能的实现方式中,上述电子设备识别第一声音,包括:上述电子设备根据声音事件识别模型,对该第一声音进行声音事件识别,获取该第一声音的声音类别信息。基于本方案,通过识别第一声音,可以获取第一声音的声音类别信息,从而能够根据该第一声音的声音类别信息,从第一声音中提取出第二声音。
[0006]结合第一方面或第一方面的任一可能的实现方式,在另一种可能的实现方式中,上述电子设备对上述第二声音进行声音分析,得到第三声音,包括:上述电子设备根据上述第一声音的声音类别信息,从上述第一声音中分离出上述第二声音;上述电子设备分析上述第二声音的声音属性信息;其中,该声音属性信息包括:声音方位信息、声纹信息、声音时间信息、声音分贝信息中的一种或多种;上述电子设备根据该第二声音的声音属性信息,得到第三声音。基于本方案,通过从第一声音中分离出第二声音,并对第二声音进行属性分析,能够根据第二声音的属性信息从多个人声中提取出声音,得到干净的用户语音交互命
令,实现针对性增强。
[0007]结合第一方面或第一方面的任一可能的实现方式,在另一种可能的实现方式中,上述第三声音的声纹信息与已注册用户的声纹信息匹配。基于本方案,可以通过声纹信息,将与已注册用户的声纹信息匹配的声音确定为第三声音。
[0008]结合第一方面或第一方面的任一可能的实现方式,在另一种可能的实现方式中,上述方法还包括:上述电子设备将第四声音进行聚类,获取新的声音类别信息;该第四声音为上述第一声音中,根据声音事件识别模型未识别出声音类别信息的声音;根据该新的声音类别信息,更新上述声音事件识别模型,获取更新后的声音事件识别模型。基于本方案,可以将声音事件识别模型未识别出的声音进行聚类,并训练得到新的声音事件识别模型,即能够通过电子设备自学习所处环境中经常出现的声音,更新声音事件识别模型,可以做到对环境自适应,提升了用户的交互体验。而且该声音事件识别模型的稳定性和鲁棒性将随用户的使用时间的增加更加稳定,能够达到越用越好的效果。
[0009]结合第一方面或第一方面的任一可能的实现方式,在另一种可能的实现方式中,上述方法还包括:上述电子设备获取上述第一声音的声音方位信息;根据该第一声音的声音方位信息以及该第一声音的声音类别信息,获取无用声音的方位信息;上述电子设备根据该无用声音的方位信息,将来自该方位的声音过滤。基于本方案,通过学习各种声音的方位信息,结合声音类别信息,可以获得特定场景下经常出现的无用声音的方位,从而能够更好的辅助声音分离。
[0010]结合第一方面或第一方面的任一可能的实现方式,在另一种可能的实现方式中,上述方法还包括:获取上述第三声音的语音交互信息;将上述第三声音的交互语音信息中未注册声纹的第三声音,进行声纹注册。基于本方案,通过日常收集交互反馈良好的用户交互语音,结合语音识别以及文本无关的声纹注册,电子设备可以自己学习声纹信息,并进行注册。从而在智能交互中可以对声纹信息对应的语音进行加强,提升智能交互体验。
[0011]结合第一方面或第一方面的任一可能的实现方式,在另一种可能的实现方式中,上述方法还包括:上述电子设备根据上述第三声音的声音属性信息,输出交互信息。该交互信息可以为语音交互信息,也可以为控制信号。基于本方案,电子设备可以结合第三声音的方位信息、声纹信息、时间信息、年龄信息等,输出相应的交互信息。
[0012]本申请实施例的第二方面,提供一种语音增强装置,该装置包括:处理器,用于识别第一声音,该第一声音由语音采集设备采集,该第一声音包括第二声音和背景声音中的至少一项;当该第一声音存在上述第二声音时,上述处理器对该第二声音进行声音分析,得到第三声音;上述处理器处理该第三声音。
[0013]结合第二方面,在一种可能的实现方式中,上处理器还用于,根据声音事件识别模型,对上述第一声音进行声音事件识别,获取该第一声音的声音类别信息。
[0014]结合第二方面或第二方面的任一可能的实现方式,在另一种可能的实现方式中,上述处理器,还用于:根据上述第一声音的声音类别信息,从上述第一声音中分离出上述第二声音;分析上述第二声音的声音属性信息;其中,该声音属性信息包括:声音方位信息、声纹信息、声音时间信息、声音分贝信息中的一种或多种;根据该第二声音的声音属性信息,得到上述第三声音。
[0015]结合第二方面或第二方面的任一可能的实现方式,在另一种可能的实现方式中,
上述第三声音的声纹信息与已注册用户的声纹信息匹配。
[0016]结合第二方面或第二方面的任一可能的实现方式,在另一种可能的实现方式中,上述处理器,还用于:将第四声音进行聚类,获取新的声音类别信息;该第四声音为上述第一声音中,根据声音事件识别模型未识别出声音类别信息的声音;根据该新的声音类别信息,更新上述声音事件识别模型,获取更新后的声音事件识别模型。
[0017]结合第二方面或第二方面的任一可能的实现方式,在另一种可能的实现方式中,上述处理器,还用于:获取上述第一声音的声音方位信息;根据上述第一声音本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音增强方法,其特征在于,所述方法包括:电子设备采集第一声音,所述第一声音包括第二声音和背景声音中的至少一项;所述电子设备识别所述第一声音;当所述第一声音存在所述第二声音时,所述电子设备对所述第二声音进行声音分析,得到第三声音;所述电子设备处理所述第三声音。2.根据权利要求1所述的方法,其特征在于,所述电子设备识别所述第一声音,包括:所述电子设备根据声音事件识别模型,对所述第一声音进行声音事件识别,获取所述第一声音的声音类别信息。3.根据权利要求2所述的方法,其特征在于,所述电子设备对所述第二声音进行声音分析,得到第三声音,包括:所述电子设备根据所述第一声音的声音类别信息,从所述第一声音中分离出所述第二声音;所述电子设备分析所述第二声音的声音属性信息;其中,所述声音属性信息包括:声音方位信息、声纹信息、声音时间信息、声音分贝信息中的一种或多种;所述电子设备根据所述第二声音的声音属性信息,得到所述第三声音。4.根据权利要求1-3中任一项所述的方法,其特征在于,所述第三声音的声纹信息与已注册用户的声纹信息匹配。5.根据权利要求1-4中任一项所述的方法,其特征在于,所述方法还包括:所述电子设备将第四声音进行聚类,获取新的声音类别信息;所述第四声音为所述第一声音中,根据声音事件识别模型未识别出声音类别信息的声音;根据所述新的声音类别信息,更新所述声音事件识别模型,获取更新后的声音事件识别模型。6.根据权利要求1-5中任一项所述的方法,其特征在于,所述方法还包括:所述电子设备获取所述第一声音的声音方位信息;根据所述第一声音的声音方位信息以及所述第一声音的声音类别信息,获取无用声音的方位信息;所述电子设备根据所述无用声音的方位信息,将来自该方位的声音过滤。7.根据权利要求1-6中任一项所述的方法,其特征在于,所述方法还包括:获取所述第三声音的语音交互信息;将所述第三声音的交互语音信息中未注册声纹的第三声音,进行声纹注册。8.根据权利要求1-7中任一项所述的方法,其特征在于,所述方法还包括:所述电子设备根据所述第三声音的声音属性信息,输出交互信息。9.一种电子设备,其特征在于,所述电子设备包括:处理器和存储器;所述存储器与所述处理器耦合;所述存储器用于存储计算机程序代码;所述计算机程序代码包括计算机指令,当所述处理器执行上述计算机指令时,使得所述电子设备执行如权利要求1-8中...

【专利技术属性】
技术研发人员:王保辉李伟李晓建胡伟湘
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1