语音增强方法、装置和机器人制造方法及图纸

技术编号:33717566 阅读:15 留言:0更新日期:2022-06-08 21:08
本申请公开了一种语音增强方法,包括:获取机器人采集的音频信息;根据所述音频信息生成所述音频信息之中包括语音的语音存在概率;根据所述语音存在概率对所述音频信息进行增强,以生成增强语音。根据本公开的实施例根据音频信息生成存在语音的语音存在概率,在进行语音增强时可以依据语音存在概率对音频信息增强,从而提高增强效果。本公开的实施例之中,通过语音存在概率可以提升语音增强算法的精度,从而实现语音增强效果。从而实现语音增强效果。从而实现语音增强效果。

【技术实现步骤摘要】
语音增强方法、装置和机器人


[0001]本公开涉及机器人
,特别涉及一种语音增强方法、装置和机器人,以及存储介质。

技术介绍

[0002]随着机器人的不断发展,机器人宠物越来越普及。然而,机器人宠物,例如足式机器人,在与人语音交互过程中,其是不断运动的。与传统固定的智能设备 (如智能音箱)不同,由于机器宠物的不断运动,其自身会产生很多噪声,例如驱动电机的噪声,运动过程中关节部分机械传动噪声等等,这些噪声会对语音的识别产生很大的干扰。
[0003]因此,需要对机器人采集的音频之中的噪声干扰进行抑制,从而对语音进行增强。由于机器人之中的噪声很大部分是由于机器人运动所产生的,是突发的,因此传统的语音增强算法往往不能准确地估计出语音存在概率,也就是难以检测到语音的两个端点(即起始点和结束点)。因此传统的语音增强算法无法在突发噪声的情况下进行有效的增强。
[0004]因此可以看出,针对机器人自身产生的噪声,如何进行语音增强,使得后续的语音识别更为准确,就成为了亟待解决的问题。

技术实现思路

[0005]本公开提供了一种用于语音增强方法、装置和机器人,以及存储介质,用于解决无法准确提取用户语音的问题。
[0006]根据本公开的一方面实施例,提供了一种语音增强方法,包括:获取机器人的音频信息;根据所述音频信息生成所述音频信息之中包括语音的语音存在概率;根据所述语音存在概率对所述音频信息进行增强,以生成增强语音。
[0007]在本公开的一个实施例之中,所述根据所述语音存在概率对所述音频信息进行增强,以生成增强语音,包括:根据所述语音存在概率调整增强算法的增益函数;通过调整之后的所述增强算法将所述音频信息生成增强语音。
[0008]在本公开的一个实施例之中,所述根据所述音频信息生成所述音频信息之中包括语音的语音存在概率,包括:对所述音频信息进行噪声消除以生成去噪音频信息;以及根据所述音频信息和所述去噪音频信息生成所述音频信息之中包括语音的语音存在概率。
[0009]在本公开的一个实施例之中,所述对所述音频信息进行噪声消除以生成去噪音频信息,包括:将所述音频信息输入神经网络模型以生成所述去噪音频信息,其中,所述神经网络模型根据所述机器人自身产生的噪声训练获得。
[0010]在本公开的一个实施例之中,所述根据所述音频信息和所述去噪音频信息生成所述音频信息之中包括语音的语音存在概率,包括:根据所述音频信息生成第一特征值,并根据所述去噪音频信息生成第二特征值;根据所述第一特征值和所述第二特征值生成所述语音存在概率。
[0011]在本公开的一个实施例之中,所述根据所述音频信息生成第一特征值,并根据所
述去噪音频信息生成第二特征值,包括:对所述音频信息进行均方根运算以生成所述第一特征值;以及对所述去噪音频信息进行均方根运算以生成所述第二特征值。
[0012]在本公开的一个实施例之中,所述根据所述第一特征值和所述第二特征值生成所述语音存在概率,包括:判断所述第一特征值和所述第二特征值是否小于第一预设阈值;如果所述第一特征值和所述第二特征值均小于所述第一预设阈值,则判断所述音频信息为噪声。
[0013]在本公开的一个实施例之中,还包括:如果所述第一特征值或所述第二特征值大于或等于所述第一预设阈值,则将所述第一特征值和所述第二特征值转换为第一非负特征值和第二非负特征值;根据所述第一非负特征值和所述第二非负特征值生成所述语音存在概率。
[0014]在本公开的一个实施例之中,所述根据所述第一非负特征值和所述第二非负特征值生成所述语音存在概率,包括:获取所述第一非负特征值减去所述第二非负特征值所生成的差值;如果所述差值小于第二预设阈值,则判断所述音频信息之中包括语音;如果所述差值大于或等于所述第二预设阈值,则根据所述差值和所述第二非负特征值,生成所述语音存在概率。
[0015]在本公开的一个实施例之中,所述根据所述差值和所述第二非负特征值,生成所述语音存在概率,包括:根据所述将所述差值除以所述第二非负特征值以生成所述音频信息为噪声的概率;根据所述音频信息为噪声的概率生成所述语音存在概率。
[0016]根据本公开的再一方面实施例,还提供了一种语音增强装置,包括:音频获取模块,用于获取机器人采集的音频信息;概率生成模块,用于根据所述音频信息生成所述音频信息之中包括语音的语音存在概率;增强模块,用于根据所述语音存在概率对所述音频信息进行增强,以生成增强语音。
[0017]在本公开的一个实施例之中,所述增强模块包括:增益函数调整子模块,用于根据所述语音存在概率调整增强算法的增益函数;增强子模块,用于通过调整之后的所述增强算法将所述音频信息生成增强语音。
[0018]在本公开的一个实施例之中,所述概率生成模块包括:去噪子模块,用于对所述音频信息进行噪声消除以生成去噪音频信息;以及概率生成子模块,用于根据所述音频信息和所述去噪音频信息生成所述音频信息之中包括语音的语音存在概率。
[0019]在本公开的一个实施例之中,所述去噪子模块将所述音频信息输入神经网络模型以生成所述去噪音频信息,其中,所述神经网络模型根据所述机器人自身的噪声训练获得。
[0020]在本公开的一个实施例之中,所述概率生成子模块,包括:特征值生成单元,用于根据所述音频信息生成第一特征值,并根据所述去噪音频信息生成第二特征值;概率生成单元,用于根据所述第一特征值和所述第二特征值生成所述语音存在概率。
[0021]在本公开的一个实施例之中,所述特征值生成单元对所述音频信息进行均方根运算以生成所述第一特征值,并对所述去噪音频信息进行均方根运算以生成所述第二特征值。
[0022]在本公开的一个实施例之中,所述概率生成单元在所述第一特征值和所述第二特征值均小于第一预设阈值时,判断所述音频信息为噪声。
[0023]在本公开的一个实施例之中,所述概率生成单元在所述第一特征值或所述第二特
征值大于或等于所述第一预设阈值时,将所述第一特征值和所述第二特征值转换为第一非负特征值和第二非负特征值,并根据所述第一非负特征值和所述第二非负特征值生成所述语音存在概率。
[0024]在本公开的一个实施例之中,所述概率生成单元获取所述第一非负特征值减去所述第二非负特征值所生成的差值,并在所述差值小于第二预设阈值时,判断所述音频信息之中包括语音,以及在所述差值大于或等于所述第二预设阈值时,根据所述差值和所述第二非负特征值,生成所述语音存在概率。
[0025]在本公开的一个实施例之中,所述概率生成单元根据所述将所述差值除以所述第二非负特征值以生成所述音频信息为噪声的概率,并根据所述音频信息为噪声的概率生成所述语音存在概率。
[0026]根据本公开的再一方面实施例,还提供了一种机器人,包括如上所述的装置。
[0027]根据本公开的再一方面实施例,还提供了一种电子装置,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音增强方法,其特征在于,包括:获取机器人采集的音频信息;根据所述音频信息生成所述音频信息之中包括语音的语音存在概率;根据所述语音存在概率对所述音频信息进行增强,以生成增强语音。2.如权利要求1所述的方法,其特征在于,所述根据所述语音存在概率对所述音频信息进行增强,以生成增强语音,包括:根据所述语音存在概率调整增强算法的增益函数;通过调整之后的所述增强算法将所述音频信息生成增强语音。3.如权利要求1所述的方法,其特征在于,所述根据所述音频信息生成所述音频信息之中包括语音的语音存在概率,包括:对所述音频信息进行噪声消除以生成去噪音频信息;以及根据所述音频信息和所述去噪音频信息生成所述音频信息之中包括语音的语音存在概率。4.如权利要求3所述的方法,其特征在于,所述对所述音频信息进行噪声消除以生成去噪音频信息,包括:将所述音频信息输入神经网络模型以生成所述去噪音频信息,其中,所述神经网络模型根据所述机器人自身产生的噪声训练获得。5.如权利要求3所述的方法,其特征在于,所述根据所述音频信息和所述去噪音频信息生成所述音频信息之中包括语音的语音存在概率,包括:根据所述音频信息生成第一特征值,并根据所述去噪音频信息生成第二特征值;根据所述第一特征值和所述第二特征值生成所述语音存在概率。6.如权利要求5所述的方法,其特征在于,所述根据所述音频信息生成第一特征值,并根据所述去噪音频信息生成第二特征值,包括:对所述音频信息进行均方根运算以生成所述第一特征值;以及对所述去噪音频信息进行均方根运算以生成所述第二特征值。7.如权利要求4所述的方法,其特征在于,所述根据所述第一特征值和所述第二特征值生成所述语音存在概率,包括:判断所述第一特征值和所述第二特征值是否小于第一预设阈值;如果所述第一特征值和所述第二特征值均小于所述第一预设阈值,则判断所述音频信息为噪声。8.如权利要求7所述的方法,其特征在于,还包括:如果所述第一特征值或所述第二特征值大于或等于所述第一预设阈值,则将所述第一特征值和所述第二特征值转换为第一非负特征值和第二非负特征值;根据所述第一非负特征值和所述第二非负特征值生成所述语音存在概率。9.如权利要求8所述的方法,其特征在于,所述根据所述第一非负特征值和所述第二非负特征值生成所述语音存在概率,包括:获取所述第一非负特征值减去所述第二非负特征值所生成的差值;如果所述差值小于第二预设阈值,则判断所述音频信息之中包括语音;如果所述差值大于或等于所述第二预设阈值,则根据所述差值和所述第二非负特征
值,生成所述语音存在概率。10.如权利要求9所述的方法,其特征在于,所述根据所述差值和所述第二非负特征值,生成所述语音存在概率,包括:根据所述将所述差值除以所述第二非负特征值以生成所述音频信息为噪声的概率;根据所述音频信息为噪声的概率生成所述语音存在概率。11.一种语音增强装置,其特征在于,包括:音频获取模块,用于获取机器人采集的音频信息;概率生成模块,用于根据所述音频信息生成所述音频信息之中...

【专利技术属性】
技术研发人员:齐园蕾李炯亮
申请(专利权)人:北京小米移动软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1