用于机器人的语音增强方法、装置及机器人制造方法及图纸

技术编号:34713173 阅读:31 留言:0更新日期:2022-08-31 17:54
本申请关于一种用于机器人的语音增强方法、装置和机器人,具体实现方法包括:获取机器人采集的语音信息,并根据语音信息生成语音信息的声道参数,对语音信息进行第一增强以生成初始增强语音信息,进而,根据声道参数和初始增强语音信息进行第二增强生成增强语音信息,通过对机器人采集的语音信息进行增强,使得受污染的低频信息得以恢复,并将衰减的高频信息补全,提高了语音信息的质量,进而提高了语音识别的准确度。识别的准确度。识别的准确度。

【技术实现步骤摘要】
用于机器人的语音增强方法、装置及机器人


[0001]本申请涉及语音处理
,尤其涉及一种用于机器人的语音增强方法、装置和机器人。

技术介绍

[0002]随着机器人的不断发展,机器人宠物越来越普及。然而,机器人宠物,例如足式机器人,在与人语音交互过程中,其是不断运动的。与传统固定的智能设备(如智能音箱)不同,由于机器宠物的不断运动,其自身会产生很多噪声,例如驱动电机的噪声,运动过程中关节部分机械传动噪声等等,这些噪声会对语音的识别产生很大的干扰。
[0003]此外,由于机器人时刻处于运动状态,因此其可能会距离用户非常远,此时由于自身噪声以及环境噪声的影响,就会导致用户的语音质量较差,从而导致机器人无法准确响应用户的指令。

技术实现思路

[0004]本申请提供一种用于机器人的语音增强方法、装置和机器人,以至少解决相关技术中语音信息质量较差的问题。本申请的技术方案如下:
[0005]根据本申请实施例的第一方面,提供一种用于机器人的语音增强方法,包括:
[0006]获取机器人采集的语音信息;
[0007]对所述语音信息进行第一增强以生成初始增强语音信息,并根据所述语音信息生成所述语音信息的声道参数;以及
[0008]根据所述声道参数和所述初始增强语音信息进行第二增强生成增强语音信息。
[0009]可选地,所述对所述语音信息进行第一增强以生成初始增强语音信息,包括:
[0010]对所述语音信息进行降采样,以生成第一语音信息;
[0011]根据所述第一语音信息生成所述第一语音信息对应的激励谱;
[0012]对所述第一语音信息进行降噪以生成降噪之后的第一语音信息;
[0013]根据所述激励谱和所述降噪之后的第一语音信息生成所述初始增强语音信息。
[0014]可选地,所述根据所述第一语音信息生成所述第一语音信息对应的激励谱,包括:
[0015]对所述第一语音信息进行非负矩阵分解NMF以生成所述第一语音信息的语音帧概率;
[0016]对所述第一语音信息进行第一基音估计以生成所述第一语音信息的初始基音估计值;
[0017]根据所述语音帧概率,对所述初始基音估计值进行第二基音估计,以生成目标基音估计值;
[0018]根据所述目标基音估计值生成所述激励谱。
[0019]可选地,所述对所述第一语音信息进行非负矩阵分解NMF以生成所述第一语音信息的语音帧概率,包括:
[0020]对所述第一语音信息中的每一帧语音信号进行傅里叶变换,以生成所述每一帧语音信号的谱矩阵;
[0021]基于预获取的语音基矩阵,对所述每一帧语音信号的谱矩阵进行分解运算,以获取所述每一帧语音信号的谱矩阵对应的语音激活矩阵和更新后的语音基矩阵;
[0022]基于预获取的干扰基矩阵,对所述每一帧语音信号的谱矩阵进行分解运算,以获取所述每一帧语音信号的谱矩阵对应的干扰激活矩阵和更新后的干扰基矩阵;
[0023]基于所述更新后的语音基矩阵及所述更新后的干扰基矩阵,对所述每一帧语音信号的谱矩阵进行重复分解运算,以获取所述每一帧语音信号的谱矩阵对应的目标干扰激活矩阵及目标语音激活矩阵;
[0024]根据所述目标干扰激活矩阵及所述目标语音激活矩阵,确定所述第一语音信息中每一帧语音信号的语音帧概率。
[0025]可选地,所述预获取的语音基矩阵,包括以下步骤:
[0026]获取样本语音信号;
[0027]对所述样本语音信号进行分帧,得到N帧子信号,其中,N为正整数;
[0028]对所述N帧子信号中的每一帧子信号进行傅里叶变换,以确定每一帧信号中包含的F个频点的谱值,其中,F为正整数;
[0029]根据每一帧子信号中包含的F个频点的谱值,生成所述样本语音信号对应的包括F行和N列的第一样本谱矩阵;
[0030]对所述第一样本谱矩阵进行聚类,以生成包括K列向量的所述预获取的语音基矩阵,其中,K是小于等于N的正整数。
[0031]可选地,所述预获取的干扰基矩阵,包括以下步骤:
[0032]获取样本干扰信号,所述样本干扰信号是机器人运动时产生的;
[0033]对所述样本干扰信号进行分帧,得到M帧子信号,其中,M为正整数;
[0034]对所述M帧子信号中的每一帧子信号进行傅里叶变换,以确定每一帧信号中包含的G个频点的谱值,其中,G为正整数;
[0035]根据每一帧子信号中包含的G个频点的谱值,生成所述样本语音信号对应的包括G行和M列的第二样本谱矩阵;
[0036]对所述第二样本谱矩阵进行聚类,以生成包括L列向量的所述预获取的干扰基矩阵,其中,L是小于等于M的正整数。
[0037]可选地,所述声道参数为线性预测编码残差,其中,所述根据所述语音信息生成所述语音信息的声道参数,包括:
[0038]对所述语音信息进行线性预测编码LPC包络估计,以生成线性预测编码残差。
[0039]可选地,所述根据所述声道参数和所述初始增强语音信息进行第二增强生成增强语音信息,包括:
[0040]根据所述初始增强语音信息、所述目标基音估计值和所述语音帧概率,生成所述语音信息的浊音信息;
[0041]根据所述语音帧概率、所述线性预测编码残差和随机噪声,生成所述语音信息的轻音信息;
[0042]根据所述语音信息的浊音信息和所述语音信息的轻音信息,进行第一语音合成,
生成第一合成语音信息;
[0043]对所述第一合成的语音信息,进行频谱展宽,生成频谱展宽后的语音信息;
[0044]对所述第一合成的语音信息和所述频谱展宽后的语音信息进行第二语音合成,生成第二合成语音信息;
[0045]对所述第二合成语音信息,进行上采样,生成所述增强语音信息。
[0046]可选地,所述方法还包括:
[0047]响应于所述增强语音信息的识别结果,确定所述机器人的控制指令;
[0048]根据所述控制指令,以对所述机器人进行控制。
[0049]根据本申请实施例的第二方面,提供一种用于机器人的语音增强装置,包括:
[0050]获取模块,用于获取机器人采集的语音信息;
[0051]第一处理模块,用于对所述语音信息进行第一增强以生成初始增强语音信息,并根据所述语音信息生成所述语音信息的声道参数;以及
[0052]第二处理模块,用于根据所述声道参数和所述初始增强语音信息进行第二增强生成增强语音信息。
[0053]可选地,第一处理模块,包括:
[0054]降采样单元,用于对所述语音信息进行降采样,以生成第一语音信息;
[0055]第一生成单元,用于根据所述第一语音信息生成所述第一语音信息对应的激励谱;
[0056]降噪单元,用于对所述第一语音信息进行降噪以生成降噪之后的第一语音信息;
[0057]第二生成单元,用于根据所述激励谱和所述降噪之后的第一语本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于机器人的语音增强方法,其特征在于,包括:获取机器人采集的语音信息,并根据所述语音信息生成所述语音信息的声道参数;对所述语音信息进行第一增强以生成初始增强语音信息;根据所述声道参数和所述初始增强语音信息进行第二增强以生成增强语音信息。2.如权利要求1所述的方法,其特征在于,所述对所述语音信息进行第一增强以生成初始增强语音信息,包括:对所述语音信息进行降采样,以生成第一语音信息;根据所述第一语音信息生成所述第一语音信息对应的激励谱;对所述第一语音信息进行降噪以生成降噪之后的第一语音信息;根据所述激励谱和所述降噪之后的第一语音信息生成所述初始增强语音信息。3.如权利要求2所述的方法,其特征在于,所述根据所述第一语音信息生成所述第一语音信息对应的激励谱,包括:对所述第一语音信息进行非负矩阵分解NMF以生成所述第一语音信息的语音帧概率;对所述第一语音信息进行第一基音估计以生成所述第一语音信息的初始基音估计值;根据所述语音帧概率,对所述初始基音估计值进行第二基音估计,以生成目标基音估计值;根据所述目标基音估计值生成所述激励谱。4.如权利要求3所述的方法,其特征在于,所述对所述第一语音信息进行非负矩阵分解NMF以生成所述第一语音信息的语音帧概率,包括:对所述第一语音信息中的每一帧语音信号进行傅里叶变换,以生成所述每一帧语音信号的谱矩阵;基于预获取的语音基矩阵,对所述每一帧语音信号的谱矩阵进行分解运算,以获取所述每一帧语音信号的谱矩阵对应的语音激活矩阵和更新后的语音基矩阵;基于预获取的干扰基矩阵,对所述每一帧语音信号的谱矩阵进行分解运算,以获取所述每一帧语音信号的谱矩阵对应的干扰激活矩阵和更新后的干扰基矩阵;基于所述更新后的语音基矩阵及所述更新后的干扰基矩阵,对所述每一帧语音信号的谱矩阵进行重复分解运算,以获取所述每一帧语音信号的谱矩阵对应的目标干扰激活矩阵及目标语音激活矩阵;根据所述目标干扰激活矩阵及所述目标语音激活矩阵,确定所述第一语音信息中每一帧语音信号的语音帧概率。5.如权利要求4所述的方法,其特征在于,所述预获取的语音基矩阵,包括以下步骤:获取样本语音信号;对所述样本语音信号进行分帧,得到N帧子信号,其中,N为正整数;对所述N帧子信号中的每一帧子信号进行傅里叶变换,以确定每一帧信号中包含的F个频点的谱值,其中,F为正整数;根据每一帧子信号中包含的F个频点的谱值,生成所述样本语音信号对应的包括F行和N列的第一样本谱矩阵;对所述第一样本谱矩阵进行聚类,以生成包括K列向量的所述预获取的语音基矩阵,其中,K是小于等于N的正整数。
6.如权利要求4所述的方法,其特征在于,所述预获取的干扰基矩阵,包括以下步骤:获取样本干扰信号,所述样本干扰信号是所述机...

【专利技术属性】
技术研发人员:李炯亮
申请(专利权)人:北京小米移动软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1