用于机器人的语音识别方法、装置及机器人制造方法及图纸

技术编号：33904046 阅读：24 留言：0更新日期：2022-06-25 18:22

本公开关于一种用于机器人的语音识别方法，包括以下步骤：获取机器人采集的语音阵列信号，并获取所述机器人采集的图像阵列信号；根据所述图像阵列信号生成注意力权重；以及将所述语音阵列信号和所述注意力权重输入至语音识别模型以生成语音识别结果。本公开的实施例之中，可以根据图像阵列信号对语音识别模型之中的注意力权重进行调整，从而提升语音识别的准确性。通过对图像阵列信号的分析可以获得在采集的图像之中的位置和方向，并将用户所在方向的语音特征的权重相应提高，或对非目标说话人方向麦克风声音特征的权重进行衰减，从而在语音识别算法上进行相应的增强，以提升语音识别准确度。识别准确度。识别准确度。

全部详细技术资料下载

【技术实现步骤摘要】
用于机器人的语音识别方法、装置及机器人

[0001]本公开涉及机器人领域，尤其涉及一种用于机器人的语音识别方法、装置及机器人，以及存储介质。

技术介绍

[0002]随着机器人的不断发展，机器人宠物越来越普及。然而，机器人宠物，例如足式机器人，在与人语音交互过程中，其是不断运动的。与传统固定的智能设备(如智能音箱)不同，由于机器宠物的不断运动，其自身会产生很多噪声，例如驱动电机的噪声，运动过程中关节部分机械传动噪声等等，这些噪声会对语音的识别产生很大的干扰。
[0003]此外，由于机器人时刻处于运动状态，因此其可能会距离用户非常远，此时由于自身噪声以及环境噪声的影响，就会导致用户的语音识别不准确，从而导致机器人无法准确响应用户的指令。

技术实现思路

[0004]本公开提供一种用于机器人的语音识别方法、装置及机器人，以及存储介质，以至少解决相关技术中语音识别不准确的问题。本公开的技术方案如下：
[0005]根据本公开实施例的一方面，提供一种用于机器人的语音识别方法，包括以下步骤：获取机器人采集的语...

【技术保护点】

【技术特征摘要】
1.一种用于机器人的语音识别方法，其特征在于，包括以下步骤：获取机器人采集的语音阵列信号，并获取所述机器人采集的图像阵列信号；根据所述图像阵列信号生成注意力权重；以及将所述语音阵列信号和所述注意力权重输入至语音识别模型以生成语音识别结果。2.如权利要求1所述的方法，其特征在于，所述获取机器人采集的语音信号，包括：通过所述机器人的多个麦克风采集多组音频信号；以及对所述多组音频信号进行拼接以形成语音阵列信号。3.如权利要求2所述的方法，其特征在于，所述对所述多组音频信号进行拼接以形成语音阵列信号，包括：对所述语音阵列信号进行分帧，以形成多帧语音信号；对所述多帧语音信号进行对齐，并对对齐之后的多帧语音信号进行拼接以形成所述语音阵列信号。4.如权利要求1所述的方法，其特征在于，所述获取所述机器人采集的图像阵列信号，包括：通过所述机器人的多个摄像头采集多个图像信号；对所述多个图像信号进行降维；以及对降维之后的所述多个图像信号进行拼接以生成所述图像阵列信号。5.如权利要求1所述的方法，其特征在于，所述语音阵列信号与所述图像阵列信号的阵列大小相同。6.如权利要求1所述的方法，其特征在于，所述根据所述图像阵列信号生成注意力权重，包括：将所述图像阵列信号输入至图像识别模型以生成所述注意力权重。7.如权利要求4所述的方法，其特征在于，所述对所述多个图像信号进行降维，包括：对所述多个图像信号进行离散余弦变换以生成多个频率域特征矩阵；根据所述多个频率域特征矩阵生成多个图像向量；将所述多个图像向量组合成图像矩阵；根据所述图像矩阵生成协方差矩阵的多个特征值及每个所述特征值对应特征向量；根据所述多个特征值对应的特征向量从所述多个特征值之中选择前k行组成降维矩阵，其中，k为正整数。8.如权利要求1
‑
7任一项所述的方法，其特征在于，所述语音识别模型和所述图像识别模型通过联合训练生成。9.一种用于机器人的语音识别装置，其特征在于，包括：语音采集模块，用于采集机器人的语音阵列信号；图像采集模块，用于采集所述机器人的图像阵列信号；注意力权重生成模块，用于根据所述图像阵列信号生成注意力权重；以及识别模块，用于将所述语音阵列信号和所述注意力权重输入至语音识别模型以生成语音识别结果。10.如权利要求9所述的装置，其特征在于，所述...

【专利技术属性】
技术研发人员：胡升华，庄伟基，
申请(专利权)人：北京小米移动软件有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人