The invention discloses a robot speech recognition control method based on voice training model, which is characterized in that the method comprises: receiving the voice data of the user; the robot speech recognition model for speech recognition mode specific or non-specific speech recognition mode judgment; when judging the current robot speech recognition model for speech recognition a specific person, of voiceprint recognition and speech recognition of the voice data; when judging the current robot speech recognition model for speech recognition model of speaker, speech recognition of the speech data. The beneficial effects of the technical scheme can authenticate the user through voiceprint authentication, and voice recognition method for non specific people are also provided, the user can choose different modes of speech recognition to meet the needs of different.
【技术实现步骤摘要】
一种基于声纹模型训练的机器人语音识别控制方法
本专利技术涉及语音识别技术,尤其涉及一种基于声纹模型训练的机器人语音识别控制方法。
技术介绍
目前,现有的很多机器人虽然具备语音识别的功能,但是在进行语音识别之前并没有对用户进行身份认证,这对用户的隐私安全造成极大的隐患。
技术实现思路
针对现有的技术存在的上述问题,现提供一种基于声纹模型训练的机器人语音识别控制方法的技术方案,具体如下:一种基于声纹模型训练的机器人语音识别控制方法,其中,所述方法包括:接收用户的语音数据;判断机器人当前语音识别模式为特定人语音识别模式或非特定人语音识别模式;当判断机器人当前语音识别模式为特定人语音识别模式时,对所述语音数据进行声纹认证和语音识别;当判断机器人当前语音识别模式为非特定人语音识别模式时,对所述语音数据进行语音识别。优选的,接收用户的语音数据之前,需要建立背景模型库和用户声纹模型,还包括:采用联合因子分析模型构建说话人空间、信道空间和残差空间三个子空间;所述联合因子分析模型的高斯均值向量表征为:Mki=mk+Ukxi+Vkys(i)+Dkzks(i)其中,k代表第k个高斯模型,i ...
【技术保护点】
一种基于声纹模型训练的机器人语音识别控制方法,其特征在于,所述方法包括:接收用户的语音数据;判断机器人当前语音识别模式为特定人语音识别模式或非特定人语音识别模式;当判断机器人当前语音识别模式为特定人语音识别模式时,对所述语音数据进行声纹认证和语音识别;当判断机器人当前语音识别模式为非特定人语音识别模式时,对所述语音数据进行语音识别。
【技术特征摘要】
1.一种基于声纹模型训练的机器人语音识别控制方法,其特征在于,所述方法包括:接收用户的语音数据;判断机器人当前语音识别模式为特定人语音识别模式或非特定人语音识别模式;当判断机器人当前语音识别模式为特定人语音识别模式时,对所述语音数据进行声纹认证和语音识别;当判断机器人当前语音识别模式为非特定人语音识别模式时,对所述语音数据进行语音识别。2.如权利要求1所述的方法,其特征在于,接收用户的语音数据之前,需要建立背景模型库和用户声纹模型,还包括:采用联合因子分析模型构建说话人空间、信道空间和残差空间三个子空间;所述联合因子分析模型的高斯均值向量表征为:Mki=mk+Ukxi+Vkys(i)+Dkzks(i)其中,k代表第k个高斯模型,i代表某一个语音段,s(i)表示说话人s的某一语音段,mk表示独立于说话人和会话内容的均值向量,Uk表示特征信道矩阵,Vk表示特征说话人矩阵,Dk表示残差空间矩阵;xi表示信道因子向量,ys(i)表示依赖于说话人的声纹因子向量,zks(i)表示依赖于说话人和单个高斯模型的残差因子向量。3.如权利要求2所述的方法,其特征在于,建立背景模型库包括:采集语音信号作为训练数据;对采集的所述语音信号进行平衡性分析和处理,保持语音的长度相似,保证信道易变性和会话易变性的平衡;对处理后的所述语音信号进行前端预处理;针对所述语音信号中某个固定说话人的语音信号求统计量,构建特征信道矩阵Uk;构建残差空间矩阵Dk,完善用于声纹识别的背景模型库。4.如权利要求3所述的方法,其特征在于,对处理后的语音信号进行前端预处理包括:将所述语音信号分段加窗并计算得到梅尔频率倒谱系数的特征参数流数据;通过所述特征参数流数据训练通用背景模型;将所有所述语音信号根据最大后验准则将其自适应到说话人模型上,并通过构建特征音空间的方法对表征特定所述说话人模型的参数进行降维处理;通过稀疏...
【专利技术属性】
技术研发人员:王国亮,
申请(专利权)人:宁波高新区锦众信息科技有限公司,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。