生成目标说话人语音识别计算模型的方法和装置制造方法及图纸

技术编号:18528054 阅读:26 留言:0更新日期:2018-07-25 13:42
本申请提供一种生成目标说话人语音识别计算模型的方法包括:获取样本语音数据;利用样本语音数据训练计算机神经网络,分别生成评估目标说话人语音的话音激活检测分类模型和增强目标说话人语音声学特征的话音声学特征增强模型并形成目标说话人语音识别初始化模型;利用样本语音数据训练所述目标说话人语音识别初始化模型,生成评估语音的设定时段中包含目标说话人语音可能性的目标说话人语音识别计算模型。能够将区分目标说话人和非目标说话人的语音的声学特征的模型包括到所述目标说话人语音识别计算模型中,所生成的目标说话人语音识别计算模型能够起到计算并输出语音的设定时段包含有目标说话人语音可能性的评估值的作用。

【技术实现步骤摘要】
生成目标说话人语音识别计算模型的方法和装置
本申请涉及一种生成计算模型的方法,具体涉及一种生成目标说话人语音识别计算模型的方法和装置;还涉及一种生成话音激活检测分类模型的方法和装置;还涉及一种生成话音声学特征增强模型的方法和装置;本申请还涉及一种评估语音的设定时段中包含目标说话人语音的可能性的方法和装置,本申请还涉及一种用于评估语音的设定时段中包含目标说话人语音的可能性的装置,本申请还提供一种分离目标说话人语音的方法。本申请还提供一种处理语音的电子设备。
技术介绍
话音激活检测(VoiceActivityDetection,简称VAD)是一种检测输入信号是否包含有语音的技术。这项技术具有多方面的用途,如在语音识别中,由于话音激活检测可以检测到语音信号的范围,所以识别系统就可以只在语音信号的范围内进行识别工作,从而减少系统中大量的运算并减少误判率,使得自动语音识别系统具有更好的实时性和识别准确率。话音激活检测旨在检测当前音频中是否包含语音信号存在,即对输入音频进行判断,将语音信号与各种背景噪声信号区分开来。话音激活检测通常作为语音识别的前端模块,为语音识别模块提供完整准确的语音信号用于识别,以提高语音识别的准确率。目标说话人在嘈杂的环境下(如车内、公共场所)使用语音识别服务时,各种环境噪声尤其是周边干扰说话人的语音会对话音激活检测的准确率造成很大影响,同时由于话音激活检测不能提供准确的语音结束边界而对用户体验造成较大影响。经典的话音激活检测方法为基于短时能量的语音激活检测。高信噪比下,由于最低能量的语音能量也超过背景噪声能量,因此做简单的能量测量就可以鉴别出语音或非语音。低信噪比下,通常将短时能量与短时过零率结合起来,称之为双门限比较法,但效果依旧不够好。近年来,基于深度计算机神经网络模型的话音激活检测方法取得了很大发展,现有的基于深度计算机神经网络模型的话音激活检测方法尽管对于包含一般环境噪声的语音具有较好的抗干扰效果。但是在多于一人说话且仅需要识别其中一个说话人的语音的情况下,现有的话音激活检测的方法所能够识别的语音即包含有需要识别的目标说话人的语音,也包含有不应该识别的非目标说话人的语音,对所述包含有非目标说话人语音的语音数据进行后续的语音识别处理,无疑会导致语音识别的偏差和错误。综上可见,现有的话音激活检测的方法存在无法区分目标说话人的语音和非目标说话人的语音的问题。为解决这一问题,需要判断所述多人说话的情况下,多人说话的语音中是否包含有需要识别的目标说话人的语音,但现有的话音激活检测相关的方法中没有判断多人说话的语音中是否包含有目标说话人语音的方法。
技术实现思路
本申请提供一种生成目标说话人语音识别计算模型的方法以及提供一种生成目标说话人语音识别计算模型的装置;本申请还提供一种生成话音激活检测分类模型的方法以及一种生成话音激活检测分类模型的装置;本申请还提供一种生成话音声学特征增强模型的方法以及一种生成话音声学特征增强模型的装置;本申请还提供一种评估语音的设定时段中包含目标说话人语音的可能性的方法以及一种评估语音的设定时段中包含目标说话人语音的可能性的装置;本申请还提供一种用于评估语音的设定时段中包含目标说话人语音的可能性的装置;本申请还提供一种分离目标说话人语音的方法;本申请还提供一种用于语音处理的电子设备。本申请提供的一种生成目标说话人语音识别计算模型的方法,包括以下步骤:获取样本语音数据,所述样本语音数据包括样本语音的声音特征数据,目标说话人语音的声学特征数据,以及所述样本语音的设定时段中是否包含有目标说话人语音的判断值;利用样本语音数据训练话音激活检测分类计算机神经网络和话音声学特征增强计算机神经网络,分别生成评估目标说话人语音的话音激活检测分类模型和增强目标说话人语音声学特征的话音声学特征增强模型;将所述话音激活检测分类模型的输入端连接到所述话音声学特征增强模型的输出端,形成目标说话人语音识别初始化模型;利用样本语音数据训练所述目标说话人语音识别初始化模型,生成评估语音的设定时段中包含目标说话人语音可能性的目标说话人语音识别计算模型;其中目标说话人语音为样本语音中设定时段前的语音。可选地,所述话音激活检测分类计算机神经网络包括:长短时间记忆计算机神经网络。可选地,所述长短时间记忆计算机神经网络包含多于一个隐藏层。可选地,所述话音声学特征增强计算机神经网络包括:长短时间记忆计算机神经网络和深度计算机神经网络;所述长短时间记忆计算机神经网络的输出连接到所述深度计算机神经网络的输入,所述长短时间记忆计算机神经网络的输入端为所述话音声学特征增强计算机神经网络的输入端,所述深度计算机神经网络的输出端作为所述话音声学特征增强计算机神经网络的输出。可选地,所述长短时间记忆计算机神经网络包括:第一长短时间记忆计算机神经网络和第二长短时间记忆计算机神经网络;所述第一长短时间记忆计算机神经网络的输出端作为所述长短时间记忆计算机神经网络的输出;所述第一长短时间记忆计算机神经网络的输出端还作为所述第二长短时间记忆计算机神经网络的部分输入端;所述第二长短时间记忆计算机神经网络的输出端作为所述第一长短时间记忆计算机神经网络的部分输入端。可选地,所述声音特征数据包括:声学特征数据。可选地,所述声音特征数据包括:声学特征数据和声纹特征数据。本申请提供的一种生成话音激活检测分类模型的方法,所述方法用于评估目标说话人语音,包括以下步骤:获取样本语音数据,所述样本语音数据包括样本语音的声音特征数据以及所述样本语音的设定时段中是否包含有目标说话人语音的判断值;利用所述样本语音数据,训练长短时间记忆计算机神经网络,生成话音激活检测分类模型;其中目标说话人语音为样本语音中设定时段前的语音。可选地,所述长短时间记忆计算机神经网络包含多于一个隐藏层。可选地,所述声音特征数据包括:声学特征数据。可选地,所述声音特征数据包括:声学特征数据和声纹特征数据。本申请提供的一种生成话音声学特征增强模型的方法,所述方法用于增强目标说话人语音声学特征,包括以下步骤:获取样本语音数据,所述样本语音数据包括样本语音的声音特征数据以及目标说话人语音的声学特征数据;利用所述样本语音数据,训练话音声学特征增强计算机神经网络,生成话音声学特征增强模型;所述话音声学特征增强计算机神经网络包括:长短时间记忆计算机神经网络和深度计算机神经网络;所述长短时间记忆计算机神经网络的输出连接到所述深度计算机神经网络的输入,所述长短时间记忆计算机神经网络的输入端连接所述话音声学特征增强计算机神经网络的输入端,所述深度计算机神经网络的输出端作为所述话音声学特征增强计算机神经网络的输出;其中目标说话人语音为样本语音中设定时段前的语音。可选地,所述长短时间记忆计算机神经网络包括:第一长短时间记忆计算机神经网络和第二长短时间记忆计算机神经网络;所述第一长短时间记忆计算机神经网络的输出端作为所述长短时间记忆计算机神经网络的输出;所述第一长短时间记忆计算机神经网络的输出端还作为所述第二长短时间记忆计算机神经网络的部分输入端;所述第二长短时间记忆计算机神经网络的输出端作为到所述第一长短时间记忆计算机神经网络的部分输入端。可选地,所述声音特征数据包括:声学特征数据。可选地,所述本文档来自技高网
...

【技术保护点】
1.一种生成目标说话人语音识别计算模型的方法,特征在于,包括以下步骤:获取样本语音数据,所述样本语音数据包括样本语音的声音特征数据,目标说话人语音的声学特征数据,以及所述样本语音的设定时段中是否包含有目标说话人语音的判断值;利用样本语音数据训练话音激活检测分类计算机神经网络和话音声学特征增强计算机神经网络,分别生成评估目标说话人语音的话音激活检测分类模型和增强目标说话人语音声学特征的话音声学特征增强模型;将所述话音激活检测分类模型的输入端连接到所述话音声学特征增强模型的输出端,形成目标说话人语音识别初始化模型;利用样本语音数据训练所述目标说话人语音识别初始化模型,生成评估语音的设定时段中包含目标说话人语音可能性的目标说话人语音识别计算模型;其中目标说话人语音为样本语音中设定时段前的语音。

【技术特征摘要】
1.一种生成目标说话人语音识别计算模型的方法,特征在于,包括以下步骤:获取样本语音数据,所述样本语音数据包括样本语音的声音特征数据,目标说话人语音的声学特征数据,以及所述样本语音的设定时段中是否包含有目标说话人语音的判断值;利用样本语音数据训练话音激活检测分类计算机神经网络和话音声学特征增强计算机神经网络,分别生成评估目标说话人语音的话音激活检测分类模型和增强目标说话人语音声学特征的话音声学特征增强模型;将所述话音激活检测分类模型的输入端连接到所述话音声学特征增强模型的输出端,形成目标说话人语音识别初始化模型;利用样本语音数据训练所述目标说话人语音识别初始化模型,生成评估语音的设定时段中包含目标说话人语音可能性的目标说话人语音识别计算模型;其中目标说话人语音为样本语音中设定时段前的语音。2.根据权利要求1所述的生成目标说话人语音识别计算模型的方法,其特征在于,所述话音激活检测分类计算机神经网络包括:长短时间记忆计算机神经网络。3.根据权利要求2所述的生成目标说话人语音识别计算模型的方法,其特征在于,所述长短时间记忆计算机神经网络包含多于一个隐藏层。4.根据权利要求1所述的生成目标说话人语音识别计算模型的方法,其特征在于,所述话音声学特征增强计算机神经网络包括:长短时间记忆计算机神经网络和深度计算机神经网络;所述长短时间记忆计算机神经网络的输出连接到所述深度计算机神经网络的输入,所述长短时间记忆计算机神经网络的输入端为所述话音声学特征增强计算机神经网络的输入端,所述深度计算机神经网络的输出端作为所述话音声学特征增强计算机神经网络的输出。5.根据权利要求4所述的生成目标说话人语音识别计算模型的方法,其特征在于,所述长短时间记忆计算机神经网络包括:第一长短时间记忆计算机神经网络和第二长短时间记忆计算机神经网络;所述第一长短时间记忆计算机神经网络的输出端作为所述长短时间记忆计算机神经网络的输出;所述第一长短时间记忆计算机神经网络的输出端还作为所述第二长短时间记忆计算机神经网络的部分输入端;所述第二长短时间记忆计算机神经网络的输出端作为所述第一长短时间记忆计算机神经网络的部分输入端。6.根据权利要求1所述的生成目标说话人语音识别计算模型的方法,其特征在于,所述声音特征数据包括:声学特征数据。7.根据权利要求1所述的生成目标说话人语音识别计算模型的方法,其特征在于,所述声音特征数据包括:声学特征数据和声纹特征数据。8.一种生成话音激活检测分类模型的方法,所述方法用于评估目标说话人语音,特征在于,包括以下步骤:获取样本语音数据,所述样本语音数据包括样本语音的声音特征数据以及所述样本语音的设定时段中是否包含有目标说话人语音的判断值;利用所述样本语音数据,训练长短时间记忆计算机神经网络,生成话音激活检测分类模型;其中目标说话人语音为样本语音中设定时段前的语音。9.根据权利要求8所述的生成话音激活检测分类模型的方法,其特征在于,所述长短时间记忆计算机神经网络包含多于一个隐藏层。10.根据权利要求8所述的生成话音激活检测分类模型的方法,其特征在于,所述声音特征数据包括:声学特征数据。11.根据权利要求8所述的生成话音激活检测分类模型的方法,其特征在于,所述声音特征数据包括:声学特征数据和声纹特征数据。12.一种生成话音声学特征增强模型的方法,所述方法用于增强目标说话人语音声学特征,特征在于,包括以下步骤:获取样本语音数据,所述样本语音数据包括样本语音的声音特征数据以及目标说话人语音的声学特征数据;利用所述样本语音数据,训练话音声学特征增强计算机神经网络,生成话音声学特征增强模型;所述话音声学特征增强计算机神经网络包括:长短时间记忆计算机神经网络和深度计算机神经网络;所述长短时间记忆计算机神经网络的输出连接到所述深度计算机神经网络的输入,所述长短时间记忆计算机神经网络的输入端连接所述话音声学特征增强计算机神经网络的输入端,所述深度计算机神经网络的输出端作为所述话音声学特征增强计算机神经网络的输出;其中目标说话人语音为样本语音中设定时段前的语音。13.根据权利要求12所述的生成话音声学特征增强模型的方法,特征在于,所述长短时间记忆计算机神经网络包括:第一长短时间记忆计算机神经网络和第二长短时间记忆计算机神经网络;所述第一长短时间记忆计算机神经网络的输出端作为所述长短时间记忆计算机神经网络的输出;所述第一长短时间记忆计算机神经网络的输出端还作为所述第二长短时间记忆计算机神经网络的部分输入端;所述第二长短时间记忆计算机神经网络的输出端作为到所述第一长短时间记忆计算机神经网络的部分输入端。14.根据权利要求12所述的生成话音声学特征增强模型的方法,其特征在于,所述声音特征数据包括:声学特征数据。15.根据权利要求12所述的生成话音声学特征增强模型的方法,其特征在于,所述声音特征数据包括:声学特征数据和声纹特征数据。16.一种评估语音的设定时段中包含目标说话人语音的可能性的方法,特征在于,包括以下步骤:获取待评估语音,所述待评估语音中设定时段前为目标说话人的语音;生成所述待评估语音的声音特征数据,所述声音特征数据采用与生成样本语音的声音特征数据相同的方式生成;所述样本语音的声音特征数据用于训练生成目标说话人语音识别计算模型;所述目标说话人语音识别计算模型为利用包含有样本语音的声音特征数据的样本语音数据训练目标说话人语音识别计算机神经网络生成,所述目标说话人语音识别计算机神经网络包含有话音激活检测分类计算机神经网络和话音声学特征增强计算机神经网络;将所述待评估语音的声音特征数据输入所述目标说话人语音识别计算模型,经过处理得到所述待评估语音的设定时段中包含有目标说话人语音的可能性的评估值。17.根据权利要求16所述的评估语音中包含目标说话人语音的可能性的方法,其特征在于,所述声音特征数据包括:声学特征数...

【专利技术属性】
技术研发人员:薛少飞
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1