一种说话人识别方法、装置、设备及存储介质制造方法及图纸

技术编号:25189133 阅读:24 留言:0更新日期:2020-08-07 21:15
本申请提供了一种说话人识别方法、装置、设备及存储介质,其中,方法包括:以趋于由混合高斯模型针对待识别语音确定的说话人特征为获取方向,从待识别语音中获取目标说话人特征,其中,混合高斯模型采用多个说话人的多条语音数据训练得到,混合高斯模型能够对语音数据中说话人个性特征的分布进行描述;根据目标说话人特征,识别待识别语音对应的说话人。本申请提供的说话人识别方法能够准确地识别出待识别语音对应的说话人。

【技术实现步骤摘要】
一种说话人识别方法、装置、设备及存储介质
本申请涉及说话人识别
,尤其涉及一种说话人识别方法、装置、设备及存储介质。
技术介绍
由于不同人的生理特征(比如,声道、喉头等)与发音习惯不同(比如说话韵律、腔调等),导致了不同人的发音都是不同的,也就是说,每个人的发音有其独特性。有鉴于此,可利用用户的语音数据进行身份识别。为了实现用语音数据进行身份识别,出现了说话人识别技术,所谓说话人识别,指的是从语音数据中提取出代表个人身份的特征,从而利用该特征识别语音数据对应的说话人。目前的说话人识别方案有两种,一种为与文本有关的说话人识别方案,另一种为与文本无关的说话人识别方案,前者要求说话人提供指定语义内容的语音,可以用在用户比较配合的场合(例如公司声纹密码门禁系统),后者则不关心语音数据中具体的语义内容。相比于与文本有关的说话人识别方案,与文本无关的说话人识别方案的应用更为灵活和广泛。目前,与文本无关的说话人识别方案多为基于X-vector模型的说话人识别方案,该方案的主要思路是,用大量带说话人标签的训练样本训练X-vector模型,然后利用训练得到的X-vector模型进行说话人识别。然而,大量训练样本通常存在着一些不利因素(比如信道、环境噪声等),这些不利因素的存在导致训练得到的模型偏离预期,即,训练得到的说话人特征提取模型的鲁棒性不强,从而导致在基于训练得到的X-vector模型进行说话人识别时,识别准确率不高。
技术实现思路
有鉴于此,本申请提供了一种说话人识别方法、装置、设备及存储介质,用以提高说话人识别准确率,其技术方案如下:一种说话人识别方法,包括:获取待识别语音;以趋于由混合高斯模型针对所述待识别语音确定的说话人特征为获取方向,从待识别语音中获取目标说话人特征,其中,所述混合高斯模型采用多个说话人的多条语音数据训练得到,所述混合高斯模型能够对语音数据中说话人个性特征的分布进行描述;根据所述目标说话人特征,识别所述待识别语音对应的说话人。可选的,所述以趋于由混合高斯模型针对所述待识别语音确定的说话人特征为获取方向,从待识别语音中获取目标说话人特征,包括:利用预先建立的说话人特征提取模型,从所述待识别语音中提取目标说话人特征;其中,所述说话人特征提取模型利用所述多个说话人的多条语音数据以及所述混合高斯模型构建,每条语音数据对应有真实说话人标签。可选的,所述说话人特征提取模型的构建过程包括:分别对所述多个说话人的多条语音数据提取声学特征,以得到所述多个说话人分别对应的声学特征;利用所述混合高斯模型和所述多个说话人分别对应的声学特征,确定所述多个说话人分别对应的说话人特征,作为所述多个说话人分别对应的真实说话人特征;利用所述多个说话人分别对应的声学特征、所述多个说话人分别对应的真实说话人特征以及所述多个说话人的多条语音数据的真实说话人标签,构建说话人特征提取模型。可选的,利用所述混合高斯模型和所述多个说话人分别对应的声学特征,确定所述多个说话人分别对应的真实说话人特征,包括:利用所述混合高斯模型和所述多个说话人分别对应的声学特征,确定所述多个说话人分别对应的高阶统计量,作为所述多个说话人分别对应的真实说话人特征;其中,所述高阶统计量包括以下统计量中的一种或多种:均值、标准差、峰度、斜度。可选的,所述利用所述混合高斯模型和所述多个说话人分别对应的声学特征,确定所述多个说话人分别对应的高阶统计量,包括:根据所述多个说话人分别对应的声学特征,以及,每个说话人对应的声学特征的分布属于所述混合高斯模型中高斯函数的概率,确定所述多个说话人分别对应的高阶统计量。可选的,所述利用所述多个说话人分别对应的声学特征、所述多个说话人分别对应的真实说话人特征以及所述多个说话人的多条语音数据的真实说话人标签,构建说话人特征提取模型,包括:由所述多个说话人分别对应的声学特征组成训练样本集,其中,所述训练样本集中的一个训练样本为一个说话人对应的声学特征,所述训练样本集中的每个训练样本对应有真实说话人特征和真实说话人标签,一训练样本对应的真实说话人特征为该训练样本对应的说话人所对应的真实说话人特征,一样本对应的真实说话人标签为该训练样本对应的说话人的语音数据所对应的真实说话人标签;以所述训练样本集中每个训练样本对应的真实说话人特征和真实说话人标签为依据,利用所述训练样本集中的训练样本,训练说话人特征提取模型,以得到构建的说话人特征提取模型。可选的,所述以所述训练样本集中每个训练样本对应的真实说话人特征和真实说话人标签为依据,利用所述训练样本集中的训练样本,训练说话人特征提取模型,包括:对于所述训练样本集中的每个训练样本:将该训练样本输入说话人特征提取模型,得到说话人特征提取模型预测的说话人特征,预测的说话人特征作为该训练样本对应的预测说话人特征;根据该训练样本对应的预测说话人特征预测说话人标签,预测的说话人标签作为该训练样本对应的预测说话人标签;以得到所述训练样本集中每个训练样本对应的预测说话人特征和预测说话人标签;根据所述训练样本集中每个训练样本对应的预测说话人特征、真实说话人特征、预测说话人标签以及真实说话人标签,更新说话人特征提取模型的参数。可选的,所述根据所述训练样本集中每个训练样本对应的预测说话人特征、真实说话人特征、预测说话人标签以及真实说话人标签,更新说话人特征提取模型的参数,包括:根据所述训练样本集中每个训练样本对应的真实说话人特征和预测说话人特征,确定说话人特征提取模型的第一预测损失;根据所述训练样本集中每个训练样本对应的真实说话人标签和预测说话人标签,确定说话人特征提取模型的第二预测损失;根据所述第一预测损失和所述第二预测损失,确定说话人特征提取模型的目标预测损失;根据所述目标预测损失,更新说话人特征提取模型的参数。可选的,所述根据所述训练样本集中每个训练样本对应的真实说话人特征和预测说话人特征,确定说话人特征提取模型的第一预测损失,包括:对于所述训练样本集中的每个训练样本,对该训练样本对应的预测说话人特征进行降维处理,以使降维后的预测说话人特征与该训练样本对应的真实说话人特征的维度相同;以得到所述训练样本集中每个训练样本对应的降维后说话人特征;根据所述训练样本集中每个训练样本对应的真实说话人特征和降维后说话人特征,确定说话人特征提取模型的第一预测损失。可选的,所述根据所述第一预测损失和所述第二预测损失,确定说话人特征提取模型的目标预测损失,包括:根据所述第一预测损失和其对应的权重,以及所述第二预测损失和其对应的权重,确定说话人特征提取模型的目标预测损失;其中,所述第二预测损失对应的权重根据所述第一预测损失对应的权重确定,所述第一预测损失对应的权重为预设权重,或者,根据说话人特征提取模型当前的实际召回率和预期召回率确定。一种说话人识别装置,包括:待本文档来自技高网...

【技术保护点】
1.一种说话人识别方法,其特征在于,包括:/n获取待识别语音;/n以趋于由混合高斯模型针对所述待识别语音确定的说话人特征为获取方向,从待识别语音中获取目标说话人特征,其中,所述混合高斯模型采用多个说话人的多条语音数据训练得到,所述混合高斯模型能够对语音数据中说话人个性特征的分布进行描述;/n根据所述目标说话人特征,识别所述待识别语音对应的说话人。/n

【技术特征摘要】
1.一种说话人识别方法,其特征在于,包括:
获取待识别语音;
以趋于由混合高斯模型针对所述待识别语音确定的说话人特征为获取方向,从待识别语音中获取目标说话人特征,其中,所述混合高斯模型采用多个说话人的多条语音数据训练得到,所述混合高斯模型能够对语音数据中说话人个性特征的分布进行描述;
根据所述目标说话人特征,识别所述待识别语音对应的说话人。


2.根据权利要求1所述的说话人识别方法,其特征在于,所述以趋于由混合高斯模型针对所述待识别语音确定的说话人特征为获取方向,从待识别语音中获取目标说话人特征,包括:
利用预先建立的说话人特征提取模型,从所述待识别语音中提取目标说话人特征;
其中,所述说话人特征提取模型利用所述多个说话人的多条语音数据以及所述混合高斯模型构建,每条语音数据对应有真实说话人标签。


3.根据权利要求2所述的说话人识别方法,其特征在于,所述说话人特征提取模型的构建过程包括:
分别对所述多个说话人的多条语音数据提取声学特征,以得到所述多个说话人分别对应的声学特征;
利用所述混合高斯模型和所述多个说话人分别对应的声学特征,确定所述多个说话人分别对应的说话人特征,作为所述多个说话人分别对应的真实说话人特征;
利用所述多个说话人分别对应的声学特征、所述多个说话人分别对应的真实说话人特征以及所述多个说话人的多条语音数据的真实说话人标签,构建说话人特征提取模型。


4.根据权利要求3所述的说话人识别方法,其特征在于,利用所述混合高斯模型和所述多个说话人分别对应的声学特征,确定所述多个说话人分别对应的真实说话人特征,包括:
利用所述混合高斯模型和所述多个说话人分别对应的声学特征,确定所述多个说话人分别对应的高阶统计量,作为所述多个说话人分别对应的真实说话人特征;
其中,所述高阶统计量包括以下统计量中的一种或多种:均值、标准差、峰度、斜度。


5.根据权利要求4所述的说话人识别方法,其特征在于,所述利用所述混合高斯模型和所述多个说话人分别对应的声学特征,确定所述多个说话人分别对应的高阶统计量,包括:
根据所述多个说话人分别对应的声学特征,以及,每个说话人对应的声学特征的分布属于所述混合高斯模型中高斯函数的概率,确定所述多个说话人分别对应的高阶统计量。


6.根据权利要求3所述的说话人识别方法,其特征在于,所述利用所述多个说话人分别对应的声学特征、所述多个说话人分别对应的真实说话人特征以及所述多个说话人的多条语音数据的真实说话人标签,构建说话人特征提取模型,包括:
由所述多个说话人分别对应的声学特征组成训练样本集,其中,所述训练样本集中的一个训练样本为一个说话人对应的声学特征,所述训练样本集中的每个训练样本对应有真实说话人特征和真实说话人标签,一训练样本对应的真实说话人特征为该训练样本对应的说话人所对应的真实说话人特征,一样本对应的真实说话人标签为该训练样本对应的说话人的语音数据所对应的真实说话人标签;
以所述训练样本集中每个训练样本对应的真实说话人特征和真实说话人标签为依据,利用所述训练样本集中的训练样本,训练说话人特征提取模型,以得到构建的说话人特征提取模型。


7.根据权利要求6所述的说话人识别方法,其特征在于,所述以所述训练样本集中每个训练样本对应的真实说话人特征和真实说话人标签为依据,利用所述训练样本集中的训练样本,训练说话人特征提取模型,包括:
对于所述训练样本集中的每个训练样本:
将该训练样本输入说话人特征提取模型,得到说话人特征提取模型预测的说话人特征,预测的说话人特征作为该训练样本对应...

【专利技术属性】
技术研发人员:钟奥王建社冯祥余巍董德武张建忠程彪
申请(专利权)人:讯飞智元信息科技有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1