一种说话人的身份确认方法和装置制造方法及图纸

技术编号:13417777 阅读:73 留言:0更新日期:2016-07-27 14:44
本发明专利技术适用于语音技术领域,提供了一种说话人的身份确认方法和装置,包括:对训练语音提取JFA超向量并从中生成第一子向量;利用PCA算法将第一子向量投影到第一子空间中;对第一子空间进行随机采样得到Q个第二子空间;将投影到Q个第二子空间中的向量分别映射到Q个第三子空间中;利用非参数线性区分分析对Q个第三子空间进行分析建模;利用投影矩阵W2*W3,将每条训练语音和测试语音的JFA超向量分别投影到Q个第三子空间,得到Q个目标说话人参考向量和Q个测试参考向量;将Q个分类器的输出进行融合;将得分最高的融合结果对应的训练语音的说话人确认为测试语音的说话人。本发明专利技术很好地改进了说话人身份确认系统的系统性能。

【技术实现步骤摘要】

本专利技术属于语音
,尤其涉及一种说话人的身份确认方法和装置
技术介绍
网络信息技术的高速发展使得人们能够方便地获取各种信息,但随之也产生了各种各样的信息安全问题,在此背景之下,身份认证技术显得尤为重要。相比于指纹、虹膜、人脸、手写签名等身份认证手段,人的语音因其具有采集简便、易于存储和难于模仿的特性成为了身份认证技术发展的重点,其技术关键在于说话人的身份确认。将说话人的不同时长的语音数据通过一定的算法转换成具有同一维度的高维特征数据是目前比较流行的一种对说话人进行身份确认的方法,为了解决高维特征数据带来的“维数灾难”问题和小样本问题,研究者们提出了基于子空间分析方法的说话人身份确认算法,然而,目前的子空间分析方法仍然存在以下问题:子空间的维度大小对说话人身份确认系统的性能影响较大。
技术实现思路
本专利技术实施例的目的在于提供一种说话人的身份确认方法和装置,旨在解决在目前基于子空间分析对说话人进行身份确认的方法中,子空间的维度大小对说话人身份确认系统的性能影响较大的问题。本专利技术实施例是这样实现的,一种说话人的身份确认方法,包括:对训练语音提取联合因子分析JFA超向量Mih=[mih1,mih2,...,mihN],其中,所述Mih表示训练集中第i个说话人的第h条训练语音的JFA超向量;从所述训练语音的JFA超向量Mih=[mih1,mih2,...,mihN]中提取出k个均值向量,生成第一子向量Sih=[m'ih1,m'ih2,...,m'ihk];利用主元分析PCA算法将所述第一子向量Sih=[m'ih1,m'ih2,...,m'ihk]投影到维度为J的第一子空间中;对所述第一子空间进行随机采样,得到Q个第二子空间;分别对投影到Q个所述第二子空间的向量进行类内协方差归一化WCCN处理,训练出投影矩阵W2,再将投影到Q个所述第二子空间中的向量通过所述投影矩阵W2分别映射到Q个第三子空间中;利用非参数线性区分分析对Q个所述第三子空间进行分析建模,得到投影矩阵W3;利用投影矩阵W2*W3,将每条训练语音的JFA超向量分别投影到Q个所述第三子空间,得到Q个目标说话人参考向量;提取测试语音的JFA超向量;利用所述投影矩阵W2*W3,将所述测试语音的JFA超向量分别投影到Q个所述第三子空间,得到Q个测试参考向量;分别计算所述测试参考向量与Q个所述目标说话人参考向量之间的余弦距离,得到Q个分类器的输出;通过预设算法将Q个所述分类器的输出进行融合;将得分最高的融合结果对应的训练语音的说话人确认为所述测试语音的说话人。本专利技术实施例的另一目的在于提供一种说话人的身份确认装置,包括:第一提取单元,用于对训练语音提取联合因子分析JFA超向量Mih=[mih1,mih2,...,mihN],其中,所述Mih表示训练集中第i个说话人的第h条训练语音的JFA超向量;第一降维单元,用于从所述训练语音的JFA超向量Mih=[mih1,mih2,...,mihN]中提取出k个均值向量,生成第一子向量Sih=[m'ih1,m'ih2,...,m'ihk];第二降维单元,用于利用主元分析PCA算法将所述第一子向量Sih=[m'ih1,m'ih2,...,m'ihk]投影到维度为J的第一子空间中;随机采样单元,用于对所述第一子空间进行随机采样,得到Q个第二子空间;WCCN处理单元,用于分别对投影到Q个所述第二子空间的向量进行类内协方差归一化WCCN处理,训练出投影矩阵W2,再将投影到Q个所述第二子空间中的向量通过所述投影矩阵W2分别映射到Q个第三子空间中;非参数线性区分分析单元,用于利用非参数线性区分分析对Q个所述第三子空间进行分析建模,得到投影矩阵W3;第一参考向量生成单元,用于利用投影矩阵W2*W3,将每条训练语音的JFA超向量分别投影到Q个所述第三子空间,得到Q个目标说话人参考向量;第二提取单元,用于提取测试语音的JFA超向量;第二参考向量生成单元,用于利用所述投影矩阵W2*W3,将所述测试语音的JFA超向量分别投影到Q个所述第三子空间,得到Q个测试参考向量;输出单元,用于分别计算所述测试参考向量与Q个所述目标说话人参考向量之间的余弦距离,得到Q个分类器的输出;融合单元,用于通过预设算法将Q个所述分类器的输出进行融合;确认单元,用于将得分最高的融合结果对应的训练语音的说话人确认为所述测试语音的说话人。本专利技术实施例采用基于双层子空间采样的算法框架,除了直接采用子空间分析方法对原始高维特征空间进行降维外,还采用了随机子空间采样法构建出若干维度较低的子空间,然后针对每个子空间训练出一个分类器,最终的判决结果通过多分类器输出融合得到,很好地改进了说话人身份确认系统的系统性能。附图说明图1是本专利技术实施例提供的说话人的身份确认方法的实现流程图;图2是本专利技术实施例提供的说话人的身份确认方法的算法框架图;图3是本专利技术实施例提供的说话人的身份确认装置的结构框图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。图1示出了本专利技术实施例提供的说话人的身份确认方法的实现流程,详述如下:在S101中,对训练语音提取联合因子分析(JointFactorAnalysis,JFA)超向量Mih=[mih1,mih2,...,mihN],其中,所述Mih表示训练集中第i个说话人的第h条训练语音的JFA超向量。JFA理论认为,在基于“高斯混合模型-通用背景模型”(GaussianMixtureModel-UniversalBackgroundModel,GMM-UBM)的说话人身份确认算法框架中,通过最大后验概率(MaximunAPosteriori,MAP)法得到的说话人模型的均值超向量主要包含了说话人和信道两部分信息,且这两部分信息均服从高斯分布,若采用JFA方法将说话人模型中的信道信息去除,可以大幅提高说话人确认系统的性能,因此,本专利技术实施例利用JFA方法在解决信道失配情况下的优势,将采用JFA方法去噪后的说话人模型的均值超向量作为说话人的特征,首先,在S101中,利用JFA方法对训练集中的训练语音一一进行JFA超向量提取,该JFA超向量代表由说话人模型中的各个高斯成分的均值超向量按顺序拼接起来的超本文档来自技高网...

【技术保护点】
一种说话人的身份确认方法,其特征在于,包括:对训练语音提取联合因子分析JFA超向量Mih=[mih1,mih2,...,mihN],其中,所述Mih表示训练集中第i个说话人的第h条训练语音的JFA超向量;从所述训练语音的JFA超向量Mih=[mih1,mih2,...,mihN]中提取出k个均值向量,生成第一子向量Sih=[m'ih1,m'ih2,...,m'ihk];利用主元分析PCA算法将所述第一子向量Sih=[m'ih1,m'ih2,...,m'ihk]投影到维度为J的第一子空间中;对所述第一子空间进行随机采样,得到Q个第二子空间;分别对投影到Q个所述第二子空间的向量进行类内协方差归一化WCCN处理,训练出投影矩阵W2,再将投影到Q个所述第二子空间中的向量通过所述投影矩阵W2分别映射到Q个第三子空间中;利用非参数线性区分分析对Q个所述第三子空间进行分析建模,得到投影矩阵W3;利用投影矩阵W2*W3,将每条训练语音的JFA超向量分别投影到Q个所述第三子空间,得到Q个目标说话人参考向量;提取测试语音的JFA超向量;利用所述投影矩阵W2*W3,将所述测试语音的JFA超向量分别投影到Q个所述第三子空间,得到Q个测试参考向量;分别计算所述测试参考向量与Q个所述目标说话人参考向量之间的余弦距离,得到Q个分类器的输出;通过预设算法将Q个所述分类器的输出进行融合;将得分最高的融合结果对应的训练语音的说话人确认为所述测试语音的说话人。...

【技术特征摘要】
1.一种说话人的身份确认方法,其特征在于,包括:
对训练语音提取联合因子分析JFA超向量Mih=[mih1,mih2,...,mihN],其中,
所述Mih表示训练集中第i个说话人的第h条训练语音的JFA超向量;
从所述训练语音的JFA超向量Mih=[mih1,mih2,...,mihN]中提取出k个均值向
量,生成第一子向量Sih=[m'ih1,m'ih2,...,m'ihk];
利用主元分析PCA算法将所述第一子向量Sih=[m'ih1,m'ih2,...,m'ihk]投影到维
度为J的第一子空间中;
对所述第一子空间进行随机采样,得到Q个第二子空间;
分别对投影到Q个所述第二子空间的向量进行类内协方差归一化WCCN
处理,训练出投影矩阵W2,再将投影到Q个所述第二子空间中的向量通过所
述投影矩阵W2分别映射到Q个第三子空间中;
利用非参数线性区分分析对Q个所述第三子空间进行分析建模,得到投影
矩阵W3;
利用投影矩阵W2*W3,将每条训练语音的JFA超向量分别投影到Q个所
述第三子空间,得到Q个目标说话人参考向量;
提取测试语音的JFA超向量;
利用所述投影矩阵W2*W3,将所述测试语音的JFA超向量分别投影到Q
个所述第三子空间,得到Q个测试参考向量;
分别计算所述测试参考向量与Q个所述目标说话人参考向量之间的余弦距
离,得到Q个分类器的输出;
通过预设算法将Q个所述分类器的输出进行融合;
将得分最高的融合结果对应的训练语音的说话人确认为所述测试语音的说
话人。
2.如权利要求1所述的方法,其特征在于,所述从所述训练语音的JFA超

\t向量Mih=[mih1,mih2,...,mihN]中提取出k个均值向量,生成第一子向量
Sih=[m'ih1,m'ih2,...,m'ihk]包括:
从所述训练语音的JFA超向量Mih=[mih1,mih2,...,mihN]中提取出排列在前k
个的均值向量,生成第一子向量Sih=[m'ih1,m'ih2,...,m'ihk]。
3.如权利要求1所述的方法,其特征在于,所述对所述第一子空间进行随
机采样,得到Q个第二子空间包括:
在所述第一子空间中选取含有最多信息量的前E1个主元分量;
通过随机采样算法从所述第一子空间的剩余J-E1个主元分量中随机选取
E2个主元分量;
生成Q个维度为E1+E2的第二子空间。
4.如权利要求1所述的方法,其特征在于,所述提取测试语音的JFA超向
量包括:
利用J=m+Vy+Dz将测试语音转换成所述测试语音的JFA超向量,其中,
所述J代表所述JFA超向量,所述m表示通用背景模型UBM均值超向量,所
述V和所述D分别表示说话人空间载荷矩阵和残差空间载荷矩阵,所述y和所
述z分别为说话人因子和残差因子。
5.如权利要求1所述的方法,其特征在于,所述通过预设算法将Q个所述
分类器的输出进行融合包括:
将Q个所述分类器的输出进行线性融合。
6.一种说话人的身份确认...

【专利技术属性】
技术研发人员:李志锋李娜乔宇
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1