【技术实现步骤摘要】
本专利技术属于语音
,尤其涉及一种说话人的身份确认方法和装置。
技术介绍
网络信息技术的高速发展使得人们能够方便地获取各种信息,但随之也产生了各种各样的信息安全问题,在此背景之下,身份认证技术显得尤为重要。相比于指纹、虹膜、人脸、手写签名等身份认证手段,人的语音因其具有采集简便、易于存储和难于模仿的特性成为了身份认证技术发展的重点,其技术关键在于说话人的身份确认。将说话人的不同时长的语音数据通过一定的算法转换成具有同一维度的高维特征数据是目前比较流行的一种对说话人进行身份确认的方法,为了解决高维特征数据带来的“维数灾难”问题和小样本问题,研究者们提出了基于子空间分析方法的说话人身份确认算法,然而,目前的子空间分析方法仍然存在以下问题:子空间的维度大小对说话人身份确认系统的性能影响较大。
技术实现思路
本专利技术实施例的目的在于提供一种说话人的身份确认方法和装置,旨在解决在目前基于子空间分析对说话人进行身份确认的方法中,子空间的维度大小对说话人身份确认系统的性能影响较大的问题。本专利技术实施例是这样实现的,一种说话人的身份确认方法,包括:对训练语音提取联合因子分析JFA超向量Mih=[mih1,mih2,...,mihN],其中,所述Mih表示训练集中第i个说话人的第h条训练语音的JFA超向量;从所述训练语音的JFA超向量Mih=[mih1,mih2,...,mihN]中提取出k个均值向量 ...
【技术保护点】
一种说话人的身份确认方法,其特征在于,包括:对训练语音提取联合因子分析JFA超向量Mih=[mih1,mih2,...,mihN],其中,所述Mih表示训练集中第i个说话人的第h条训练语音的JFA超向量;从所述训练语音的JFA超向量Mih=[mih1,mih2,...,mihN]中提取出k个均值向量,生成第一子向量Sih=[m'ih1,m'ih2,...,m'ihk];利用主元分析PCA算法将所述第一子向量Sih=[m'ih1,m'ih2,...,m'ihk]投影到维度为J的第一子空间中;对所述第一子空间进行随机采样,得到Q个第二子空间;分别对投影到Q个所述第二子空间的向量进行类内协方差归一化WCCN处理,训练出投影矩阵W2,再将投影到Q个所述第二子空间中的向量通过所述投影矩阵W2分别映射到Q个第三子空间中;利用非参数线性区分分析对Q个所述第三子空间进行分析建模,得到投影矩阵W3;利用投影矩阵W2*W3,将每条训练语音的JFA超向量分别投影到Q个所述第三子空间,得到Q个目标说话人参考向量;提取测试语音的JFA超向量;利用所述投影矩阵W2*W3,将所述测试语音的JFA超向量分别投影到Q个 ...
【技术特征摘要】
1.一种说话人的身份确认方法,其特征在于,包括:
对训练语音提取联合因子分析JFA超向量Mih=[mih1,mih2,...,mihN],其中,
所述Mih表示训练集中第i个说话人的第h条训练语音的JFA超向量;
从所述训练语音的JFA超向量Mih=[mih1,mih2,...,mihN]中提取出k个均值向
量,生成第一子向量Sih=[m'ih1,m'ih2,...,m'ihk];
利用主元分析PCA算法将所述第一子向量Sih=[m'ih1,m'ih2,...,m'ihk]投影到维
度为J的第一子空间中;
对所述第一子空间进行随机采样,得到Q个第二子空间;
分别对投影到Q个所述第二子空间的向量进行类内协方差归一化WCCN
处理,训练出投影矩阵W2,再将投影到Q个所述第二子空间中的向量通过所
述投影矩阵W2分别映射到Q个第三子空间中;
利用非参数线性区分分析对Q个所述第三子空间进行分析建模,得到投影
矩阵W3;
利用投影矩阵W2*W3,将每条训练语音的JFA超向量分别投影到Q个所
述第三子空间,得到Q个目标说话人参考向量;
提取测试语音的JFA超向量;
利用所述投影矩阵W2*W3,将所述测试语音的JFA超向量分别投影到Q
个所述第三子空间,得到Q个测试参考向量;
分别计算所述测试参考向量与Q个所述目标说话人参考向量之间的余弦距
离,得到Q个分类器的输出;
通过预设算法将Q个所述分类器的输出进行融合;
将得分最高的融合结果对应的训练语音的说话人确认为所述测试语音的说
话人。
2.如权利要求1所述的方法,其特征在于,所述从所述训练语音的JFA超
\t向量Mih=[mih1,mih2,...,mihN]中提取出k个均值向量,生成第一子向量
Sih=[m'ih1,m'ih2,...,m'ihk]包括:
从所述训练语音的JFA超向量Mih=[mih1,mih2,...,mihN]中提取出排列在前k
个的均值向量,生成第一子向量Sih=[m'ih1,m'ih2,...,m'ihk]。
3.如权利要求1所述的方法,其特征在于,所述对所述第一子空间进行随
机采样,得到Q个第二子空间包括:
在所述第一子空间中选取含有最多信息量的前E1个主元分量;
通过随机采样算法从所述第一子空间的剩余J-E1个主元分量中随机选取
E2个主元分量;
生成Q个维度为E1+E2的第二子空间。
4.如权利要求1所述的方法,其特征在于,所述提取测试语音的JFA超向
量包括:
利用J=m+Vy+Dz将测试语音转换成所述测试语音的JFA超向量,其中,
所述J代表所述JFA超向量,所述m表示通用背景模型UBM均值超向量,所
述V和所述D分别表示说话人空间载荷矩阵和残差空间载荷矩阵,所述y和所
述z分别为说话人因子和残差因子。
5.如权利要求1所述的方法,其特征在于,所述通过预设算法将Q个所述
分类器的输出进行融合包括:
将Q个所述分类器的输出进行线性融合。
6.一种说话人的身份确认...
【专利技术属性】
技术研发人员:李志锋,李娜,乔宇,
申请(专利权)人:中国科学院深圳先进技术研究院,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。