一种基于概率球面判别分析信道补偿的说话人识别方法技术

技术编号：37623323 阅读：32 留言：0更新日期：2023-05-18 12:14

一种基于概率球面判别分析信道补偿的说话人识别方法，本发明专利技术涉及一种概率球面判别分析信道补偿的说话人识别方法。本发明专利技术的目的是为了解决现有线性概率判别分析模型的高斯假设使得长度归一化会破坏说话人的特征分布从而影响识别结果的问题。过程为：1、获取说话人的音频数据构建数据集，并对说话人进行编号同时确定说话人和音频数据的对应关系；2、获得说话人的身份矢量i

全部详细技术资料下载

【技术实现步骤摘要】
一种基于概率球面判别分析信道补偿的说话人识别方法

[0001]本专利技术涉及声纹识别领域，尤其涉及一种概率球面判别分析信道补偿的说话人识别方法。

技术介绍

[0002]说话人识别技术也被称为声纹识别技术，是指通过分析处理采集到的语音信号来识别相关说话人的身份，是语音处理领域最重要的技术之一。经过50余年的研究与发展，说话人识别技术得到了很大的发展，研究者们相继提出了联合因子分析、说话人身份矢量(i
‑
vector)和基于深度学习的说话人识别等技术。i
‑
vector识别系统是目前最有效的说话人识别技术之一，该方法可以将语音对应的均值超矢量映射成低维度的i
‑
vector特征，这在很大程度上减少了与说话人无关的信道空间信息，并采用总变化空间来代替JAF的说话人空间和信道空间，使得i
‑
vector在建模过程中不会严格区分说话人信息和信道信息对说话人身份的影响。
[0003]当前主流的i
‑
vector框架会使用线性概率判别分析(P...

【技术保护点】

【技术特征摘要】
1.一种基于球面概率判别分析信道补偿的说话人识别方法，其特征在于：所述方法具体过程为：步骤1、获取说话人的音频数据构建数据集，并对说话人进行编号同时确定说话人和音频数据的对应关系；步骤2、对音频数据进行预处理，获得说话人的身份矢量i
‑
vector特征；步骤3、用双曲正弦函数反双曲正弦函数sin h
‑
arcsin h分布将说话人的身份矢量i
‑
vector特征分布变换为冯米塞斯Von Mises
‑
Fisher分布；步骤4、训练信道补偿概率球面判别分析模型CC
‑
PSDA，得到训练好的信道补偿概率球面判别分析模型CC
‑
PSDA；步骤5、将待测音频数据输入训练好的信道补偿概率球面判别分析模型CC
‑
PSDA，判断是否为同一个人的音频数据。2.根据权利要求1所述的一种基于球面概率判别分析信道补偿的说话人识别方法，其特征在于：所述步骤2中对音频数据进行预处理，获得说话人的身份矢量i
‑
vector特征；具体过程为：步骤21、对音频数据进行分帧；步骤22、对步骤21分帧后的每帧音频计算梅尔频率倒谱系数；步骤23、基于步骤22计算的梅尔频率倒谱系数，提取说话人的身份矢量i
‑
vector特征。3.根据权利要求2所述的一种基于球面概率判别分析信道补偿的说话人识别方法，其特征在于：所述步骤3中用双曲正弦函数反双曲正弦函数sin h
‑
arcsin h分布将说话人的身份矢量i
‑
vector特征分布变换为冯米塞斯Von Mises
‑
Fisher分布；具体过程为：步骤31、sin h
‑
arcsin h的表达式为：F＝g(x,δ,ε)≡sinh{ε+δsinh
‑1(x)}其中：sin h
‑
arcsin h为双曲正弦函数sinh
‑
反双曲正弦函数arcsinh；sin h
‑
arcsin h的概率密度函数为：式中，δ代表重尾系数，ε代表偏度系数，S代表特征空间，g(x,δ,ε)是双曲正弦函数反双曲正弦函数sin h
‑
arcsin h的表达式，x代表自变量，sin h
‑1(x)代表反双曲正弦函数；步骤32、通过最大似然估计sin h
‑
arcsin h中参数δ、ε更新sin h
‑
arcsin h，使用更新后的sin h
‑
arcsin h将说话人的身份矢量i
‑
vector特征分布变换为冯米塞斯Von Mises
‑
Fisher分布。4.根据权利要求3所述的一种基于球面概率判别分析信道补偿的说话人识别方法，其特征在于：所述步骤32中通过最大似然估计sin h
‑
arcsin h中参数δ、ε更新sin h
‑
arcsin h，使用更新后的sin h
‑
arcsin h将说话人的身份矢量i
‑
vector特征分布变换为冯米塞斯Von Mises
‑
Fisher分布；具体过程为：步骤321、通过最大似然估计求解参数时用对数概率密度函数G(x)＝logl(x)作为目标函数；步骤322、计算待估计的参数的梯度，具体过程为：
先根据目标函数构建雅可比行列式的对数行列式：式中，Φ(x,δ,ε)代表F的雅可比行列式的对数行列式，cosh()代表sin h
‑
arcsin h的余弦变换；Φ(x,δ,ε)中每个参数x、δ、ε的梯度通过欧拉法给出，表达式为：D
δ
F＝cosh(δsinh
‑1(x)+ε)sinh
‑1(x)D
ε
F＝cosh(δsinh
‑1(x)+ε)式中，δ代表重尾系数，ε代表偏度系数，D
x
F代表参数x的梯度，D
δ
F代表参数δ的梯度，D
ε
F代表参数ε的梯度；步骤323、将D
x
F、D
δ
F、D
ε
F及目标函数G(x)传递给L
‑
BFGS优化器，L
‑
BFGS优化器输出参数δ、ε，完成参数估计；使用输出参数δ、ε更新sin h...

【专利技术属性】
技术研发人员：罗辉，肖庆欣，景维鹏，
申请(专利权)人：东北林业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人