一种短语音说话人识别方法和装置制造方法及图纸

技术编号:18446916 阅读:48 留言:0更新日期:2018-07-14 11:11
本发明专利技术公开了一种短语音说话人识别方法和装置,方法包括:对输入的训练短语音信号预处理后,提取梅尔频率倒谱系数作为训练特征向量,利用自适应核可能性模糊C均值聚类算法进行聚类分析建立说话人语音参考模型;对输入的测试短语音信号预处理后,提取梅尔频率倒谱系数作为测试特征向量,计算测试特征向量与说话人语音参考模型之间的距离,并根据距离识别短语音说话人的身份。本实施例的短语音说话人识别方法和装置通过提取梅尔频率倒谱系数作为特征,利用特征以及自适应核可能性模糊C均值聚类算法进行聚类分析建立说话人语音参考模型,执行模式匹配后识别出短语音说话人的身份,提高了识别正确率,满足了实际应用需求。

【技术实现步骤摘要】
一种短语音说话人识别方法和装置
本专利技术涉及语音识别
,特别涉及一种短语音说话人识别方法和装置。
技术介绍
在现代社会,随着信息技术的发展,如何进行个人身份的识别进而保护私人数据,有着越来越广泛的需求。利用人的生物特征进行识别是一种既方便又可靠的选择,如指纹、虹膜、声音等。相对于指纹、虹膜识别来说,人声的采集成本低廉、操作简便,同时声音带有较强的个人特性,可以利用声音作为一种方便的识别说话人身份的手段。对于短语音说话人识别,由于语音时间很短,提取的特征有限,说话人识别性能不高,难以满足实际应用需求。
技术实现思路
本专利技术提供了一种短语音说话人识别方法和装置,以解决现有技术短语音说话人识别性能不高,难以满足实际需求的问题。根据本申请的一个方面,提供了一种短语音说话人识别方法,该短语音说话人识别方法包括:对输入的训练短语音信号预处理后,提取梅尔频率倒谱系数作为训练特征向量,利用自适应核可能性模糊C均值聚类算法进行聚类分析建立说话人语音参考模型;对输入的测试短语音信号预处理后,提取梅尔频率倒谱系数作为测试特征向量,计算所述测试特征向量与所述说话人语音参考模型之间的距离,并根据所述距本文档来自技高网...

【技术保护点】
1.一种短语音说话人识别方法,其特征在于,该方法包括:对输入的训练短语音信号预处理后,提取梅尔频率倒谱系数作为训练特征向量,利用自适应核可能性模糊C均值聚类算法进行聚类分析建立说话人语音参考模型;对输入的测试短语音信号预处理后,提取梅尔频率倒谱系数作为测试特征向量,计算所述测试特征向量与所述说话人语音参考模型之间的距离,并根据所述距离识别短语音说话人的身份。

【技术特征摘要】
1.一种短语音说话人识别方法,其特征在于,该方法包括:对输入的训练短语音信号预处理后,提取梅尔频率倒谱系数作为训练特征向量,利用自适应核可能性模糊C均值聚类算法进行聚类分析建立说话人语音参考模型;对输入的测试短语音信号预处理后,提取梅尔频率倒谱系数作为测试特征向量,计算所述测试特征向量与所述说话人语音参考模型之间的距离,并根据所述距离识别短语音说话人的身份。2.根据权利要求1所述的短语音说话人识别方法,其特征在于,提取梅尔频率倒谱系数作为训练特征向量包括:对预处理后的训练短语音信号作快速傅里叶变换,获得频谱分布信息;对训练短语音信号的频谱取绝对值获得幅度谱;将幅度谱通过一个有Q个高斯带通滤波器的滤波器组,并计算每个高斯带通滤波器输出的对数;将每个高斯带通滤波器的对数能量带入离散余弦变换,提取得到梅尔频率倒谱系数。3.根据权利要求1所述的短语音说话人识别方法,其特征在于,利用自适应核可能性模糊C均值聚类算法进行聚类分析建立说话人语音参考模型包括:将得到的包含N个训练特征向量的集合{xk}划分为C个子集,其中,k=1,…,N,xk为M维向量,1<C<N,求出每个子集的聚类中心,使得下列目标函数最小:且满足下列约束条件一和二:条件一,条件二,公式(1)中,uik∈U表示第k个特征向量对第i类的隶属度;tik∈T表示集合xk属于第i类的典型值;m,η>1为模糊加权指数;a,b>0为权重系数;vi∈V为聚类中心;系数γi>0。4.根据权利要求3所述的短语音说话人识别方法,其特征在于,利用自适应核可能性模糊C均值聚类算法进行聚类分析建立说话人语音参考模型具体包括下列步骤:步骤S0,计算初始聚类中心V0;步骤S1,根据公式(2)和(3)计算高斯核函数的带宽参数σ:步骤S2,根据预定公式计算γi;步骤S3,令t=1;步骤S4,根据公式(4)和(5),计算在第t次迭代时高斯核函数的带宽参数σt:步骤S5,根据第t-1次的聚类中心Vt-1和下列公式(6)计算第t次第k个特征向量对第i类的隶属度Ut:根据第t-1次的聚类中心Vt-1和下列公式(7)计算第t次集合xk属于第i类的典型值Tt:根据第t-1次的聚类中心Vt-1和Ut、Tt、下列公式(8)计算第t次的聚类中心Vt:步骤S6,判断当||Ut-Ut-1||≤ε或者||Vt-Vt-1||≤ε时,终止迭代并输出对应的Ut、Tt、Vt;其中,ε为预设的最大误差;步骤S7,令t=t+1,步骤S8,判断当赋值后的t大于最大迭代次数时,终止迭代并输出对应的Ut、Tt、Vt;否则,返回步骤S4继续执行直至终止迭代。5.根据权利要求1所述的短语音说话人识别方法,其特征在于,计算所述测试特征向量与所述说话人语音参考模型之间的距离包括:利用训练出的说话人语音参考模型的码本对测试特征向量进行量化,并计算平均量化误差,将算出的平均量化误差作为测试特征向量与说话人语音参考模型之间的距离;当测试特征向量与说话人语音参考模型之间的距离小于或者等于距离阈值时,则确定短语音的说话人与说话人语音参考模型指示的参考说话人为同一人。6.一种短语音说话人识别装置,其特征在于,该短语音说话人识别装置包括:模...

【专利技术属性】
技术研发人员:苏鹏程张一凡
申请(专利权)人:青岛真时科技有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1