一种基于文本无关的短语音说话人确认方法技术

技术编号：21062700 阅读：57 留言：0更新日期：2019-05-08 08:22

本发明专利技术涉及一种基于文本无关的短语音说话人确认方法，基于UBM‑CM‑MAP‑GMM模型，针对低得分高斯分量会对声纹识别系统识别性能的负面影响，将低得分高斯分量删减掉，只选择得分高的高斯分量，将这些高得分的高斯分量进行组合，从而为每个目标说话人建立自己的竞争者模型CM，然后基于每个说话人的CM模型通过MAP自适应得到说话人的声纹模型GMM。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于文本无关的短语音说话人确认方法
本专利技术涉及人工智能、模式识别
中的声纹识别技术，具体涉及一种基于文本无关的短语音说话人确认方法。
技术介绍
声纹识别技术是一门将计算机、生物统计学、生物传感器等多种学科相结合的综合学科，该技术主要是通过每个人独特的先天生理特征或者后天的行为特性对人的身份进行识别的技术。声纹识别(VoiceprintRecognition)又被称为说话人识别，是一种生物识别技术，该技术主要通过人的声音中包含的特征信息对说话人身份进行自动识别的技术。在声纹识别技术的实际应用过程中，经常会面临语音数据较短、数据量稀缺的情况。短语音问题对说话人识别的影响主要表现在：当训练语音不足时，对说话人特征参数的分布情况刻画不完整，进而影响声纹模型的准确性。在声纹识别系统中，比较经典的声纹模型有：动态时间规整模型(DTW)、矢量量化模型(VQ)、隐马尔可夫模型(HMM)、高斯混合模型(GMM)、支持向量机模型(SVM)等。对于短语音问题，普遍采用UBM-MAP-GMM模型，该模型的基本原理如图1所示。该模型可以在一定程度上解决短时语音问题，但该模型也有其自身的缺点。在该模型中，经过自适应得到的说话人声纹模型强制服从UBM的统一分布，当语音数据进一步变短(有效语音低于10s)时，由于训练数据不充分，很多高斯分量没有得到充分的学习，自适应得到的说话人模型与UBM模型差异并不大，从而给声纹识别带来了极大的困难。针对UBM-MAP-GMM声纹识别系统计算量大、运行速度慢的情况，目前有研究者提出了一些改进的方法，这些方法在不同程度上降低了声纹识别系统识...

【技术保护点】
1.一种基于文本无关的短语音说话人确认方法，其特征在于包括：(1)基于UBM‑CM‑MAP‑GMM模型的说话人确认的个人GMM训练：对UBM模型中的高斯分量根据训练语音的得分进行高分优先的选取方法，为每个说话人建立自己的CM模型；在训练过程中，首先采用大量的不同的说话者语音进行训练得到UBM模型，使得该模型表征所有说话人声学特征分布的公共特性；然后利用目标说话人训练语音首先计算每一帧特征矢量在通用背景模型UBM中的每个高斯分量上的得分，在此基础上计算训练语音中所有语音帧在UBM模型每个高斯分量上的得分，根据得分高低选择出前若干个高得分的高斯分量并进行组合得到个人CM，将CM作为训练目标说话人声纹模型的初值；最后，利用该初值基于MAP训练方法对初始模型进行调整进而得到说话人声纹模型GMM；(2)基于UBM‑CM‑MAP‑GMM模型的说话人确认的语音测试：在语音测试阶段，计算测试语音在说话人声纹模型GMM上的得分与测试语音在竞争者模型CM上的似然得分；然后基于似然得分，根据系统判决规则输出识别结果。

【技术特征摘要】
1.一种基于文本无关的短语音说话人确认方法，其特征在于包括：(1)基于UBM-CM-MAP-GMM模型的说话人确认的个人GMM训练：对UBM模型中的高斯分量根据训练语音的得分进行高分优先的选取方法，为每个说话人建立自己的CM模型；在训练过程中，首先采用大量的不同的说话者语音进行训练得到UBM模型，使得该模型表征所有说话人声学特征分布的公共特性；然后利用目标说话人训练语音首先计算每一帧特征矢量在通用背景模型UBM中的每个高斯分量上的得分，在此基础上计算训练语音中所有语音帧在UBM模型每个高斯分量上的得分，根据得分高低选择出前若干个高得分的高斯分量并进行组合得到个人CM，将CM作为训练目标说话人声纹模型的初值；最后，利用该初值基于MAP训练方法对初始模型进行调整进而得到说话人声纹模型GMM；(2)基于UBM-CM-MAP-GMM模型的说话人确认的语音测试：在语音测试阶段，计算测试语音在说话人声纹模型GMM上的得分与测试语音在竞争者模型CM上的似然得分；然后基于似然得分，根据系统判决规则输出识别结果。2.根据权利要求1所述的基于文本无关的短语音说话人确认方法，其特征在于：所述基于UBM-CM-MAP-GMM模型的说话人确认的个人GMM训练，具体实现方式如下：(11)采用大量不同说话人的语音采用EM算法训练得到通用背景模型UBM；(12)利用目标说话人训练语音首先计算每一帧特征矢量Xk在通用背景模型UBM中的每个高斯分量λui上的得分Pi(Xk|λui)；(13)然后计算训练语音中所有语音帧在UBM模型每个高斯分量λui上的得分Pi(X|λ...

【专利技术属性】
技术研发人员：杨瑞瑞，柴秀英，
申请(专利权)人：北京航天长峰科技工业集团有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人