用于说话者认证的模型自适应系统和方法技术方案

技术编号：3047394 阅读：207 留言：0更新日期：2012-04-11 18:40

本发明专利技术的模型自适应系统是一种说话者认证系统，该系统体现了能够调整在注册分量过程中学习到的模型以跟踪用户声音时效的能力。该系统具有以下优点：仅需要用于识别模型的单个注册，其中的识别模型包括神经树网络（２２）、高斯混合模型（２６），动态时间规划（１６）或多个模型（３０）（即，神经树网络（２２）、高斯混合模型（２６），动态时间规划（１６）的组合（３０））。此外，本发明专利技术可以应用于文本相关或文本无关系统。（*该技术在2018年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】
对相关申请的交叉参考该申请优先于临时申请60/064,069，该临时申请发布于1997年11月3日，名称为。
技术介绍
1专利
本专利技术涉及一种系统和方法用于调整说话者认证模型以便在认证过程中获得增强的性能，本专利技术特别涉及基于子字的说话者认证系统，该系统能够调整神经树网络(NTN)，高斯混合模型(GMM)，动态时间规划模板(DTW)，或上述的组合，而不需要重新训练模型所需的额外时间。本专利技术涉及数字语音处理和说话者认证领域。2相关技术的描述说话者认证是一种其中利用他或她的声音样本来确认某个人身份的语音技术。特别的，说话者认证系统试图将正在进行身份认证的某个人的声音与已知的声音匹配。这比其它的安全测量，如个人身份号码(PIN)和个人信息更优越，因为一个人的声音唯一依赖于他或她的身份。说话者认证给出一种用于安全增强的强有力方法，该方法可以用于包括计算机电话的很多不同的应用领域中。在说话者识别中，两个主要的领域是说话者辨别和认证。说话者辨别系统试图利用他或她的声音样本在已知人群中确定说话者的身份。相比而言，说话者认证系统试图利用他或她的声音样本来确定某人宣称的身份(某人声称的身份)是否正确。说话者认证包括确定语音样本是否与所宣称的身份充分匹配。语音样本可以是基于文本的或与文本无关。基于文本的说话者认证系统在特定的口令短语之后确认该说话者。口令短语是由系统或用户在注册过程中确定的，相同的口令被用于后续的认证中。一般的，口令短语被限制为固定的词汇，例如有限个数字。有限数量的口令短语使得冒名顶替者很可能发现某个人的口令，从而降低了系统的可靠性。文本无关说话者认...

【技术保护点】
一种具有模型自适应的自适应说话者认证系统，该系统包括：接收机，该接收机获得声音发音；连接到接收机的装置，用来提取声音发音的预定特征；与提取装置操作性连接的装置，用于将声音发音的预定特征分段，其中的特征值被分成多个子字；连接到分段装置的至少一个自适应模型，其中的模型模拟所述多个子字并输出一个或多个分数，并且这些模型基于所接收的声音发音来动态更新以引入改变的用户声音的特性。

【技术特征摘要】
US 1997-11-3 60/064,0691．一种具有模型自适应的自适应说话者认证系统，该系统包括接收机，该接收机获得声音发音；连接到接收机的装置，用来提取声音发音的预定特征；与提取装置操作性连接的装置，用于将声音发音的预定特征分段，其中的特征值被分成多个子字；连接到分段装置的至少一个自适应模型，其中的模型模拟所述多个子字并输出一个或多个分数，并且这些模型基于所接收的声音发音来动态更新以引入改变的用户声音的特性。2．权利要求1的自适应说话者认证系统，还包括连接到接收机的模数转换器用于以数字形式给出所获得的声音发音。3．权利要求1的自适应说话者认证系统，还包括连接到提取装置的装置，用于将声音发音规划到动态规划模板，该规划装置给出DTW分数，其中规划装置基于声音发音被调整。4．权利要求1或3的自适应说话者认证系统，其中自适应分类器包括至少一个自适应高斯混合模型，自适应高斯混合模型产生GMM分数。5．权利要求1或3的自适应说话者认证系统，其中自适应模型包括至少一个自适应神经树网络模型，自适应神经树网络产生NTN分数。6．权利要求1或3的自适应说话者认证系统，其中自适应模型包括至少一个自适应高斯混合模型，自适应高斯混合模型产生GMM分数。至少一个自适应神经树网络模型，自适应神经树网络模型产生NTN分数。7．权利要求1的自适应说话者认证系统，还包括连接到模型的装置，用于组合模型分数，该组合装置产生用于组合系统的最终分数。8．权利要求3的自适应说话者认证系统，还包括连接到模型和规划装置的装置，用于组合DTW分数和模型分数，该组合装置产生用于组合系统的最终分数。9．权利要求1的自适应说话者认证系统，其中分段装置基于自动盲目语音分段来产生子字。10．权利要求7的自适应说话者认证系统，其中组合装置是一个线性评估组合。11．一种自适应说话者认证方法，包括以下步骤获得来自已知个人的注册语音；接收来自用户的测试语音；提取测试语音的预定特征；利用动态时间规划模板来规划预定的特征，其中动态规划模板在测试语音的预定特征的基础上被调整，导致产生规划后的特征数据和来自调整后的动态规划模板的动态时间规划分数；产生来自规划后特征数据的子字；利用多个自适应模型为子字计分，其中自适应模型在得自测试语音的子字基础上被调整；将每个分类器分数和动态时间规划分数的结果组合来产生最终的分数；将最终的分数与阈值比较以确定测试语音和注册语音是否来自已知的个人。12．权利要求11的自适应说话者认证方法，还包括以下步骤将获得的测试语音数字化；预处理数字化的测试语音。13．权利要求11的自适应说话者认证方法，其中计分的步骤还包括对至少一个自适应神经树网络模型计分的步骤。14．权利要求11的自适应说话者认证方法，其中的计分步骤包括对至少一个自适应高斯混合模型计分的步骤。15．权利要求11的自适应说话者认证方法，其中计分步骤还包括以下步骤对至少一个自适应高斯混合模型计分，自适应高斯混合模型产生GMM分数；对至少一个自适应神经树网络模型计分，自适应神经树网络模型产生NTN分数。16．权利要求11的自适应说话者认证方法，其中产生步骤包括利用自动盲目语音分段来产生子字。17．权利要求11的自适应说话者认证方法，其中组合步骤包括利用线性评估组合来组合分数。18．一种自适应说话者认证方法，其中至少一个神经树网络模型被基于自适应发音而调整，该方法包括下述步骤存储说话者观测值数目，冒名顶替者观测值数目和来自以前注册或认证的总的观测值数目。获得来自说话者的自适应发音；从说话者...

【专利技术属性】
技术研发人员：K法雷尔，W米斯特雷塔，
申请(专利权)人：T内提克斯公司，
类型：发明
国别省市：US[美国]

全部详细技术资料下载我是这个专利的主人