基于UBM和SVM的说话人身份识别系统技术方案

技术编号：19429843 阅读：14 留言：0更新日期：2018-11-14 11:30

基于UBM和SVM的说话人身份识别系统。系统包括：语音格式转换，目的是将原始的语音信号转为适合开发环境的格式；均值特征向量提取系统，目的是便于应用于SVM的计算环境；向量机得分计算系统，主要功能是完成测试语音和训练语音的匹配，从而确定说话人的身份。

全部详细技术资料下载

【技术实现步骤摘要】
基于UBM和SVM的说话人身份识别系统
本专利技术涉及到不基于文本的说话人身份识别。
技术介绍
近年来，各种身份识别方式层出不穷，常见的有人脸识别、指纹识别、语音识别等，这些都是为了识别身份，所谓身份识别技术，就是建立在一定的科技手段上，利用一些模型、算法，并借助于高端设备对人的身份进行鉴定识别。手机的屏幕解锁采用指纹识别，登录支付宝账户采用人脸识别，但不管是哪一种识别技术，都不能保证百分之百的准确率，只能通过不断提高科技手段，算法复杂度，来提高识别准确率。说话人身份识别就是基于语音识别的技术，识别说话人身份。与文本无关的说话人身份识别已经从基于高斯混合模型(GMM)的方式变为利用i-voctor特征参数来进行研究的方式，可以把这种变化看成是从概率模型计算到高维向量的转变。在研究GMM模型的过程中，我们对采集的语音信号进行特征提取，计算中使用的主要算法包括极大似然估计算法(EM)，用于求取通用背景模型(UBM)的GMM，还有最大后验准则(MAP)的方式，用于求取说话人的GMM，最后用后验概率计算说话人得分，该方法又称为GMM-UBM。对于语音信号，我们的前段处理主要包含两个部分，分别为求取Mel倒谱系数，以及进行HTK封装。目的是将模拟语音信号转为数字信号，为后续的识别过程做基础。极大似然估计算法(EM)是另外一种求估计的方法，首先由德国数学家C.F.Gauss(高斯)在1821年提出，但这个方法通常被归功于英国的统计学家R.A.Fisher(罗纳德·费希尔)，他在1922年的论文Onthemathematicalfoundationsoftheoreti...

【技术保护点】
1.一个说话人身份识别系统，包括：语音转换系统，将输入的原始语音进行格式转换，转换成符合系统运行条件的格式；得分计算系统，能够将测试语音和原先存在的训练语音进行比对，来确定是否为说话人。

【技术特征摘要】
1.一个说话人身份识别系统，包括：语音转换系统，将输入的原始语音进行格式转换，转换成符合系统运行条件的格式；得分计算系统，能够将测试语音和原先存在的训练语音进行比对，来确定是否为说话人。2.根据权利要求1所述的说话人身份识别系统，其中单次输入的语音一般情况下为同一个说话人所说。3.根据权利要求1所述说话人身份识别系统，事先要对待识别的说话人进行语音库搭建。4.根据权利要求1所述的说话人身份识别系统，输入的测试语音对其具体内容不需要事先准备，只要保证2秒以上的时长即可。5.根据权利要求1所述的说话人身份识别系统，语音库当中的训练语音，要求每人至少要有10句的训练量。6.根据权利要求5中的训练语音，一般情况下我们会选择让所有训练语音都在同样的标准下进行训练。7.一种进行说话人身份识别的方法，包括：测试语音和不同的训练语音之间计算的结果具有差异性；通用背景模型需要有足够的语音数据支撑，...

【专利技术属性】
技术研发人员：申子健，徐波，陈爱月，
申请(专利权)人：申子健，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人