基于DNN模型和支持向量机模型的说话人个数估计方法技术

技术编号：15725805 阅读：293 留言：0更新日期：2017-06-29 16:26

本发明专利技术提出基于DNN模型和支持向量机模型的说话人个数估计方法，属于语音信号处理和深度学习领域。模型训练阶段，首先获取N个说话人的训练语音数据，得到深度神经网络DNN模型；然后获取M个说话人的训练语音数据，每个说话人的梅尔倒谱特征对应DNN模型的N个输出概率，组成M个说话人的N维特征，建立M个支持向量机SVM模型；说话人个数估计阶段，将每条待测语音数据的梅尔倒谱特征输入DNN模型得到N维特征并依次输入M个SVM模型中评分，得分最高的SVM模型即为该条待测语音数据所对应的类别，类别总个数即为估计的说话人个数。该方法解决多说话人场景中说话人个数计算不准确的问题，提高语音数据中说话人个数估计的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
基于DNN模型和支持向量机模型的说话人个数估计方法
本专利技术属于语音信号处理领域和深度学习领域，具体涉及一种基于DNN模型和支持向量机模型的说话人个数估计方法。
技术介绍
随着语音信号处理技术和语音识别技术的快速发展，说话人标记的应用场景越来越复杂，从简单的如电话记录的两个说话人场景，到今天广泛应用的如会议记录的多个说话人场景。由于说话人标记的效果和说话人个数估计密切相关，提高说话人个数估计的准确率能够改进说话人标记系统，提升标记的准确率。说话人个数估计首先要对语音数据进行预处理，提取特征。最常用的特征是一种基于人耳听感知理论的梅尔倒谱特征，目前广泛应用于说话人识别、语种识别以及连续语音识别等。梅尔倒谱特征提取首先对语音数据进行预加重和分帧加窗，然后对分帧加窗后的数据进行快速傅里叶变换，得到对应的频谱，并通过梅尔频标三角窗滤波器进行滤波，最后进行离散余弦变换得到梅尔倒谱特征。现有的说话人数个数估计方法大多采用凝聚层次聚类(AgglomerativeHierarchicalCluster，AHC)方法，该方法首先进行说话人变化点检测，对语音数据进行分割，以达到对说话人进行分割，再对分割后的各段语音数据基于贝叶斯信息准则进行聚类，最终确定说话人数目。现有技术中估计说话人个数的结果的准确性完全依赖于说话人分割和聚类的准确性，而说话人分割受到步长的影响，步长多是根据经验确定，所以难免出现设定的步长不合适的情况，从而影响说话人分割的准确性及后续聚类的准确性；此外，在聚类时贝叶斯距离受语音时长的影响，主要表现为一般情况下语音时长越长其贝叶斯距离越大，因而在对不同时长...
基于DNN模型和支持向量机模型的说话人个数估计方法

【技术保护点】
一种基于DNN模型和支持向量机模型的说话人个数估计方法，其特征在于，分为模型训练阶段和说话人个数估计阶段两个阶段，包括以下步骤：1)模型训练阶段；模型训练阶段分为DNN模型训练阶段和支持向量机SVM模型训练阶段两个阶段；具体包括以下步骤：1‐1)DNN模型训练阶段：获取N个说话人的训练语音数据，提取每条训练语音数据的特征，设置DNN模型的层数和节点数，对DNN模型进行训练，得到DNN模型参数；1‐2)支持向量机SVM模型训练阶段：获取M个说话人的训练语音数据，提取M个说话人的训练语音数据的特征,输入到步骤1‐1)得到的DNN模型中，产生M组说话人各自对应的N维特征，得到M个说话人的各自对应的SVM模型；2)说话人个数估计阶段，具体包括以下步骤：2‐1)获取待测语音数据，对待测语音数据进行预处理，得到待测语音数据对应的梅尔倒谱特征及其一阶、二阶导数，共60维；2‐2)将步骤2‐1)得到的每条待测语音数据的梅尔倒谱特征输入到步骤1‐1)得到的DNN模型中，每条待测语音数据的60维梅尔倒谱特征对应得到DNN模型的输出层输出的该条待测语音数据的N个输出概率，将得到的每条待测语音数据的N个输出概...

【技术特征摘要】
1.一种基于DNN模型和支持向量机模型的说话人个数估计方法，其特征在于，分为模型训练阶段和说话人个数估计阶段两个阶段，包括以下步骤：1)模型训练阶段；模型训练阶段分为DNN模型训练阶段和支持向量机SVM模型训练阶段两个阶段；具体包括以下步骤：1‐1)DNN模型训练阶段：获取N个说话人的训练语音数据，提取每条训练语音数据的特征，设置DNN模型的层数和节点数，对DNN模型进行训练，得到DNN模型参数；1‐2)支持向量机SVM模型训练阶段：获取M个说话人的训练语音数据，提取M个说话人的训练语音数据的特征,输入到步骤1‐1)得到的DNN模型中，产生M组说话人各自对应的N维特征，得到M个说话人的各自对应的SVM模型；2)说话人个数估计阶段，具体包括以下步骤：2‐1)获取待测语音数据，对待测语音数据进行预处理，得到待测语音数据对应的梅尔倒谱特征及其一阶、二阶导数，共60维；2‐2)将步骤2‐1)得到的每条待测语音数据的梅尔倒谱特征输入到步骤1‐1)得到的DNN模型中，每条待测语音数据的60维梅尔倒谱特征对应得到DNN模型的输出层输出的该条待测语音数据的N个输出概率，将得到的每条待测语音数据的N个输出概率组成该条待测语音数据的N维特征；2‐3)将步骤2‐2)得到的任意一条待测语音数据的N维特征依次输入到步骤1‐2)得到的M个说话人各自对应的对应的SVM模型中，每个SVM模型对该条待测语音数据进行评分，根据每个SVM模型评分结果判断该条待测语音数据对应的说话人和SVM模型所对应的M个说话人的相近程度，得分最高的SVM模型即为该条待测语音数据所对应的类别，该SVM模型所对应的说话人即为该条待测语音数据的近似说话人；2‐4)重复步骤2‐3)，将所有待测语音数据的N维特征分别输入M个SVM模型中，对所有待测语音数据进行分类，得到的类别总个数Q即为估计得到的待测语音数据的说话人个数，Q≤M。2.如权利要求1所述的方法，其特征在于，所述步骤1-2)DNN模型训练阶段，具体包括以下步骤：1‐1‐1)获取N个说话人的训练语音数据；对训练语音数据进行预处理，提取每条训练语音数据的梅尔倒谱特征及其一阶、二阶导数，总共60维；1‐1‐2)设置DNN模型的层数和节点数；DNN模型分为输入层、隐含层和输出层三个层次；其中，输入层对应步骤1‐1‐1)得到的每条训练语音数据的梅尔倒谱特征及其一阶、二阶导数，共60维，则输入层节点数设置为60个；输...

【专利技术属性】
技术研发人员：何亮，徐灿，陈仙红，刘艺，田垚，刘巍巍，刘加，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人