一种基于语义细胞混合模型的说话人识别方法技术

技术编号：11325193 阅读：138 留言：0更新日期：2015-04-22 13:59

本发明专利技术公开了一种基于语义细胞混合模型的说话人识别方法，包括以下步骤：(1)构建语音库，语音库中包括多个说话人的多条语音信号；(2)将语音库中每条语音信号进行预处理，提取语音特征，得到每个人的各个特征向量；(3)基于语义细胞的特征选择法，特征向量进行降维得到降维特征向量，并训练语义细胞混合模型；(4)使用基于语义细胞混合模型的核函数构造各说话人的SVM分类器，并训练SVM分类器的识别模型；(5)利用识别模型识别未知说话人。本发明专利技术能解决现有SVM模型的核函数对特定说话人无针对性优化的问题，在选取用于训练分类器的语音特征时，较目前常见方法更有针对性，且能因此减小模型存储所需空间。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术设及信号处理和模式识别领域，尤其设及一种基于语义细胞混合模型的说话人识别方法。
技术介绍
说话人识别（Speaker Recognition)又称话者识别，指通过对未知说话人产生的语音信号进行特征提取等分析，自动确定说话人是否在已登记的说话人集合中，并辨别具体说话人的过程。由于个体声道、喉部及其他发生器官的形状大小各不相同，任意两个个体的语音特征都不相同（见 Kinnunen T, Li H. An overview of text-independent speaker recognition:from features to supervectors.Speech communicati on, 2010, 52(1) : 12-40.)。该项技术可用于电话银行、语音口禁、电话购物等需对操作者进行鉴别的过程。目前的说话人识别方法通常包括W下两个操作步骤；1.利用语料库中的说话人数据集训练给定的分类器模型。当前应用较为广泛的有模板模型、高斯混合模型（GMM)、隐马尔科夫模型（HMM)、支持向量机（SVM)等。2.将未知说话人的语音输入识别系统，与已知说话人的模型进行匹配并做出决策，判断该未知说话人是否在已登记的说话人集合中。其中步骤1需要对音频信号进行特征提取步骤，目前常用的流程为；1.对采样的语音信号（波形信号）进行预加重（pre-emphasis)、分帖（framing)、加窗（windowing) 操作，称为预处理；2.进行特征提取，目前一般对预处理过的信号提取Mel频率倒谱系数 (Mel-freque...

【技术保护点】
一种基于语义细胞混合模型的说话人识别方法，包括以下步骤：(1)构建语音库，所述语音库中包括多个说话人的多条语音信号；(2)将语音库中每个说话人的每条语音信号进行预处理，提取语音特征，得到每个说话人的各个特征向量；(3)基于语义细胞的特征选择法，对步骤(2)得到的各特征向量进行降维得到相应的降维特征向量，并训练每个说话人的语义细胞混合模型；(4)使用基于语义细胞混合模型的核函数构造每个说话人的SVM分类器，并训练SVM分类器的识别模型；(5)利用SVM分类器的识别模型识别未知说话人。

【技术特征摘要】

【专利技术属性】
技术研发人员：孙凌云，何博伟，尤伟涛，李彦，郑楷洪，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人