用于说话人识别的多背景模型建立方法技术

技术编号：3936524 阅读：381 留言：0更新日期：2012-04-11 18:40

用于说话人识别的多背景模型建立方法涉及一种说话人识别中背景模型建模方法，其特征在于所述方法首先根据语音的声道长度弯折系数对训练数据进行划分，每组数据分别训练ＵＢＭ模型，然后由每个背景模型自适应得到目标说话人ＧＭＭ模型，得到多组ＧＭＭ和ＵＢＭ模型，说话人识别时对测试数据，由每组ＧＭＭ和ＵＢＭ模型计算对数似然比分数，最后从中选取最小的一个作为分数输出。本发明专利技术可对背景模型进行细致刻画，从而提高说话人识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于语音识别领域，具体地说，涉及一种多背景模型建立方法，可用于说话人识别。
技术介绍
说话人识别是指使用机器从一段语音信号中识别出其说话人的身份信息。说话人识别技术主要用于基于语音的身份确认、语音侦听、法庭物证鉴定等领域。说话人识别的方法主要包括VQ(矢量量化)、GMM_UBM(高斯混合模型-通用背景模型)、SVM(支持矢量机)等等。其中GMM-UBM实现简单且性能优良，在整个说话人识别领域应用非常广泛。在GMM-UBM系统中，UBM描述了一般人的特征分布，而GMM描述了目标说话人的特征分布。在训练阶段，UBM由大量人的数据训练得到一个无偏向的模型，GMM由目标说话人的数据训练偏向目标说话人的模型；在测试阶段，对于未知语音，分别由GMM和UBM给出对数似然度，然后两者相减得到对数似然比分数，进而进行说话人识别。通常意义上讲，UBM应该是通用的不偏向任何人的模型，但是实验表明，选择和目标说话人相近的数据训练得到的UBM性能更好，比如通常采用的性别相关的UBM，对男声和女生分别训练UBM，比性别无关的UBM性能更好。显然，按性别对所有说话人进行划分是一种自然而外在的划分，对于语音信号来讲，这种划分不一定准确。首先，有的男声声音可能更像女声，而有的女声声音可能更像男声，应该按照声音去划分，而不是简单的按照说话人的性别划分；其次，把所有说话人分成两类仍然比较粗糙，可能分成多类更有利于说话人识别。
技术实现思路
为了解决现有GMM-UBM系统的不足，本专利技术提供一种根据说话人声道长度进行多背景模型建模的方法。在背景模型训练阶段，首...

【技术保护点】
用于说话人识别的多背景模型建立方法，其特征在于，所述方法是在数字集成电路芯片中依次按以下步骤实现的：步骤（１）：采用Ｂａｕｍ－Ｗｅｌｃｈ算法，用训练通用背景模型ＵＢＭ的所有数据训练一个高斯混合模型ＧＭＭΛ↓［０］；步骤（２）：求取每段语音的声道长度弯折系数，具体做法为：步骤（２．１）：声道长度弯折系数α从０．８８以步长０．０２变化到１．１２，对信号频谱进行“弯折”，设弯折前后的频率为ｆ，ｆ↑［α］，频谱的低通和高通截止频率为ｆ↓［ｌ］，ｆ↓［ｕ］，则弯折公式为ｆ↑［α］＝ｆ＋斯分量的零阶和一阶统计量；步骤（４．３）：对一阶统计量和ＵＢＭ的均值进行线性插值，得到自适应后的ＧＭＭ模型的均值：＊↓［ｍ］＝λ↓［ｍ］Ｅ↓［ｍ］（＊）＋（１－λ↓［ｍ］）μ↓［ｍ］，其中插值系数为λ↓［ｍ］＝ｎ↓［ｍ］／（ｎ↓［ｍ］＋ｒ），ｒ为常数，取值为１６，对ｍ＝１，．．．，Ｍ进行循环，计算ＧＭＭ模型的每个高斯分量的均值，其权重和方差直接采用ＵＢＭ的对应的权重和方差；步骤（５）：对于测试语音提取ＭＦＣＣ特征，然后分别用８组ＧＭＭ和ＵＢＭ模型求取对数似然比分数，从中选取最小的一个作为分数输出，具体方法为：步骤（...

【技术特征摘要】

【专利技术属性】
技术研发人员：张卫强，刘加，
申请(专利权)人：清华大学，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人