一种针对短语音的说话人识别模型的训练方法及装置制造方法及图纸

技术编号:16606479 阅读:36 留言:0更新日期:2017-11-22 16:28
本发明专利技术公开了一种针对短语音的说话人识别模型的训练方法,包括:从训练语料的语音数据中提取声学特征;对所述训练语料的语音数据进行音素标注得到音素标注结果;利用所述声学特征和所述音素标注结果进行音素相关的GMM‑UBM模型训练,得到说话人相关且音素相关的GMM模型和UBM模型;基于所述音素相关的GMM模型和UBM模型,针对每个音素生成用于提取i‑vector特征的音素相关的i‑vector总体变化矩阵;利用所述音素相关的i‑vector总体变化矩阵,从每个说话人数据中提取音素相关的i‑vector参数,再通过降维得到说话人相关且音素相关的i‑vector特征,作为说话人模型,本发明专利技术通过对说话人建立音素相关的i‑vector模型,使模型精度更高,并提高了识别准确率。

A training method and device for speaker recognition model based on short speech

The invention discloses a training method for short speech speaker recognition model includes: extracting acoustic features from speech data corpus; speech data on the training corpus phoneme labeling obtained phoneme annotation results; using the acoustic features and the phoneme phoneme annotation results related to GMM UBM the training model, GMM model and UBM model related to the speaker and phoneme; the phoneme based on GMM model and UBM model, for each phoneme generation for the extraction of I vector features I vector phoneme related changes in the overall matrix; using the I vector overall change matrix related phonemes, phoneme extraction I vector parameters related to the data from each speaker, I vector features related to the speaker and phoneme obtained by dimensionality reduction, as speaker The present invention through the establishment of I model, vector model related phonemes of the speaker, so that the accuracy of the model is higher, and improves the recognition accuracy.

【技术实现步骤摘要】
一种针对短语音的说话人识别模型的训练方法及装置
本专利技术涉及说话人识别领域,具体涉及一种针对短语音的说话人识别模型的训练方法。本专利技术同时涉及一种使用说话人识别模型进行针对短语音的说话人识别的装置。
技术介绍
作为语音处理领域的主要技术之一,说话人识别以确认说话人身份为目标,在移动交互、身份验证、音频监控等领域有着广泛的应用前景。经过数十年的发展,说话人识别技术已经得到广泛应用。说话人识别系统通常包括说话人训练阶段和说话人识别阶段。在说话人训练阶段,系统首先对提供的若干训练语音进行静音剔除和降噪处理,尽可能得到纯净有效的语音片段,然后再对这些语音提取对应的声学特征参数,根据系统的建模算法,得到说话人的特征模型。每个说话人对应的训练语音经过训练阶段后得到一个说话人模型。说话人识别阶段就是模式匹配的过程,其主要任务是将输入的待识别说话人语音特征与训练得到的模型集合中所有模型进行匹配,根据最优的匹配结果,判定待识别语音的最优匹配说话人。近年来,基于i-vector的说话人建模技术取得了很大的进展,使得说话人识别系统的性能得到了显著的提升。在由美国国家标准技术委员会组织的国际说话人评测中,基于i-vector的说话人识别性能明显优于之前广泛采用的高斯混合模型-通用背景模型(GaussianMixtureModel-UniversalbackgroundModel,GMM-UBM)、高斯混合模型超矢量-支撑向量机(Gaussianmixturemodelsupervector-SupportVectorMachine,GSV-SVM)、联合音子分析(JointFactorAnalysis,JFA)等方法,已成为目前主流的说话人识别技术。i-vector说话人识别方法是基于GMM-UBM方法发展而来的。它利用GMM-UBM的均值矢量构成反映说话人信息的多维空间,并基于该空间进行统计建模和识别。在目前的方法中,生成i-vector的GMM是由所有训练语料共同训练得到的,也就是说高斯混合模型的均值矢量并不仅仅反映语音中的说话人相关信息,同时也包含了说话人无关信息(如音素相关信息)。对长时语音而言,说话人信息相对音素信息而言更加稳定,说话人识别效果会比较理想。然而对短时语音而言,这种相对稳定性便不再明显,因此会导致说话人识别准确率低。在现实应用中,并不能保证系统在识别时能够获得足够长时间的测试语音。而目前的说话人识别技术,包括主流的i-vector技术,在基于短语音的说话人识别任务上普遍性能较差。因此,如何能够用较短的测试语音(即短语音)来准确地判断其说话人身份就成为当前该领域亟待解决的问题。
技术实现思路
本专利技术提供一种针对短语音的说话人模型的训练方法,以解决现有技术对短语音的说话人识别准确率低的问题。本专利技术提供一种针对短语音的说话人识别模型的训练方法,包括:从训练语料的语音数据中提取声学特征;对所述训练语料的语音数据进行音素标注得到音素标注结果;利用所述声学特征和所述音素标注结果进行音素相关的GMM-UBM模型训练,得到说话人相关且音素相关的GMM模型和UBM模型;基于所述音素相关的GMM模型和UBM模型,针对每个音素生成用于提取i-vector特征的音素相关的i-vector总体变化矩阵;利用所述音素相关的i-vector总体变化矩阵,从每个说话人数据中提取音素相关的i-vector参数,再通过降维得到说话人相关且音素相关的i-vector特征,作为说话人模型。较佳地,所述声学特征至少包括:美标度倒谱、能量以及二者的一阶时域差分和二阶时域差分。较佳地,所述音素为浊音音素。较佳地,所述进行音素标注至少包括:标注音素名称及各个音素开始时间和结束时间。较佳地,所述进行音素标注,是通过人工或自动方式实现。较佳地,所述利用所述声学特征和所述音素标注结果进行音素相关的GMM-UBM模型训练,具体包括:利用各个音素对应的所述声学特征,训练得到音素相关说话人无关的UBM模型;在音素相关说话人无关的所述UBM模型基础上,通过自适应方法为每个说话人训练得到一个高斯混合模型,即说话人相关且音素相关的GMM模型。本专利技术还提供了一种使用上述说话人模型进行针对短语音的说话人识别的方法,包括:预先存储如下模型:音素识别模型、音素相关的UBM模型、音素相关的i-vector总体变化矩阵和说话人模型;所述说话人模型为说话人相关及音素相关的i-vector特征模型;从输入语音数据中提取声学特征;利用预先存储的所述音素识别模型和提取的所述声学特征进行音素识别,得到输入语音数据的音素标注结果;利用所述声学特征和所述输入语音数据的音素标注结果,结合预先存储的所述音素相关的UBM模型和所述音素相关的i-vector总体变化矩阵,来提取i-vector特征;将提取的所述i-vector特征输入至所述说话人模型进行打分,将得分最高的模型所对应的说话人作为识别结果,即目标说话人。较佳地,所述利用得到的所述声学特征、所述输入语音的音素标注结果,结合预先存储的所述音素相关的UBM模型、所述音素相关的i-vector总体变化矩阵,来提取i-vector特征,具体包括如下步骤:根据所述输入语音数据的音素标注结果,利用相应的声学特征自适应对应音素相关的UBM模型,进行音素相关的GMM训练得到待识别说话人音素相关的GMM模型;将该GMM模型的均值超矢量在音素相关的i-vector总体变化矩阵上进行投影,得到i-vector参数;对i-vector参数进行PLDA降维,得到该说话人音素相关的i-vector特征。本专利技术还提供了一种针对短语音的说话人识别模型的训练装置,包括:第一提取模块,用于从训练语料的语音数据中提取声学特征;第一音素标注模块,用于对所述训练语料的语音数据进行音素标注,得到音素标注结果;第一训练模块,用于利用所述声学特征和所述音素标注结果进行音素相关的GMM-UBM模型训练,得到说话人相关且音素相关的GMM模型和UBM模型;生成模块,用于基于所述音素相关的GMM模型和UBM模型,针对每个音素生成用于提取i-vector特征的音素相关的i-vector总体变化矩阵;和,第一处理模块,利用所述音素相关的i-vector总体变化矩阵,从每个说话人数据中提取音素相关的i-vector参数,再通过降维得到说话人相关且音素相关的i-vector特征,作为说话人模型。较佳地,所述声学特征至少包括:美标度倒谱、能量以及二者的一阶时域差分和二阶时域差分。较佳地,所述音素为浊音音素。较佳地,所述第一音素标注模块具体用于标注音素名称及各个音素开始时间和结束时间。较佳地,所述第一音素标注模块进行音素标注,是通过人工或自动方式实现。较佳地,所述第一训练模块,具体包括:第一训练子模块,用于利用各个音素对应的所述声学特征,训练得到音素相关说话人无关的UBM模型;和,第二训练子模块,用于在音素相关说话人无关的所述UBM模型基础上,通过自适应方法为每个说话人训练得到一个高斯混合模型,即说话人相关且音素相关的GMM模型。本专利技术还提供了一种使用上述说话人模型进行针对短语音的说话人识别的装置,包括:存储模块,用于预先存储如下模型:音素识别模型、音素相关的UBM模型、音素相关的i-vector总本文档来自技高网
...
一种针对短语音的说话人识别模型的训练方法及装置

【技术保护点】
一种针对短语音的说话人识别模型的训练方法,其特征在于,包括:从训练语料的语音数据中提取声学特征;对所述训练语料的语音数据进行音素标注得到音素标注结果;利用所述声学特征和所述音素标注结果进行音素相关的GMM‑UBM模型训练,得到说话人相关且音素相关的GMM模型和UBM模型;基于所述音素相关的GMM模型和UBM模型,针对每个音素生成用于提取i‑vector特征的音素相关的i‑vector总体变化矩阵;利用所述音素相关的i‑vector总体变化矩阵,从每个说话人数据中提取音素相关的i‑vector参数,再通过降维得到说话人相关且音素相关的i‑vector特征,作为说话人模型。

【技术特征摘要】
1.一种针对短语音的说话人识别模型的训练方法,其特征在于,包括:从训练语料的语音数据中提取声学特征;对所述训练语料的语音数据进行音素标注得到音素标注结果;利用所述声学特征和所述音素标注结果进行音素相关的GMM-UBM模型训练,得到说话人相关且音素相关的GMM模型和UBM模型;基于所述音素相关的GMM模型和UBM模型,针对每个音素生成用于提取i-vector特征的音素相关的i-vector总体变化矩阵;利用所述音素相关的i-vector总体变化矩阵,从每个说话人数据中提取音素相关的i-vector参数,再通过降维得到说话人相关且音素相关的i-vector特征,作为说话人模型。2.如权利要求1所述的针对短语音的说话人模型的训练方法,其特征在于,所述声学特征至少包括:美标度倒谱、能量以及二者的一阶时域差分和二阶时域差分。3.如权利要求1所述的针对短语音的说话人模型的训练方法,其特征在于,所述音素为浊音音素。4.如权利要求1所述的针对短语音的说话人模型的训练方法,其特征在于,所述进行音素标注至少包括:标注音素名称及各个音素开始时间和结束时间。5.如权利要求1所述的针对短语音的说话人模型的训练方法,其特征在于,所述进行音素标注,是通过人工或自动方式实现。6.如权利要求1所述的针对短语音的说话人模型的训练方法,其特征在于,所述利用所述声学特征和所述音素标注结果进行音素相关的GMM-UBM模型训练,具体包括:利用各个音素对应的所述声学特征,训练得到音素相关说话人无关的UBM模型;在音素相关说话人无关的所述UBM模型基础上,通过自适应方法为每个说话人训练得到一个高斯混合模型,即说话人相关且音素相关的GMM模型。7.一种使用如权利要求1-6任一项的说话人模型进行针对短语音的说话人识别的方法,其特征在于,包括:预先存储如下模型:音素识别模型、音素相关的UBM模型、音素相关的i-vector总体变化矩阵和说话人模型;所述说话人模型为说话人相关及音素相关的i-vector特征模型;从输入语音数据中提取声学特征;利用预先存储的所述音素识别模型和提取的所述声学特征进行音素识别,得到输入语音数据的音素标注结果;利用所述声学特征和所述输入语音数据的音素标注结果,结合预先存储的所述音素相关的UBM模型和所述音素相关的i-vector总体变化矩阵,来提取i-vector特征;将提取的所述i-vector特征输入至所述说话人模型进行打分,将得分最高的模型所对应的说话人作为识别结果,即目标说话人。8.如权利要求7所述的说话人识别方法,其特征在于,所述利用得到的所述声学特征、所述输入语音的音素标注结果,结合预先存储的所述音素相关的UBM模型、所述音素相关的i-vector总体变化矩阵,来提取i-vector特征,具体包括如下步骤:根据所述输入语音数据的音素标注结果,利用相应的声学特征自适应对应音素相关的UBM模型,进行音素相关的GMM训练得到待识别说话人音素相关的GMM模型;将该GMM模型的均值超矢量在音素相关的i-vector总体变化矩阵上进行投影,得到i-vector参数;对i-vector参数进行PLDA降维,得到该说话人音素相关的i-vector特征。9.一种针对短语...

【专利技术属性】
技术研发人员:庞在虎张志平朱风云
申请(专利权)人:北京灵伴未来科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1