The invention discloses a training method for short speech speaker recognition model includes: extracting acoustic features from speech data corpus; speech data on the training corpus phoneme labeling obtained phoneme annotation results; using the acoustic features and the phoneme phoneme annotation results related to GMM UBM the training model, GMM model and UBM model related to the speaker and phoneme; the phoneme based on GMM model and UBM model, for each phoneme generation for the extraction of I vector features I vector phoneme related changes in the overall matrix; using the I vector overall change matrix related phonemes, phoneme extraction I vector parameters related to the data from each speaker, I vector features related to the speaker and phoneme obtained by dimensionality reduction, as speaker The present invention through the establishment of I model, vector model related phonemes of the speaker, so that the accuracy of the model is higher, and improves the recognition accuracy.
【技术实现步骤摘要】
一种针对短语音的说话人识别模型的训练方法及装置
本专利技术涉及说话人识别领域,具体涉及一种针对短语音的说话人识别模型的训练方法。本专利技术同时涉及一种使用说话人识别模型进行针对短语音的说话人识别的装置。
技术介绍
作为语音处理领域的主要技术之一,说话人识别以确认说话人身份为目标,在移动交互、身份验证、音频监控等领域有着广泛的应用前景。经过数十年的发展,说话人识别技术已经得到广泛应用。说话人识别系统通常包括说话人训练阶段和说话人识别阶段。在说话人训练阶段,系统首先对提供的若干训练语音进行静音剔除和降噪处理,尽可能得到纯净有效的语音片段,然后再对这些语音提取对应的声学特征参数,根据系统的建模算法,得到说话人的特征模型。每个说话人对应的训练语音经过训练阶段后得到一个说话人模型。说话人识别阶段就是模式匹配的过程,其主要任务是将输入的待识别说话人语音特征与训练得到的模型集合中所有模型进行匹配,根据最优的匹配结果,判定待识别语音的最优匹配说话人。近年来,基于i-vector的说话人建模技术取得了很大的进展,使得说话人识别系统的性能得到了显著的提升。在由美国国家标准技术委员会组织的国际说话人评测中,基于i-vector的说话人识别性能明显优于之前广泛采用的高斯混合模型-通用背景模型(GaussianMixtureModel-UniversalbackgroundModel,GMM-UBM)、高斯混合模型超矢量-支撑向量机(Gaussianmixturemodelsupervector-SupportVectorMachine,GSV-SVM)、联合音子分析(JointF ...
【技术保护点】
一种针对短语音的说话人识别模型的训练方法,其特征在于,包括:从训练语料的语音数据中提取声学特征;对所述训练语料的语音数据进行音素标注得到音素标注结果;利用所述声学特征和所述音素标注结果进行音素相关的GMM‑UBM模型训练,得到说话人相关且音素相关的GMM模型和UBM模型;基于所述音素相关的GMM模型和UBM模型,针对每个音素生成用于提取i‑vector特征的音素相关的i‑vector总体变化矩阵;利用所述音素相关的i‑vector总体变化矩阵,从每个说话人数据中提取音素相关的i‑vector参数,再通过降维得到说话人相关且音素相关的i‑vector特征,作为说话人模型。
【技术特征摘要】
1.一种针对短语音的说话人识别模型的训练方法,其特征在于,包括:从训练语料的语音数据中提取声学特征;对所述训练语料的语音数据进行音素标注得到音素标注结果;利用所述声学特征和所述音素标注结果进行音素相关的GMM-UBM模型训练,得到说话人相关且音素相关的GMM模型和UBM模型;基于所述音素相关的GMM模型和UBM模型,针对每个音素生成用于提取i-vector特征的音素相关的i-vector总体变化矩阵;利用所述音素相关的i-vector总体变化矩阵,从每个说话人数据中提取音素相关的i-vector参数,再通过降维得到说话人相关且音素相关的i-vector特征,作为说话人模型。2.如权利要求1所述的针对短语音的说话人模型的训练方法,其特征在于,所述声学特征至少包括:美标度倒谱、能量以及二者的一阶时域差分和二阶时域差分。3.如权利要求1所述的针对短语音的说话人模型的训练方法,其特征在于,所述音素为浊音音素。4.如权利要求1所述的针对短语音的说话人模型的训练方法,其特征在于,所述进行音素标注至少包括:标注音素名称及各个音素开始时间和结束时间。5.如权利要求1所述的针对短语音的说话人模型的训练方法,其特征在于,所述进行音素标注,是通过人工或自动方式实现。6.如权利要求1所述的针对短语音的说话人模型的训练方法,其特征在于,所述利用所述声学特征和所述音素标注结果进行音素相关的GMM-UBM模型训练,具体包括:利用各个音素对应的所述声学特征,训练得到音素相关说话人无关的UBM模型;在音素相关说话人无关的所述UBM模型基础上,通过自适应方法为每个说话人训练得到一个高斯混合模型,即说话人相关且音素相关的GMM模型。7.一种使用如权利要求1-6任一项的说话人模型进行针对短语音的说话人识别的方法,其特征在于,包括:预先存储如下模型:音素识别模型、音素相关的UBM模型、音素相关的i-vector总体变化矩阵和说话人模型;所述说话人模型为说话人相关及音素相关的i-vector特征模型;从输入语音数据中提取声学特征;利用预先存储的所述音素识别模型和提取的所述声学特征进行音素识别,得到输入语音数据的音素标注结果;利用所述声学特征和所述输入语音数据的音素标注结果,结合预先存储的所述音素相关的UBM模型和所述音素相关的i-vector总体变化矩阵,来提取i-vector特征;将提取的所述i-vector特征输入至所述说话人模型进行打分,将得分最高的模型所对应的说话人作为识别结果,即目标说话人。8.如权利要求7所述的说话人识别方法,其特征在于,所述利用得到的所述声学特征、所述输入语音的音素标注结果,结合预先存储的所述音素相关的UBM模型、所述音素相关的i-vector总体变化矩阵,来提取i-vector特征,具体包括如下步骤:根据所述输入语音数据的音素标注结果,利用相应的声学特征自适应对应音素相关的UBM模型,进行音素相关的GMM训练得到待识别说话人音素相关的GMM模型;将该GMM模型的均值超矢量在音素相关的i-vector总体变化矩阵上进行投影,得到i-vector参数;对i-vector参数进行PLDA降维,得到该说话人音素相关的i-vector特征。9.一种针对短语...
【专利技术属性】
技术研发人员:庞在虎,张志平,朱风云,
申请(专利权)人:北京灵伴未来科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。