一种语种训练数据获得方法及装置制造方法及图纸

技术编号:21092985 阅读:20 留言:0更新日期:2019-05-11 11:14
本发明专利技术提供一种语种训练数据获得方法及装置,用以解决相关技术中语种训练数据质量较低的问题。该方法包括:训练用于识别各种语种的语种识别模型;使用各语种识别模型识别数据集中的第二音频数据,获得与各语种识别模型对应的得分;确定第二音频数据对应的识别语种;计算数据集中各条第二音频数据的得分信息熵;将所述数据集中,得分信息熵满足第一预设条件且实际语种与识别语种一致的第二音频数据的集合作为训练数据集,训练数据集中的第二音频数据用于训练所述语种识别模型,返回执行所述使用训练数据训练用于识别语种的各语种识别模型的步骤,直至获得的所述训练数据集中的音频数据的数量满足第二预设条件。本发明专利技术提高了语种训练数据的质量。

A Method and Device for Acquiring Language Training Data

【技术实现步骤摘要】
一种语种训练数据获得方法及装置
本专利技术涉及语音信号处理
,尤其涉及一种语种训练数据获得方法及装置。
技术介绍
语种识别模型的质量取决于用于训练该模型的训练数据的质量,然而一般情况下,训练数据中总会有一些标注错误的情况,这些数据的存在会使得训练得到的语种识别模型的描述能力较差,最终影响语种识别模型的识别性能。故如何将这些数据筛除变得非常重要。目前,语种训练数据的选择主要依靠人工检查,将标注好的训练数据进行抽检,发现标注错误率较大时,则重新对训练数据进行标注。这种方式费时费力,在数据量较大时,不可避免的会残留一些错误。
技术实现思路
本专利技术的主要目的在于提供一种语种训练数据获得方法及装置,以解决相关技术中用于训练语种识别模型的训练数据质量较低的问题。根据本公开的第一个方面,提供了一种语种训练数据获得方法,包括:使用训练数据分别训练用于识别各种语种的语种识别模型,其中,所述训练数据中包括各种语种的第一音频数据;分别使用所述各语种识别模型识别数据集中的第二音频数据,所述第二音频数据预先标注有其所属语种,获得与各所述语种识别模型对应的得分;根据所述得分基于各所述语种识别模型确定出所述第二音频数据对应的识别语种;计算所述数据集中各条第二音频数据的得分信息熵;将所述数据集中,所述得分信息熵满足第一预设条件且实际语种与所述识别语种一致的第二音频数据的集合作为训练数据集,所述训练数据集中的第二音频数据用于训练所述语种识别模型,返回执行所述使用训练数据训练用于识别语种的各语种识别模型的步骤,直至获得的所述训练数据集中的音频数据的数量满足第二预设条件。可选地,所述计算所述数据集中各条第二音频数据的得分信息熵,包括:使用如下公式对使用各所述语种识别模型识别所述第二音频数据得到的分数进行归一化;其中,I为所述语种识别模型的总个数,为第i个语种识别模型,λi的上标(0)表示迭代次数,表示使用第i个语种识别模型识别所述数据集中第j条第二音频数据的得分;使用如下公式计算所述得分信息熵;其中,H(j)表示所述数据集中第j条第二音频数据对应的得分信息熵。可选地,所述第一预设条件,包括:H(j)≤κlogI,其中,H(j)表示所述数据集中第j条第二音频数据对应的得分信息熵,κ为预设常数,I为所述语种识别模型的总个数。可选地,所述第二预设条件包括,当前得到的所述训练数据的数量与上一次得到的所述训练数据的数量一致。可选地,所述根据所述得分基于各所述语种识别模型确定出所述第二音频数据对应的识别语种,包括:选择各所述语种识别模型对所述第二音频数据进行识别得到的得分中,得分最高的分数对应的语种作为所述第二音频数据的识别语种。根据本专利技术的第二个方面,提供了一种语种训练数据获得装置,包括:训练模块,用于使用训练数据分别训练用于识别各种语种的语种识别模型,其中,所述训练数据中包括各种语种的第一音频数据;识别模块,用于分别使用所述各语种识别模型识别数据集中的第二音频数据,所述第二音频数据预先标注有其所属语种,获得与各所述语种识别模型对应的得分;第一确定模块,用于根据所述得分基于各所述语种识别模型确定出所述第二音频数据对应的识别语种;计算模块,用于计算所述数据集中各条第二音频数据的得分信息熵;第二确定模块,用于将所述数据集中,所述得分信息熵满足第一预设条件且实际语种与所述识别语种一致的第二音频数据的集合作为训练数据集,所述训练数据集中的第二音频数据用于训练所述语种识别模型,返回执行所述使用训练数据训练用于识别语种的各语种识别模型的步骤,直至获得的所述训练数据集中的音频数据的数量满足第二预设条件。可选地,所述计算模块,包括:第一计算单元,用于使用如下公式对使用各所述语种识别模型识别所述第二音频数据得到的分数进行归一化;其中,I为所述语种识别模型的总个数,为第i个语种识别模型,λi的上标(0)表示迭代次数,表示使用第i个语种识别模型识别所述数据集中第j条第二音频数据的得分;第二计算单元,用于使用如下公式计算所述得分信息熵;其中,H(j)表示所述数据集中第j条第二音频数据对应的得分信息熵。可选地,所述第一预设条件,包括:H(j)≤κlogI,其中,H(j)表示所述数据集中第j条第二音频数据对应的得分信息熵,κ为预设常数,I为所述语种识别模型的总个数。可选地,所述第二预设条件包括,当前得到的所述训练数据的数量与上一次得到的所述训练数据的数量一致。可选地,所述第一确定模块用于:选择各所述语种识别模型对所述第二音频数据进行识别得到的得分中,得分最高的分数对应的语种作为所述第二音频数据的识别语种。本专利技术实施例的语种训练数据获得方法基于训练得到的语种识别模型识别训练数据,根据识别分数选取信息熵低的训练数据作为新的训练数据,用于再次训练语种识别模型,即可实现对语种训练数据的提纯,从而得到质量较高的语种训练数据。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据一示例性实施例示出的一种语种训练数据获得方法的流程图;图2是根据一示例性实施例示出的一种语种训练数据获得方法的流程图;图3是根据一示例性实施例示出的一种语种训练数据获得装置的框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术提出一种语种训练数据获得方法,该方法可用于语种训练数据的过滤与提纯,本专利技术的语种训练数据用于训练语种识别模块,语种识别模型可识别音频数据对应的语种。该方法先采用训练得到的语种识别模型模型对训练数据进行语种识别,然后根据识别分数选取信息熵低的训练数据再次训练语种识别模型,如此迭代若干次后,即可得到较为纯正的训练集数据,再利用这些数据训练得到的语种识别模型,将能够获得较高的识别性能。图1是根据一示例性实施例示出的一种语种训练数据获得方法的流程图,如图1所示,该方法包括如下步骤:步骤101:使用训练数据分别训练用于识别各种语种的语种识别模型,其中,所述训练数据中包括各种语种的第一音频数据;上述训练数据可预先标注有其所属的语种,该训练数据在一个训练数据集中。上述语种识别模型可以是GMM(高斯混合)模型、SVM(SupportVectorMachine,支持向量机)模型或i-vector模型中的任意一种。步骤102:分别使用所述各语种识别模型识别数据集中的第二音频数据,所述第二音频数据的预先标注有其所属语种,获得与各所述语种识别模型对应的得分;步骤102中的数据集可以与步骤101中的训练数据集为同一数据集,也可为不同的数据集。在使用各语种识别模型识别第二音频数据的语种之前,该第二音频数据预先标注有其所属语种,故,根据各语种识别模型对第二音频数据进行语种识别得到的识别结果可用于衡量数据集中音频数据的之间,例如,可识别出一些标注错误的音频数据。步骤103:根据所述得分基于各所述语种识别模型确定出所述第二音频数据对应的识别语种;在一种可实现方式中,所述根据本文档来自技高网...

【技术保护点】
1.一种语种训练数据获得方法,其特征在于,包括:使用训练数据分别训练用于识别各种语种的语种识别模型,其中,所述训练数据中包括各种语种的第一音频数据;分别使用所述各语种识别模型识别数据集中的第二音频数据,所述第二音频数据预先标注有其所属语种,获得与各所述语种识别模型对应的得分;根据所述得分基于各所述语种识别模型确定出所述第二音频数据对应的识别语种;计算所述数据集中各条所述第二音频数据的得分信息熵;将所述数据集中,所述得分信息熵满足第一预设条件且实际语种与所述识别语种一致的第二音频数据的集合作为训练数据集,所述训练数据集中的第二音频数据用于训练所述语种识别模型,返回执行所述使用训练数据训练用于识别语种的各语种识别模型的步骤,直至获得的所述训练数据集中的音频数据的数量满足第二预设条件。

【技术特征摘要】
1.一种语种训练数据获得方法,其特征在于,包括:使用训练数据分别训练用于识别各种语种的语种识别模型,其中,所述训练数据中包括各种语种的第一音频数据;分别使用所述各语种识别模型识别数据集中的第二音频数据,所述第二音频数据预先标注有其所属语种,获得与各所述语种识别模型对应的得分;根据所述得分基于各所述语种识别模型确定出所述第二音频数据对应的识别语种;计算所述数据集中各条所述第二音频数据的得分信息熵;将所述数据集中,所述得分信息熵满足第一预设条件且实际语种与所述识别语种一致的第二音频数据的集合作为训练数据集,所述训练数据集中的第二音频数据用于训练所述语种识别模型,返回执行所述使用训练数据训练用于识别语种的各语种识别模型的步骤,直至获得的所述训练数据集中的音频数据的数量满足第二预设条件。2.根据权利要求1所述的方法,其特征在于,所述计算所述数据集中各条所述第二音频数据的得分信息熵,包括:使用如下公式对使用各所述语种识别模型识别所述第二音频数据得到的分数进行归一化;其中,I为所述语种识别模型的总个数,为第i个语种识别模型,λi的上标(0)表示迭代次数,表示使用第i个语种识别模型识别所述数据集中第j条第二音频数据的得分;使用如下公式计算所述得分信息熵;其中,H(j)表示所述数据集中第j条第二音频数据对应的得分信息熵。3.根据权利要求1所述的方法,其特征在于,所述第一预设条件,包括:H(j)≤κlogI,其中,H(j)表示所述数据集中第j条第二音频数据对应的得分信息熵,κ为预设常数,I为所述语种识别模型的总个数。4.根据权利要求1所述的方法,其特征在于,所述第二预设条件包括:当前得到的所述训练数据的数量与上一次得到的所述训练数据的数量一致。5.根据权利要求1至4任一项所述的方法,其特征在于,所述根据所述得分基于各所述语种识别模型确定出所述第二音频数据对应的识别语种,包括:选择各所述语种识别模型对所述第二音频数据进行识别得到的得分中,得分最高的分数对应的语种作为所述第二音频数据的识别语种。6...

【专利技术属性】
技术研发人员:袁庆升汪立东包秀国张鸿时磊张卫强邵云飞
申请(专利权)人:国家计算机网络与信息安全管理中心清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1