一种语种训练数据获得方法及装置制造方法及图纸

技术编号：21092985 阅读：20 留言：0更新日期：2019-05-11 11:14

本发明专利技术提供一种语种训练数据获得方法及装置，用以解决相关技术中语种训练数据质量较低的问题。该方法包括：训练用于识别各种语种的语种识别模型；使用各语种识别模型识别数据集中的第二音频数据，获得与各语种识别模型对应的得分；确定第二音频数据对应的识别语种；计算数据集中各条第二音频数据的得分信息熵；将所述数据集中，得分信息熵满足第一预设条件且实际语种与识别语种一致的第二音频数据的集合作为训练数据集，训练数据集中的第二音频数据用于训练所述语种识别模型，返回执行所述使用训练数据训练用于识别语种的各语种识别模型的步骤，直至获得的所述训练数据集中的音频数据的数量满足第二预设条件。本发明专利技术提高了语种训练数据的质量。

A Method and Device for Acquiring Language Training Data

全部详细技术资料下载

【技术实现步骤摘要】
一种语种训练数据获得方法及装置
本专利技术涉及语音信号处理
，尤其涉及一种语种训练数据获得方法及装置。
技术介绍
语种识别模型的质量取决于用于训练该模型的训练数据的质量，然而一般情况下，训练数据中总会有一些标注错误的情况，这些数据的存在会使得训练得到的语种识别模型的描述能力较差，最终影响语种识别模型的识别性能。故如何将这些数据筛除变得非常重要。目前，语种训练数据的选择主要依靠人工检查，将标注好的训练数据进行抽检，发现标注错误率较大时，则重新对训练数据进行标注。这种方式费时费力，在数据量较大时，不可避免的会残留一些错误。
技术实现思路
本专利技术的主要目的在于提供一种语种训练数据获得方法及装置，以解决相关技术中用于训练语种识别模型的训练数据质量较低的问题。根据本公开的第一个方面，提供了一种语种训练数据获得方法，包括：使用训练数据分别训练用于识别各种语种的语种识别模型，其中，所述训练数据中包括各种语种的第一音频数据；分别使用所述各语种识别模型识别数据集中的第二音频数据，所述第二音频数据预先标注有其所属语种，获得与各所述语种识别模型对应的得分；根据所述得分基于各所述语种识别模型确定出所述第二音频数据对应的识别语种；计算所述数据集中各条第二音频数据的得分信息熵；将所述数据集中，所述得分信息熵满足第一预设条件且实际语种与所述识别语种一致的第二音频数据的集合作为训练数据集，所述训练数据集中的第二音频数据用于训练所述语种识别模型，返回执行所述使用训练数据训练用于识别语种的各语种识别模型的步骤，直至获得的所述训练数据集中的音频数据的数量满足第二预设条件。可选地，所述计算...

【技术保护点】
1.一种语种训练数据获得方法，其特征在于，包括：使用训练数据分别训练用于识别各种语种的语种识别模型，其中，所述训练数据中包括各种语种的第一音频数据；分别使用所述各语种识别模型识别数据集中的第二音频数据，所述第二音频数据预先标注有其所属语种，获得与各所述语种识别模型对应的得分；根据所述得分基于各所述语种识别模型确定出所述第二音频数据对应的识别语种；计算所述数据集中各条所述第二音频数据的得分信息熵；将所述数据集中，所述得分信息熵满足第一预设条件且实际语种与所述识别语种一致的第二音频数据的集合作为训练数据集，所述训练数据集中的第二音频数据用于训练所述语种识别模型，返回执行所述使用训练数据训练用于识别语种的各语种识别模型的步骤，直至获得的所述训练数据集中的音频数据的数量满足第二预设条件。

【技术特征摘要】
1.一种语种训练数据获得方法，其特征在于，包括：使用训练数据分别训练用于识别各种语种的语种识别模型，其中，所述训练数据中包括各种语种的第一音频数据；分别使用所述各语种识别模型识别数据集中的第二音频数据，所述第二音频数据预先标注有其所属语种，获得与各所述语种识别模型对应的得分；根据所述得分基于各所述语种识别模型确定出所述第二音频数据对应的识别语种；计算所述数据集中各条所述第二音频数据的得分信息熵；将所述数据集中，所述得分信息熵满足第一预设条件且实际语种与所述识别语种一致的第二音频数据的集合作为训练数据集，所述训练数据集中的第二音频数据用于训练所述语种识别模型，返回执行所述使用训练数据训练用于识别语种的各语种识别模型的步骤，直至获得的所述训练数据集中的音频数据的数量满足第二预设条件。2.根据权利要求1所述的方法，其特征在于，所述计算所述数据集中各条所述第二音频数据的得分信息熵，包括：使用如下公式对使用各所述语种识别模型识别所述第二音频数据得到的分数进行归一化；其中，I为所述语种识别模型的总个数，为第i个语种识别模型，λi的上标(0)表示迭代次数，表示使用第i个语种识别模型识别所述数据集中第j条第二音频数据的得分；使用如下公式计算所述得分信息熵；其中，H(j)表示所述数据集中第j条第二音频数据对应的得分信息熵。3.根据权利要求1所述的方法，其特征在于，所述第一预设条件，包括：H(j)≤κlogI，其中，H(j)表示所述数据集中第j条第二音频数据对应的得分信息熵，κ为预设常数，I为所述语种识别模型的总个数。4.根据权利要求1所述的方法，其特征在于，所述第二预设条件包括：当前得到的所述训练数据的数量与上一次得到的所述训练数据的数量一致。5.根据权利要求1至4任一项所述的方法，其特征在于，所述根据所述得分基于各所述语种识别模型确定出所述第二音频数据对应的识别语种，包括：选择各所述语种识别模型对所述第二音频数据进行识别得到的得分中，得分最高的分数对应的语种作为所述第二音频数据的识别语种。6...

【专利技术属性】
技术研发人员：袁庆升，汪立东，包秀国，张鸿，时磊，张卫强，邵云飞，
申请(专利权)人：国家计算机网络与信息安全管理中心，清华大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人