语料数据的数据特征增强方法、装置及计算机设备制造方法及图纸

技术编号：26304978 阅读：30 留言：0更新日期：2020-11-10 20:01

本发明专利技术公开了语料数据的数据特征增强方法、装置、计算机设备及存储介质，涉及人工智能技术，其中当获取了全量语料数据集后先进行数据分组得到多组语料数据子集，依序每删除一组语料数据子集后对待训练用户意图识别模型进行训练得到多个用户意图识别模型，将全量语料数据集中每一数据作为训练样本数据和作为测试样本数据，分别对应计算模型平均正确率差值、样本召回率差值和预测正确率差值以获取各语料数据对应的样本贡献度三元组；若有语料数据对应的样本贡献度三元组中三个差值为负值，获取目标语料数据组成待删除语料数据集以从全量语料数据集中删除。实现了对负贡献语料数据的自动清洗，清洗过程无需人为干预，提升高质量训练集的获取效率。

全部详细技术资料下载

【技术实现步骤摘要】
语料数据的数据特征增强方法、装置及计算机设备
本专利技术涉及人工智能的模型托管
，尤其涉及一种语料数据的数据特征增强方法、装置、计算机设备及存储介质。
技术介绍
传统的对话型机器人，将语料数据对深度学习模型进行训练，从而完成用户意图识别等任务，其中训练语料的质量是影响模型效果的关键。语料的质量一般通过“质”和“量”两个方面进行衡量，“质”是确保语料的正确性以及不同意图之间的边界清晰，“量”是保障模型能充分的学习数据特征的分布，两者相辅相成，缺一不可。研发人员在整理训练数据时发现，在扩充训练集“量”时，增加一个样本进入训练集，并不一定带来正面的影响。同时，扩充训练语料也需要消耗大量的人力，即所需人力成本较高。这是因为当前语料数据清洗的工作几乎是人工完成的，这就导致获取高质量训练集的效率低下。
技术实现思路
本专利技术实施例提供了一种语料数据的数据特征增强方法、装置、计算机设备及存储介质，旨在解决现有技术中扩充训练语料是人工完成，所需人力成本较高，而且扩充预料数据过程中的数据清洗过程也是人工完成，导致获取高质量训练集的效率低下的问题。第一方面，本专利技术实施例提供了一种语料数据的数据特征增强方法，其包括：获取全量语料数据集；其中，所述全量语料数据集中包括多个语料数据；调用预先设置的分组总数值，以根据所述分组总数值将所述全量语料数据集划分为对应组数的语料数据子集；依序删除所述全量语料数据集对应划分的其中一个语料数据子集后分别输入至待训练用户意图识别模...

【技术保护点】
1.一种语料数据的数据特征增强方法，其特征在于，包括：/n获取全量语料数据集；其中，所述全量语料数据集中包括多个语料数据；/n调用预先设置的分组总数值，以根据所述分组总数值将所述全量语料数据集划分为对应组数的语料数据子集；/n依序删除所述全量语料数据集对应划分的其中一个语料数据子集后分别输入至待训练用户意图识别模型，以得到和分组总数值有相同个数的用户意图识别模型；其中，每一轮删除所述全量语料数据集对应划分的其中一个语料数据子集后，该被删除的语料数据子集作为语料测试集，该被删除的语料数据子集中每一语料数据作为测试样本数据；/n获取所述全量语料数据集中每一语料数据作为各用户意图识别模型的训练样本数据、和作为各用户意图识别模型的测试样本数据分别对应的第一模型平均正确率和第二模型平均正确率求差值，以得到每一语料数据对应的平均正确率差值；/n获取所述全量语料数据集中每一语料数据作为各用户意图识别模型的训练样本数据、和作为各用户意图识别模型的测试样本数据分别对应的第一样本召回率和第二样本召回率求差值，以得到每一语料数据对应的样本召回率差值；/n获取所述全量语料数据集中每一语料数据作为各用户意图识别...

【技术特征摘要】
1.一种语料数据的数据特征增强方法，其特征在于，包括：
获取全量语料数据集；其中，所述全量语料数据集中包括多个语料数据；
调用预先设置的分组总数值，以根据所述分组总数值将所述全量语料数据集划分为对应组数的语料数据子集；
依序删除所述全量语料数据集对应划分的其中一个语料数据子集后分别输入至待训练用户意图识别模型，以得到和分组总数值有相同个数的用户意图识别模型；其中，每一轮删除所述全量语料数据集对应划分的其中一个语料数据子集后，该被删除的语料数据子集作为语料测试集，该被删除的语料数据子集中每一语料数据作为测试样本数据；
获取所述全量语料数据集中每一语料数据作为各用户意图识别模型的训练样本数据、和作为各用户意图识别模型的测试样本数据分别对应的第一模型平均正确率和第二模型平均正确率求差值，以得到每一语料数据对应的平均正确率差值；
获取所述全量语料数据集中每一语料数据作为各用户意图识别模型的训练样本数据、和作为各用户意图识别模型的测试样本数据分别对应的第一样本召回率和第二样本召回率求差值，以得到每一语料数据对应的样本召回率差值；
获取所述全量语料数据集中每一语料数据作为各用户意图识别模型的训练样本数据、和作为各用户意图识别模型的测试样本数据分别对应的第一预测平均正确率和第二预测平均正确率求差值，以得到每一语料数据对应的预测正确率差值；
根据每一语料数据对应的平均正确率差值、样本召回率差值和预测正确率差值，获取每一语料数据分别对应的样本贡献度三元组；
判断是否存在有语料数据对应的样本贡献度三元组中平均正确率差值、样本召回率差值和预测正确率差值均为负值；
若存在有语料数据对应的样本贡献度三元组中平均正确率差值、样本召回率差值和预测正确率差值均为负值，获取对应的目标语料数据，以组成待删除语料数据集；以及
将所述待删除语料数据集从所述全量语料数据集中删除，以更新全量语料数据集。

2.根据权利要求1所述的语料数据的数据特征增强方法，其特征在于，所述将所述待删除语料数据集从所述全量语料数据集中删除，以更新全量语料数据集之后，还包括：
获取当前迭代次数，将所述当前迭代次数加一，以更新当前迭代次数；其中，当前迭代次数的初始值为0；
判断所述当前迭代次数是否超出预先设置的最大迭代次数；
若所述当前迭代次数未超出预先设置的最大迭代次数，调用预先设置的补充语料数据总条数，从本地语料池中随机抽取与所述补充语料数据总条数有相同总数据条数的补充语料数据，以组成补充语料数据集；
将所述补充语料数据集增加至所述全量语料数据集中，以更新全量语料数据集，返回执行所述获取全量语料数据集的步骤；
若所述当前迭代次数超出预先设置的最大迭代次数，结束流程。

3.根据权利要求1所述的语料数据的数据特征增强方法，其特征在于，所述依序删除所述全量语料数据集对应划分的其中一个语料数据子集后分别输入至待训练用户意图识别模型，以得到和分组总数值有相同个数的用户意图识别模型，包括：
将所述全量语料数据集记为数据集X，将数据集X所划分的语料数据子集分别记为第1号语料数据子集至第k号语料数据子集，第1号语料数据子集至第k号语料数据子集之间的语料数据子集记为第j号语料数据子集；其中k的取值等于分组总数值，j的取值是[1,k]区间内的正整数取值；
将第1号语料数据子集从所述全量语料数据集中删除，将所述全量语料数据集中余下的其他语料数据子集作为所述待训练用户意图识别模型的训练集进行训练，得到第一大轮第一小轮用户意图识别模型；
依序将第2号语料数据子集至第k号语料数据子集分别从全量语料数据集中删除后以作为所述待训练用户意图识别模型的训练集进行训练，依序得到第一大轮第二小轮用户意图识别模型至第一大轮第k小轮用户意图识别模型。

4.根据权利要求3所述的语料数据的数据特征增强方法，其特征在于，所述获取所述全量语料数据集中每一语料数据作为各用户意图识别模型的训练样本数据、和作为各用户意图识别模型的测试样本数据分别对应的第一模型平均正确率和第二模型平均正确率求差值，以得到每一语料数据对应的平均正确率差值，包括：
判断所述全量语料数据集中第i条语料数据是作为各用户意图识别模型的训练样本数据，或是作为各用户意图识别模型的测试样本数据；其中，i的取值范围是[1,N]中的正整数取值，且N等于所述全量语料数据集中的语料数据总条数；
若第i条语料数据是作为各用户意图识别模型的训练样本数据，获取第i条语料数据作为训练样本数据时对应的第一目标用户意图识别模型集合，计算第一目标用户意图识别模型集合中各第一目标用户意图识别模型对应的模型正确率以求平均值，得到第i条语料数据作为训练样本数据时对应的第一模型平均正确率；
若第i条语料数据是作为各用户意图识别模型的测试样本数据，获取第i条语料数据作为测试样本数据时对应的第二目标用户意图识别模型集合，计算第二目标用户意图识别模型集合中各第二目标用户意图识别模型对应的模型正确率以求平均值，得到第i条语料数据作为训练样本数据时对应的第二模型平均正确率；
将第i条语料数据作为训练样本数据时对应的第一模型平均正确率与第i条语料数据作为测试样本数据时对应的第二模型平均正确率求差，得到第i条语料数据对应的平均正确率差值。

5.根据权利要求4所述的语料数据的数据特征增强方法，其特征在于，所述获取所述全量语料数据集中每一语料数据作为各用户意图识别模型的训练样本数据、和作为各用户意图识别模型的测试样本数据分别对应的第一样本召回率和第二样本召回...

【专利技术属性】
技术研发人员：林佳佳，郝正鸿，王少军，肖京，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人