语料数据的数据特征增强方法、装置及计算机设备制造方法及图纸

技术编号:26304978 阅读:30 留言:0更新日期:2020-11-10 20:01
本发明专利技术公开了语料数据的数据特征增强方法、装置、计算机设备及存储介质,涉及人工智能技术,其中当获取了全量语料数据集后先进行数据分组得到多组语料数据子集,依序每删除一组语料数据子集后对待训练用户意图识别模型进行训练得到多个用户意图识别模型,将全量语料数据集中每一数据作为训练样本数据和作为测试样本数据,分别对应计算模型平均正确率差值、样本召回率差值和预测正确率差值以获取各语料数据对应的样本贡献度三元组;若有语料数据对应的样本贡献度三元组中三个差值为负值,获取目标语料数据组成待删除语料数据集以从全量语料数据集中删除。实现了对负贡献语料数据的自动清洗,清洗过程无需人为干预,提升高质量训练集的获取效率。

【技术实现步骤摘要】
语料数据的数据特征增强方法、装置及计算机设备
本专利技术涉及人工智能的模型托管
,尤其涉及一种语料数据的数据特征增强方法、装置、计算机设备及存储介质。
技术介绍
传统的对话型机器人,将语料数据对深度学习模型进行训练,从而完成用户意图识别等任务,其中训练语料的质量是影响模型效果的关键。语料的质量一般通过“质”和“量”两个方面进行衡量,“质”是确保语料的正确性以及不同意图之间的边界清晰,“量”是保障模型能充分的学习数据特征的分布,两者相辅相成,缺一不可。研发人员在整理训练数据时发现,在扩充训练集“量”时,增加一个样本进入训练集,并不一定带来正面的影响。同时,扩充训练语料也需要消耗大量的人力,即所需人力成本较高。这是因为当前语料数据清洗的工作几乎是人工完成的,这就导致获取高质量训练集的效率低下。
技术实现思路
本专利技术实施例提供了一种语料数据的数据特征增强方法、装置、计算机设备及存储介质,旨在解决现有技术中扩充训练语料是人工完成,所需人力成本较高,而且扩充预料数据过程中的数据清洗过程也是人工完成,导致获取高质量训练集的效率低下的问题。第一方面,本专利技术实施例提供了一种语料数据的数据特征增强方法,其包括:获取全量语料数据集;其中,所述全量语料数据集中包括多个语料数据;调用预先设置的分组总数值,以根据所述分组总数值将所述全量语料数据集划分为对应组数的语料数据子集;依序删除所述全量语料数据集对应划分的其中一个语料数据子集后分别输入至待训练用户意图识别模型,以得到和分组总数值有相同个数的用户意图识别模型;其中,每一轮删除所述全量语料数据集对应划分的其中一个语料数据子集后,该被删除的语料数据子集作为语料测试集,该被删除的语料数据子集中每一语料数据作为测试样本数据;获取所述全量语料数据集中每一语料数据作为各用户意图识别模型的训练样本数据、和作为各用户意图识别模型的测试样本数据分别对应的第一模型平均正确率和第二模型平均正确率求差值,以得到每一语料数据对应的平均正确率差值;获取所述全量语料数据集中每一语料数据作为各用户意图识别模型的训练样本数据、和作为各用户意图识别模型的测试样本数据分别对应的第一样本召回率和第二样本召回率求差值,以得到每一语料数据对应的样本召回率差值;获取所述全量语料数据集中每一语料数据作为各用户意图识别模型的训练样本数据、和作为各用户意图识别模型的测试样本数据分别对应的第一预测平均正确率和第二预测平均正确率求差值,以得到每一语料数据对应的预测正确率差值;根据每一语料数据对应的平均正确率差值、样本召回率差值和预测正确率差值,获取每一语料数据分别对应的样本贡献度三元组;判断是否存在有语料数据对应的样本贡献度三元组中平均正确率差值、样本召回率差值和预测正确率差值均为负值;若存在有语料数据对应的样本贡献度三元组中平均正确率差值、样本召回率差值和预测正确率差值均为负值,获取对应的目标语料数据,以组成待删除语料数据集;以及将所述待删除语料数据集从所述全量语料数据集中删除,以更新全量语料数据集。第二方面,本专利技术实施例提供了一种语料数据的数据特征增强装置,其包括:语料数据集获取单元,用于获取全量语料数据集;其中,所述全量语料数据集中包括多个语料数据;数据集划分单元,用于调用预先设置的分组总数值,以根据所述分组总数值将所述全量语料数据集划分为对应组数的语料数据子集;分组训练单元,用于依序删除所述全量语料数据集对应划分的其中一个语料数据子集后分别输入至待训练用户意图识别模型,以得到和分组总数值有相同个数的用户意图识别模型;其中,每一轮删除所述全量语料数据集对应划分的其中一个语料数据子集后,该被删除的语料数据子集作为语料测试集,该被删除的语料数据子集中每一语料数据作为测试样本数据;平均正确率差值计算单元,用于获取所述全量语料数据集中每一语料数据作为各用户意图识别模型的训练样本数据、和作为各用户意图识别模型的测试样本数据分别对应的第一模型平均正确率和第二模型平均正确率求差值,以得到每一语料数据对应的平均正确率差值;样本召回率差值计算单元,用于获取所述全量语料数据集中每一语料数据作为各用户意图识别模型的训练样本数据、和作为各用户意图识别模型的测试样本数据分别对应的第一样本召回率和第二样本召回率求差值,以得到每一语料数据对应的样本召回率差值;预测正确率差值计算单元,用于获取所述全量语料数据集中每一语料数据作为各用户意图识别模型的训练样本数据、和作为各用户意图识别模型的测试样本数据分别对应的第一预测平均正确率和第二预测平均正确率求差值,以得到每一语料数据对应的预测正确率差值;样本贡献度三元组获取单元,用于根据每一语料数据对应的平均正确率差值、样本召回率差值和预测正确率差值,获取每一语料数据分别对应的样本贡献度三元组;三元组判断单元,用于判断是否存在有语料数据对应的样本贡献度三元组中平均正确率差值、样本召回率差值和预测正确率差值均为负值;负样本删除单元,用于若存在有语料数据对应的样本贡献度三元组中平均正确率差值、样本召回率差值和预测正确率差值均为负值,获取对应的目标语料数据,以组成待删除语料数据集;以及数据集第一更新单元,用于将所述待删除语料数据集从所述全量语料数据集中删除,以更新全量语料数据集。第三方面,本专利技术实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的语料数据的数据特征增强方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的语料数据的数据特征增强方法。本专利技术实施例提供了一种语料数据的数据特征增强方法、装置、计算机设备及存储介质,其中当获取了全量语料数据集后,是先进行数据分组得到多组语料数据子集,依序每删除一组语料数据子集后对待训练用户意图识别模型进行训练得到多个用户意图识别模型,将全量语料数据集中每一数据作为训练样本数据和作为测试样本数据,分别对应计算模型平均正确率差值、样本召回率差值和预测正确率差值以获取各语料数据对应的样本贡献度三元组;若有语料数据对应的样本贡献度三元组中三个差值为负值,获取对应的目标语料数据组成待删除语料数据集以从全量语料数据集中删除。实现了对负贡献语料数据的自动清洗,清洗过程无需人为干预,提升了高质量训练集的获取效率。附图说明为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的语料数据的数据特征增强方法的应用场景示意图;图2为本专利技术实施例提供的语料数据的数据特征增本文档来自技高网...

【技术保护点】
1.一种语料数据的数据特征增强方法,其特征在于,包括:/n获取全量语料数据集;其中,所述全量语料数据集中包括多个语料数据;/n调用预先设置的分组总数值,以根据所述分组总数值将所述全量语料数据集划分为对应组数的语料数据子集;/n依序删除所述全量语料数据集对应划分的其中一个语料数据子集后分别输入至待训练用户意图识别模型,以得到和分组总数值有相同个数的用户意图识别模型;其中,每一轮删除所述全量语料数据集对应划分的其中一个语料数据子集后,该被删除的语料数据子集作为语料测试集,该被删除的语料数据子集中每一语料数据作为测试样本数据;/n获取所述全量语料数据集中每一语料数据作为各用户意图识别模型的训练样本数据、和作为各用户意图识别模型的测试样本数据分别对应的第一模型平均正确率和第二模型平均正确率求差值,以得到每一语料数据对应的平均正确率差值;/n获取所述全量语料数据集中每一语料数据作为各用户意图识别模型的训练样本数据、和作为各用户意图识别模型的测试样本数据分别对应的第一样本召回率和第二样本召回率求差值,以得到每一语料数据对应的样本召回率差值;/n获取所述全量语料数据集中每一语料数据作为各用户意图识别模型的训练样本数据、和作为各用户意图识别模型的测试样本数据分别对应的第一预测平均正确率和第二预测平均正确率求差值,以得到每一语料数据对应的预测正确率差值;/n根据每一语料数据对应的平均正确率差值、样本召回率差值和预测正确率差值,获取每一语料数据分别对应的样本贡献度三元组;/n判断是否存在有语料数据对应的样本贡献度三元组中平均正确率差值、样本召回率差值和预测正确率差值均为负值;/n若存在有语料数据对应的样本贡献度三元组中平均正确率差值、样本召回率差值和预测正确率差值均为负值,获取对应的目标语料数据,以组成待删除语料数据集;以及/n将所述待删除语料数据集从所述全量语料数据集中删除,以更新全量语料数据集。/n...

【技术特征摘要】
1.一种语料数据的数据特征增强方法,其特征在于,包括:
获取全量语料数据集;其中,所述全量语料数据集中包括多个语料数据;
调用预先设置的分组总数值,以根据所述分组总数值将所述全量语料数据集划分为对应组数的语料数据子集;
依序删除所述全量语料数据集对应划分的其中一个语料数据子集后分别输入至待训练用户意图识别模型,以得到和分组总数值有相同个数的用户意图识别模型;其中,每一轮删除所述全量语料数据集对应划分的其中一个语料数据子集后,该被删除的语料数据子集作为语料测试集,该被删除的语料数据子集中每一语料数据作为测试样本数据;
获取所述全量语料数据集中每一语料数据作为各用户意图识别模型的训练样本数据、和作为各用户意图识别模型的测试样本数据分别对应的第一模型平均正确率和第二模型平均正确率求差值,以得到每一语料数据对应的平均正确率差值;
获取所述全量语料数据集中每一语料数据作为各用户意图识别模型的训练样本数据、和作为各用户意图识别模型的测试样本数据分别对应的第一样本召回率和第二样本召回率求差值,以得到每一语料数据对应的样本召回率差值;
获取所述全量语料数据集中每一语料数据作为各用户意图识别模型的训练样本数据、和作为各用户意图识别模型的测试样本数据分别对应的第一预测平均正确率和第二预测平均正确率求差值,以得到每一语料数据对应的预测正确率差值;
根据每一语料数据对应的平均正确率差值、样本召回率差值和预测正确率差值,获取每一语料数据分别对应的样本贡献度三元组;
判断是否存在有语料数据对应的样本贡献度三元组中平均正确率差值、样本召回率差值和预测正确率差值均为负值;
若存在有语料数据对应的样本贡献度三元组中平均正确率差值、样本召回率差值和预测正确率差值均为负值,获取对应的目标语料数据,以组成待删除语料数据集;以及
将所述待删除语料数据集从所述全量语料数据集中删除,以更新全量语料数据集。


2.根据权利要求1所述的语料数据的数据特征增强方法,其特征在于,所述将所述待删除语料数据集从所述全量语料数据集中删除,以更新全量语料数据集之后,还包括:
获取当前迭代次数,将所述当前迭代次数加一,以更新当前迭代次数;其中,当前迭代次数的初始值为0;
判断所述当前迭代次数是否超出预先设置的最大迭代次数;
若所述当前迭代次数未超出预先设置的最大迭代次数,调用预先设置的补充语料数据总条数,从本地语料池中随机抽取与所述补充语料数据总条数有相同总数据条数的补充语料数据,以组成补充语料数据集;
将所述补充语料数据集增加至所述全量语料数据集中,以更新全量语料数据集,返回执行所述获取全量语料数据集的步骤;
若所述当前迭代次数超出预先设置的最大迭代次数,结束流程。


3.根据权利要求1所述的语料数据的数据特征增强方法,其特征在于,所述依序删除所述全量语料数据集对应划分的其中一个语料数据子集后分别输入至待训练用户意图识别模型,以得到和分组总数值有相同个数的用户意图识别模型,包括:
将所述全量语料数据集记为数据集X,将数据集X所划分的语料数据子集分别记为第1号语料数据子集至第k号语料数据子集,第1号语料数据子集至第k号语料数据子集之间的语料数据子集记为第j号语料数据子集;其中k的取值等于分组总数值,j的取值是[1,k]区间内的正整数取值;
将第1号语料数据子集从所述全量语料数据集中删除,将所述全量语料数据集中余下的其他语料数据子集作为所述待训练用户意图识别模型的训练集进行训练,得到第一大轮第一小轮用户意图识别模型;
依序将第2号语料数据子集至第k号语料数据子集分别从全量语料数据集中删除后以作为所述待训练用户意图识别模型的训练集进行训练,依序得到第一大轮第二小轮用户意图识别模型至第一大轮第k小轮用户意图识别模型。


4.根据权利要求3所述的语料数据的数据特征增强方法,其特征在于,所述获取所述全量语料数据集中每一语料数据作为各用户意图识别模型的训练样本数据、和作为各用户意图识别模型的测试样本数据分别对应的第一模型平均正确率和第二模型平均正确率求差值,以得到每一语料数据对应的平均正确率差值,包括:
判断所述全量语料数据集中第i条语料数据是作为各用户意图识别模型的训练样本数据,或是作为各用户意图识别模型的测试样本数据;其中,i的取值范围是[1,N]中的正整数取值,且N等于所述全量语料数据集中的语料数据总条数;
若第i条语料数据是作为各用户意图识别模型的训练样本数据,获取第i条语料数据作为训练样本数据时对应的第一目标用户意图识别模型集合,计算第一目标用户意图识别模型集合中各第一目标用户意图识别模型对应的模型正确率以求平均值,得到第i条语料数据作为训练样本数据时对应的第一模型平均正确率;
若第i条语料数据是作为各用户意图识别模型的测试样本数据,获取第i条语料数据作为测试样本数据时对应的第二目标用户意图识别模型集合,计算第二目标用户意图识别模型集合中各第二目标用户意图识别模型对应的模型正确率以求平均值,得到第i条语料数据作为训练样本数据时对应的第二模型平均正确率;
将第i条语料数据作为训练样本数据时对应的第一模型平均正确率与第i条语料数据作为测试样本数据时对应的第二模型平均正确率求差,得到第i条语料数据对应的平均正确率差值。


5.根据权利要求4所述的语料数据的数据特征增强方法,其特征在于,所述获取所述全量语料数据集中每一语料数据作为各用户意图识别模型的训练样本数据、和作为各用户意图识别模型的测试样本数据分别对应的第一样本召回率和第二样本召回...

【专利技术属性】
技术研发人员:林佳佳郝正鸿王少军肖京
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1