一种处理训练数据的方法、训练模型的方法及介质技术

技术编号:36961795 阅读:15 留言:0更新日期:2023-03-22 19:22
本申请实施例提供一种处理训练数据的方法、训练模型的方法及介质,所述方法包括:从数据集中筛选出验证集,其中,所述验证集是根据第一原则对所述数据集中的数据进行筛选得到的,所述第一原则至少用于保证所述验证集对应的标签类别与所述数据集对应的标签类别的尽可能接近;将所述数据集中除所述验证集之外的标签和数据作为训练集。通过本申请的一些实施例可以有效解决自然语言处理多标签数据集不充分、差异大、难以标准化的技术问题,提升得到的训练数据的质量使得采用这些训练数据训练得到的模型(例如,自然语言处理模型)的性能更好。好。好。

【技术实现步骤摘要】
一种处理训练数据的方法、训练模型的方法及介质


[0001]本申请涉及自然语言处理
,具体而言本申请实施例涉及一种处理训练数据的方法、训练模型的方法及介质。

技术介绍

[0002]自然语言处理系统在实际部署时,经常会面临多标签的数据,即每一个输入的数据,对应上多个同类型的标签。比如说门户网站新闻可以归属到不同的栏目中(如政治、体育、社会、科技、金融等栏目)去,一篇文章里既描写政治又描写金融等内容,那么这篇文章可能会别贴上政治和金融两个标签。
[0003]多任务自然语言处理系统在训练过程中,需要标准化的多标签的数据集合。自然语言处理系统需要抽取不同比例的数据作为训练过程中标准化的训练集和验证集,不同集合都需要尽量保证包含不同任务的所有标签,并且保证标签比例的平衡。不平衡的数据集划分会影响系统训练或者评估流程,比如训练集标签的不完整会导致系统对于缺失标签的不敏感,验证集标签的不完整会导致验证流程无法正确的评估系统的实际水平。标准化的数据集划分可以避免系统对于特定标签的数据过于敏感或者过于不敏感,避免由于数据问题带来的系统决策的失误。
[0004]一般的单标签数据集标准化通常对训练集和验证集直接按照比例随机划分,但是在实际应用中,多标签数据集难以随机划分。具体的说,这种做法存在以下三个方面的缺点:1)划分数据集的标签比例和原有比例有较大差别;2)划分的数据集不能包含所有稀有标签,即存在标签类别不足的问题;3)随机划分数据效率相对低下,无法充分利用数据,即利用现有的数据并不能训练出比较健壮(robust)的系统模型。

技术实现思路

[0005]本申请实施例的目的在于提供一种处理训练数据的方法、训练模型的方法及介质,通过本申请的一些实施例可以有效解决自然语言处理多标签数据集不充分、差异大、难以标准化的技术问题,提升得到的训练数据的质量使得采用这些训练数据训练得到的模型(例如,自然语言处理模型)的性能更好。
[0006]第一方面,本申请实施例提供一种处理训练数据的方法,所述方法包括:从数据集中筛选出验证集,其中,所述验证集是根据第一原则对所述数据集中的数据进行筛选得到的,所述第一原则至少用于保证所述验证集对应的标签类别与所述数据集对应的标签类别尽可能接近;将所述数据集中除所述验证集之外的标签和数据作为训练集。
[0007]本申请的一些实施例首先构建验证集再构建训练集,在划分验证集时,保证了集合的标签类型的合理性,从而保证了整个数据集划分的合理性。这种标准化方法有效解决了多标签数据集划分的标签不合理问题,可以充分利用整个数据集合,从而利用现有的数据并训练出相对健壮(robust)的系统模型。
[0008]在一些实施例中,所述第一原则还用于保证第一比值和第二比值的差值小于目标
阈值,其中,所述第一比值为所述验证集包括的所有数据的总数目与所述数据集包括的所有数据的总数目之间的比,所述第二比值为所述验证集包括的所有标签的总数目与所述数据集包括的所有标签的总数目之间的比;或者,所述第一比值为所述验证集包括的数据总数目与标签总数目的比值,所述第二比值为所述数据集包括的数据总数目与标签总数目的比值。
[0009]本申请的一些实施例第一原则还要保证标签比例尽可能接近,在划分验证集时,保证了集合的标签类型和标签比例的合理性,从而保证了整个数据集划分的合理性。
[0010]在一些实施例中,所述数据集包括多个数据以及与每个数据对应的多个标签;所述从数据集中筛选出验证集,包括:获取所述数据集包括的各种不同标签,得到第一标签集合;从所述数据集中筛选出与所述第一标签集合中各个标签分别对应的至少一个数据,得到基本验证数据集合;根据所述基本验证数据集合得到所述验证集。
[0011]本申请的一些实施例通过首先从数据集中筛选各种不同标签,并为各种不同标签分别从数据集中抽取一个或多个数据的进而将这些被抽取的数据作为基本验证数据集合,使得根据基本验证数据集合得到的验证集包含了与数据集中各种不同标签对应的数据,提升数据集划分的合理性。
[0012]在一些实施例中,所述根据所述基本验证数据集合得到所述验证集,包括:若确认所述基本验证数据集合中的总数据量小于目标总数据量则将第一数据集中的部分数据作为所述基本验证数据集合的数据,得到第一验证数据集合,其中,所述第一数据集为所述数据集包括的除所述基本验证数据集合外剩余的数据;根据所述第一验证数据集合得到所述验证集。
[0013]本申请的一些实施例需要判定得到基本验证数据集合的总数据量是否满足对验证集数据流的要求,提升得到的验证集的质量,进而保证能够根据验证集对训练集训练后得到的模型进行更好评估。
[0014]在一些实施例中,所述根据所述基本验证数据集合得到所述验证集,包括:若确认所述基本验证数据集合中的数据总量大于目标总数据量则对所述基本验证数据集合中的数据进行筛选,得到所述第一验证数据集合;根据所述第一验证数据集合得到所述验证集。
[0015]本申请的一些实施例在基本验证数据集合中的数据量大于目标总数据量时对基本验证数据集合中的数据进行筛选以得到验证集数据,使得验证集中的数据量满足要求。
[0016]在一些实施例中,所述对所述基本验证数据集合中的数据进行筛选,包括:从所述基本验证数据集合中选择至少m个目标数据,作为第二验证数据集合,其中,与所述m个目标数据对应的标签类别的总数目大于或等于所述基本验证数据集合中剩余任意m个数据组合所对应的标签类别的总数目;重复上述过程直至所述第二验证数据集合的数据的总数目等于所述目标总数据量,得到所述第一验证数据集合。
[0017]本申请的一些实施例在保证标签类别与基本验证数据集合或者数据集合的标签类别(例如,对应数据集合中数据总量与不同标签总量的比值)尽可能一致的条件下筛选基本验证数据集合中的数据,得到验证集数据,使得验证数据集的标签比例更加合理。
[0018]在一些实施例中,所述根据所述第一验证数据集合得到所述验证集,包括:若确认标签比例大于第一设置阈值或确认标签比例小于第二设置阈值,则修正所述第一验证数据集合中的部分数据,得到所述验证集;其中,所述标签比例为第三比值与第四比值之间的
比,所述第三比值为所述第一验证集合中包括的标签的总数目与所述数据集中包括的标签的总数目的比值,所述第四比值为所述第一验证集合中包括的数据的总数目与所述数据集中包括的数据总数目之间的比值。
[0019]本申请的一些实施例在确定验证集数据数量的情况下,若存在标签数量的比例相比于数据集标签比例过大或者过小的情况,需要对齐验证集的标签数量,以提升得到的验证集的数据的质量。
[0020]在一些实施例中,所述若确认标签比例小于第二设置阈值,则修正所述第一验证数据集合中的部分数据,包括:将所述第一验证数据集合中的第一数据替换为第二数据,其中,所述第二数据属于所述数据集包括的除所述第一验证数据集合中数据之外的数据,所述第二数据的标签类别包括所述第一数据的标签类别且与所述第一数据对应的标签的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种处理训练数据的方法,其特征在于,所述方法包括:从数据集中筛选出验证集,其中,所述验证集是根据第一原则对所述数据集中的数据进行筛选得到的,所述第一原则至少用于保证所述验证集对应的标签类别与所述数据集对应的标签类别尽可能接近;将所述数据集中除所述验证集之外的标签和数据作为训练集。2.如权利要求1所述的方法,其特征在于,所述第一原则还用于保证第一比值和第二比值的差值小于目标阈值,其中,所述第一比值为所述验证集包括的所有数据的总数目与所述数据集包括的所有数据的总数目之间的比,所述第二比值为所述验证集包括的所有标签的总数目与所述数据集包括的所有标签的总数目之间的比;或者,所述第一比值为所述验证集包括的数据总数目与标签总数目的比值,所述第二比值为所述数据集包括的数据总数目与标签总数目的比值。3.如权利要求1

2任一项所述的方法,其特征在于,所述从数据集中筛选出验证集,包括:获取所述数据集包括的各种不同标签,得到第一标签集合;从所述数据集中筛选出与所述第一标签集合中各个标签分别对应的至少一个数据,得到基本验证数据集合;根据所述基本验证数据集合得到所述验证集。4.如权利要求3所述的方法,其特征在于,所述根据所述基本验证数据集合得到所述验证集,包括:若确认所述基本验证数据集合中的总数据量小于目标总数据量则将第一数据集中的部分数据作为所述基本验证数据集合的数据,得到第一验证数据集合,其中,所述第一数据集为所述数据集包括的除所述基本验证数据集合外剩余的数据;根据所述第一验证数据集合得到所述验证集。5.如权利要求3所述的方法,其特征在于,所述根据所述基本验证数据集合得到所述验证集,包括:若确认所述基本验证数据集合中的数据总量大于目标总数据量则对所述基本验证数据集合中的数据进行筛选,得到第一验证数据集合;根据所述第一验证数据集合得到所述验证集。6.如权利要求5所述的方法,其特征在于,所述对所述基本验证数据集合中的数据进行筛选,包括:从所述基本验证数据集合中选择至少m个目标数据,作为第二验证数据集合,其中,与所述m个目标数据对应的标签类别的总数目大于或等于所述基本验证数据集合中剩余任意m个数据组合所对应的标签类别的总数目;重复上述过程直至所述第二验证数据集合的数据的总数目等于所述目标总数据量,得到所述第一验证数据集合。7.如权利要求4

5任一所述的方法,其特征在于,所述根据所述第一验证数据集合得到所述验证集,包括:若确认标签比例大于第一设置阈值或确认标签比例小于第二设置阈值,则修正所述第
一验证数据集合中的部分数据,得到所述验证集;其中,所述标签比例为第三比值与第四比值之间的比,所述第三比值为所述第一验证集合中包括的标签的总数目与所述数据集中包括的标签的总数目的比值,所述第四比值为所述第一验证集合中包括的数据的总数目与所述数据集中包括的数据总...

【专利技术属性】
技术研发人员:黄熙宇姚贡之
申请(专利权)人:上海弘玑信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1