【技术实现步骤摘要】
一种处理训练数据的方法、训练模型的方法及介质
[0001]本申请涉及自然语言处理
,具体而言本申请实施例涉及一种处理训练数据的方法、训练模型的方法及介质。
技术介绍
[0002]自然语言处理系统在实际部署时,经常会面临多标签的数据,即每一个输入的数据,对应上多个同类型的标签。比如说门户网站新闻可以归属到不同的栏目中(如政治、体育、社会、科技、金融等栏目)去,一篇文章里既描写政治又描写金融等内容,那么这篇文章可能会别贴上政治和金融两个标签。
[0003]多任务自然语言处理系统在训练过程中,需要标准化的多标签的数据集合。自然语言处理系统需要抽取不同比例的数据作为训练过程中标准化的训练集和验证集,不同集合都需要尽量保证包含不同任务的所有标签,并且保证标签比例的平衡。不平衡的数据集划分会影响系统训练或者评估流程,比如训练集标签的不完整会导致系统对于缺失标签的不敏感,验证集标签的不完整会导致验证流程无法正确的评估系统的实际水平。标准化的数据集划分可以避免系统对于特定标签的数据过于敏感或者过于不敏感,避免由于数据问题带来的系统决策的失误。
[0004]一般的单标签数据集标准化通常对训练集和验证集直接按照比例随机划分,但是在实际应用中,多标签数据集难以随机划分。具体的说,这种做法存在以下三个方面的缺点:1)划分数据集的标签比例和原有比例有较大差别;2)划分的数据集不能包含所有稀有标签,即存在标签类别不足的问题;3)随机划分数据效率相对低下,无法充分利用数据,即利用现有的数据并不能训练出比较健壮(robust) ...
【技术保护点】
【技术特征摘要】
1.一种处理训练数据的方法,其特征在于,所述方法包括:从数据集中筛选出验证集,其中,所述验证集是根据第一原则对所述数据集中的数据进行筛选得到的,所述第一原则至少用于保证所述验证集对应的标签类别与所述数据集对应的标签类别尽可能接近;将所述数据集中除所述验证集之外的标签和数据作为训练集。2.如权利要求1所述的方法,其特征在于,所述第一原则还用于保证第一比值和第二比值的差值小于目标阈值,其中,所述第一比值为所述验证集包括的所有数据的总数目与所述数据集包括的所有数据的总数目之间的比,所述第二比值为所述验证集包括的所有标签的总数目与所述数据集包括的所有标签的总数目之间的比;或者,所述第一比值为所述验证集包括的数据总数目与标签总数目的比值,所述第二比值为所述数据集包括的数据总数目与标签总数目的比值。3.如权利要求1
‑
2任一项所述的方法,其特征在于,所述从数据集中筛选出验证集,包括:获取所述数据集包括的各种不同标签,得到第一标签集合;从所述数据集中筛选出与所述第一标签集合中各个标签分别对应的至少一个数据,得到基本验证数据集合;根据所述基本验证数据集合得到所述验证集。4.如权利要求3所述的方法,其特征在于,所述根据所述基本验证数据集合得到所述验证集,包括:若确认所述基本验证数据集合中的总数据量小于目标总数据量则将第一数据集中的部分数据作为所述基本验证数据集合的数据,得到第一验证数据集合,其中,所述第一数据集为所述数据集包括的除所述基本验证数据集合外剩余的数据;根据所述第一验证数据集合得到所述验证集。5.如权利要求3所述的方法,其特征在于,所述根据所述基本验证数据集合得到所述验证集,包括:若确认所述基本验证数据集合中的数据总量大于目标总数据量则对所述基本验证数据集合中的数据进行筛选,得到第一验证数据集合;根据所述第一验证数据集合得到所述验证集。6.如权利要求5所述的方法,其特征在于,所述对所述基本验证数据集合中的数据进行筛选,包括:从所述基本验证数据集合中选择至少m个目标数据,作为第二验证数据集合,其中,与所述m个目标数据对应的标签类别的总数目大于或等于所述基本验证数据集合中剩余任意m个数据组合所对应的标签类别的总数目;重复上述过程直至所述第二验证数据集合的数据的总数目等于所述目标总数据量,得到所述第一验证数据集合。7.如权利要求4
‑
5任一所述的方法,其特征在于,所述根据所述第一验证数据集合得到所述验证集,包括:若确认标签比例大于第一设置阈值或确认标签比例小于第二设置阈值,则修正所述第
一验证数据集合中的部分数据,得到所述验证集;其中,所述标签比例为第三比值与第四比值之间的比,所述第三比值为所述第一验证集合中包括的标签的总数目与所述数据集中包括的标签的总数目的比值,所述第四比值为所述第一验证集合中包括的数据的总数目与所述数据集中包括的数据总...
【专利技术属性】
技术研发人员:黄熙宇,姚贡之,
申请(专利权)人:上海弘玑信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。