一种文本数据增强系统、方法、设备及介质技术方案

技术编号:31493106 阅读:18 留言:0更新日期:2021-12-18 12:30
本公开涉及一种文本数据增强系统、方法、设备及介质,该方法包括:获取的训练用数据集并存储;以数据增强策略清单以及数据增强数量参数构成的数据增强模型参数,对存储的文本分类训练用数据集进行数据增强,输出自动构造的训练数据集并存储;通过对所述自动构造的训练数据集以及所述训练用数据集进行训练得到文本分类器,其中,所述文本分类器用于进行数据分类,并判断分类效果是否符合预期;基于所述文本分类器的分类结果的基础上,对所述数据增强模块构建的所述数据增强模型参数进行迭代优化;判断所述数据增强模型参数是否收敛,若收敛则终止迭代,若不收敛则利用人工鱼群算法进行迭代。进行迭代。进行迭代。

【技术实现步骤摘要】
一种文本数据增强系统、方法、设备及介质


[0001]本公开涉及数据处理
,更为具体来说,本公开涉及一种文本数据增强系统、方法、设备及介质。

技术介绍

[0002]在自然语言处理方法的应用领域,文本分类是一种非常基础也非常重要的技术。为了提升模型的效果,人们从数据和算法两个角度做了很多尝试,比如对训练数据进行增强(Data Augmentation)。
[0003]目前学术界和产业界提出的数据增强策略主要有:(1)token替换;(2)mixup;(3)回译等等。
[0004]已有的方案存在这样的问题:没有一个系统的、自动的方案来从众多方法中选择合适的策略集合。目前,人们主要依靠经验或者网格搜索的方式来摸索一个合适的数据增强策略组合,在效果和效率上都不尽如人意;另外,这些数据增强方案对新策略的添加不是很友好。

技术实现思路

[0005]为解决现有技术的无法满足用户需求的技术问题。
[0006]为实现上述技术目的,本公开提供了一种文本数据增强方法,包括:
[0007]获取的训练用数据集并存储;
[0008]以数据增强策略清单以及数据增强数量参数构成的数据增强模型参数,对存储的文本分类训练用数据集进行数据增强,输出自动构造的训练数据集并存储;
[0009]通过对所述自动构造的训练数据集以及所述训练用数据集进行训练得到文本分类器,其中,所述文本分类器用于进行数据分类,并判断分类效果是否符合预期;
[0010]基于所述文本分类器的分类结果的基础上,对所述数据增强模块构建的所述数据增强模型参数进行迭代优化;
[0011]判断所述数据增强模型参数是否收敛,若收敛则终止迭代,若不收敛则利用人工鱼群算法进行迭代。
[0012]进一步,所述对存储的文本分类训练用数据集进行数据增强具体包括:
[0013]对存储的文本分类训练用数据集进行同义词替换子处理、随机替换处理、随机删除处理、随机交换位置处理、回译处理和/或拼接处理;
[0014]其中,各处理过程具有各自的数据增强参数,全部的数据增强参数组成数据增强模型的参数列表Θ,所述人工鱼群算法迭代模块对所述参数列表Θ进行迭代优化。
[0015]进一步,所述判断分类效果是否符合预期具体为:
[0016]基于测试语料,对所述文本分类器进行测试,得到所述文本分类器的得分,即
[0017]其中recall
k
是分类器对第k个类别的召回率;precision
k
是分类器对第k个类别的识别精度,k=1,2,
……
,K,K为大于2的整数,其中,t表示当前迭代轮次。
[0018]进一步,所述人工鱼群算法迭代模块具体用于:
[0019]记人工鱼的参数列表Θ=[Θ
dis
,Θ
con
],其中Θ
dis
为参数列表中离散的部分,Θ
con
为参数中连续的部分;
[0020]计算人工鱼之间距离、计算人工鱼密度和/或计算人工鱼群重心;
[0021]根据人工鱼群计算结果进行觅食迭代、聚群迭代、追尾迭代和/或随机迭代。
[0022]进一步,
[0023]所述人工鱼之间的距离具体包括:
[0024]计算两个人工鱼在离散维度上的距离为distance(Θ
dis,l
,Θ
dis,g
);而两个人工鱼在连续维度上的距离为distance(Θ
con,l
,Θ
con,g
)。
[0025]进一步,所述计算人工鱼密度具体包括:
[0026]在1号人工鱼所处位置,
[0027]在离散维度中的人工鱼密度是:
[0028][0029]在连续维度中的人工鱼密度是:
[0030][0031]如果density
dis,l
<Q且density
con,l
<Q,那么1号人工鱼所处区域的人工鱼是比较少的、竞争不是很激烈,适合前往,其中Q为预设阈值。
[0032]进一步,所述计算人工鱼群重心具体包括:
[0033]在离散维度上的重心为:
[0034][0035]在连续维度上的重心为:
[0036][0037]其中round函数用来对数字进行四舍五入操作。
[0038]进一步,所述觅食迭代具体为:
[0039]人工鱼尝试游动一次,如果目标位置太拥挤,即Θ
dis,l,t+1
=Θ
dis,l,t
且Θ
con,l,t+1
=Θ
con,l,t
,执行聚群迭代;计算人工鱼群新位置对应数据增强模型的得分,如果得分超过score
t,l
,那么得到新的参数Θ
dis,l,t+1
和Θ
con,l,t+1
,如果得分不高于score
t,k
,则Θ
dis,l,t+1
=Θ
dis,l,t
且Θ
con,l,t+1
=Θ
con,l,t

[0040]其中,t表示迭代轮次,k表示人工鱼编号。
[0041]进一步,所述聚群迭代具体为:
[0042]计算1号人工鱼与其他所有人工鱼的距离;
[0043]选择与l号人工鱼视野范围内的人工鱼,如果离散维度或连续维度中的拥挤指数超过阈值Q,取消本次聚群行为,并执行追尾迭代;
[0044]计算出l号人工鱼及其视野内所有人工鱼的重心centor
dis,t,g
和centor
con,t,g

[0045]人工鱼向该重心游动一次。
[0046]进一步,所述追尾迭代具体为:
[0047]计算l号人工鱼与其他所有词表的海明距离;
[0048]选择l号人工鱼的海明距离小于D的人工鱼中,所处位置食物浓度最高的人工鱼,即得分最高的数据增强模型,记为h号人工鱼;
[0049]如果h号人工鱼所处位置的拥挤度超过阈值Q,则取消l号人工鱼本次追尾行为、执行随机迭代;
[0050]l号人工鱼按照预定方式向h号人工鱼游动一次。
[0051]为实现上述技术目的,本公开还能够提供一种文本数据增强系统,包括:
[0052]训练数据存储模块,用于存储所述系统获取的训练用数据集;
[0053]数据增强模块,用于以数据增强策略清单以及数据增强数量参数构成的数据增强模型参数,对所述训练数据存储模块中存储的文本分类训练用数据集进行数据增强,输出自动构造的训练数据集;
[0054]自动构造数据存储模块,用于存储经所述数据增强模块进行数据增强后的自动构造的训练数据集;
[0055]文本分类器,通过对所述自动构造的训练数据集以及所述训练用数据集进行训练得到;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本数据增强方法,其特征在于,包括:获取的训练用数据集并存储;以数据增强策略清单以及数据增强数量参数构成的数据增强模型参数,对存储的文本分类训练用数据集进行数据增强,输出自动构造的训练数据集并存储;通过对所述自动构造的训练数据集以及所述训练用数据集进行训练得到文本分类器,其中,所述文本分类器用于进行数据分类,并判断分类效果是否符合预期;基于所述文本分类器的分类结果的基础上,对所述数据增强模块构建的所述数据增强模型参数进行迭代优化;判断所述数据增强模型参数是否收敛,若收敛则终止迭代,若不收敛则利用人工鱼群算法进行迭代。2.根据权利要求1所述的方法,其特征在于,所述对存储的文本分类训练用数据集进行数据增强具体包括:对存储的文本分类训练用数据集进行同义词替换子处理、随机替换处理、随机删除处理、随机交换位置处理、回译处理和/或拼接处理;其中,各处理过程具有各自的数据增强参数,全部的数据增强参数组成数据增强模型的参数列表Θ,所述人工鱼群算法迭代模块对所述参数列表Θ进行迭代优化。3.根据权利要求2所述的方法,其特征在于,所述判断分类效果是否符合预期具体为:基于测试语料,对所述文本分类器进行测试,得到所述文本分类器的得分,即其中recall
k
是分类器对第k个类别的召回率;precision
k
是分类器对第k个类别的识别精度,k=1,2,
……
,K,K为大于2的整数,其中,t表示当前迭代轮次。4.根据权利要求3所述的方法,其特征在于,所述人工鱼群算法迭代模块具体用于:记人工鱼的参数列表Θ=[Θ
dis
,Θ
con
],其中Θ
dis
为参数列表中离散的部分,Θ
con
为参数中连续的部分;计算人工鱼之间距离、计算人工鱼密度和/或计算人工鱼群重心;根据人工鱼群计算结果进行觅食迭代、聚群迭代、追尾迭代和/或随机迭代。5.根据权利要求4中所述的系统,其特征在于,所述人工鱼之间的距离具体包括:计算两个人工鱼在离散维度上的距离为distance(Θ
dis,l
,Θ
dis,g
);而两个人工鱼在连续维度上的距离为distance(Θ
con,l
,Θ
con,g
)。6.根据权利要求5所述的方法,其特征在于,所述计算人工鱼密度具体包括:在1号人工鱼所处位置,在离散维度中的人工鱼密度是:在连续维度中的人工鱼密度是:
如果density
dis,l
<Q且density
con,l
<Q,那么1号人工鱼所处区域的人工鱼是比较少的、竞争不是很激烈,适合前往,其中Q为预设阈值。7.根据权利要求6所述的方法,其特征在于,所述计算人工鱼群重心具体包括:在离散维度上的重心为:在连续维度上的重心为:其中round函数用来对数字进行四舍五入操作。8.根据权利要求7所述的方法,其特征在...

【专利技术属性】
技术研发人员:李鹏宇李剑锋
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1