一种文本数据增强系统、方法、设备及介质技术方案

技术编号：31493106 阅读：18 留言：0更新日期：2021-12-18 12:30

本公开涉及一种文本数据增强系统、方法、设备及介质，该方法包括：获取的训练用数据集并存储；以数据增强策略清单以及数据增强数量参数构成的数据增强模型参数，对存储的文本分类训练用数据集进行数据增强，输出自动构造的训练数据集并存储；通过对所述自动构造的训练数据集以及所述训练用数据集进行训练得到文本分类器，其中，所述文本分类器用于进行数据分类，并判断分类效果是否符合预期；基于所述文本分类器的分类结果的基础上，对所述数据增强模块构建的所述数据增强模型参数进行迭代优化；判断所述数据增强模型参数是否收敛，若收敛则终止迭代，若不收敛则利用人工鱼群算法进行迭代。进行迭代。进行迭代。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本数据增强系统、方法、设备及介质

[0001]本公开涉及数据处理
，更为具体来说，本公开涉及一种文本数据增强系统、方法、设备及介质。

技术介绍

[0002]在自然语言处理方法的应用领域，文本分类是一种非常基础也非常重要的技术。为了提升模型的效果，人们从数据和算法两个角度做了很多尝试，比如对训练数据进行增强(Data Augmentation)。
[0003]目前学术界和产业界提出的数据增强策略主要有：(1)token替换；(2)mixup；(3)回译等等。
[0004]已有的方案存在这样的问题：没有一个系统的、自动的方案来从众多方法中选择合适的策略集合。目前，人们主要依靠经验或者网格搜索的方式来摸索一个合适的数据增强策略组合，在效果和效率上都不尽如人意；另外，这些数据增强方案对新策略的添加不是很友好。

技术实现思路

[0005]为解决现有技术的无法满足用户需求的技术问题。
[0006]为实现上述技术目的，本公开提供了一种文本数据增强方法，包括：
[0007]获取的训练用数据集并存储；
[0008]以数据增强策略清单以及数据增强数量参数构成的数据增强模型参数，对存储的文本分类训练用数据集进行数据增强，输出自动构造的训练数据集并存储；
[0009]通过对所述自动构造的训练数据集以及所述训练用数据集进行训练得到文本分类器，其中，所述文本分类器用于进行数据分类，并判断分类效果是否符合预期；
[0010]基于所述文本分类器的分类结果的基础上，对...

【技术保护点】

【技术特征摘要】
1.一种文本数据增强方法，其特征在于，包括：获取的训练用数据集并存储；以数据增强策略清单以及数据增强数量参数构成的数据增强模型参数，对存储的文本分类训练用数据集进行数据增强，输出自动构造的训练数据集并存储；通过对所述自动构造的训练数据集以及所述训练用数据集进行训练得到文本分类器，其中，所述文本分类器用于进行数据分类，并判断分类效果是否符合预期；基于所述文本分类器的分类结果的基础上，对所述数据增强模块构建的所述数据增强模型参数进行迭代优化；判断所述数据增强模型参数是否收敛，若收敛则终止迭代，若不收敛则利用人工鱼群算法进行迭代。2.根据权利要求1所述的方法，其特征在于，所述对存储的文本分类训练用数据集进行数据增强具体包括：对存储的文本分类训练用数据集进行同义词替换子处理、随机替换处理、随机删除处理、随机交换位置处理、回译处理和/或拼接处理；其中，各处理过程具有各自的数据增强参数，全部的数据增强参数组成数据增强模型的参数列表Θ，所述人工鱼群算法迭代模块对所述参数列表Θ进行迭代优化。3.根据权利要求2所述的方法，其特征在于，所述判断分类效果是否符合预期具体为:基于测试语料，对所述文本分类器进行测试，得到所述文本分类器的得分，即其中recall
k
是分类器对第k个类别的召回率；precision
k
是分类器对第k个类别的识别精度，k＝1，2，
……
，K，K为大于2的整数，其中，t表示当前迭代轮次。4.根据权利要求3所述的方法，其特征在于，所述人工鱼群算法迭代模块具体用于：记人工鱼的参数列表Θ＝[Θ
dis
，Θ
con
]，其中Θ
dis
为参数列表中离散的部分，Θ
con
为参数中连续的部分；计算人工鱼之间距离、计算人工鱼密度和/或计算人工鱼群重心；根据人工鱼群计算结果进行觅食迭代、聚群迭代、追尾迭代和/或随机迭代。5.根据权利要求4中所述的系统，其特征在于，所述人工鱼之间的距离具体包括：计算两个人工鱼在离散维度上的距离为distance(Θ
dis，l
，Θ
dis，g
)；而两个人工鱼在连续维度上的距离为distance(Θ
con，l
，Θ
con，g
)。6.根据权利要求5所述的方法，其特征在于，所述计算人工鱼密度具体包括：在1号人工鱼所处位置，在离散维度中的人工鱼密度是：在连续维度中的人工鱼密度是：
如果density
dis，l
＜Q且density
con，l
＜Q，那么1号人工鱼所处区域的人工鱼是比较少的、竞争不是很激烈，适合前往，其中Q为预设阈值。7.根据权利要求6所述的方法，其特征在于，所述计算人工鱼群重心具体包括：在离散维度上的重心为：在连续维度上的重心为：其中round函数用来对数字进行四舍五入操作。8.根据权利要求7所述的方法，其特征在...

【专利技术属性】
技术研发人员：李鹏宇，李剑锋，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人