一种面向不平衡文本分类数据的数据增强方法及系统技术方案

技术编号：29156668 阅读：21 留言：0更新日期：2021-07-06 22:56

本发明专利技术提供面向不平衡文本分类数据的数据增强方法及系统，包括数据清洗；文本预处理；先验信息统计；向量化；融入上下文信息；结构化自注意力机制；隐空间数据增强；训练模型；本发明专利技术采用融合类别先验信息的Mixup数据增强技术，能在隐状态空间合成样本，有效扩增用于文本分类的不平衡数据集中少样本类别的数据量，明显改善模型的泛化性能，显著提高模型在该类数据集上的正确率、精确率、召回率和F1值等评价指标；加入改进后的Mixup数据增强技术的模型进行训练，模型分类器能增强对数据集中少样本类别的分类准确率；适用于缓解用于文本分类的数据集中存在的数据不平衡问题，也适用于提高该类数据集中少样本类别的分类准确率的情形。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向不平衡文本分类数据的数据增强方法及系统
本专利技术涉及一种面向不平衡文本分类数据的数据增强方法及系统，属于自然语言处理

技术介绍
随着互联网的快速发展以及各类智能终端的普及，网络上每天都会产生大量的文本数据，已经出现了“信息爆炸”的现象。此外，政府机构、各种社会组织团体的信息化建设日趋完善，一定层度上也丰富了网络世界的信息种类。网络中存在着来自社交媒体网站、电商平台、政府门户网站等的新闻、舆情、购物评论、法律文书等等形式多样的文本。在大数据时代如何利用网络世界纷繁复杂的信息，“沙里淘金”挖掘出潜在价值的信息，对于更好的服务于社会生产生活至关重要。文本分类是自然语言处理领域的一个重要研究课题，相关研究最早可以追溯到利用专家规则进行分类。它的应用非常广泛，例如：垃圾邮件分类、新闻分类、词性标注、评论情感分类、自动问答等。如上所述，目前网络世界信息多样，研究人员在采用人工智能技术并利用从网络世界获取到的数据构建的数据集进行模型训练时，往往面临着很多问题。例如，目前很多领域构建的和文本有关的数据集就存在着严...

【技术保护点】
1.一种面向不平衡文本分类数据的数据增强方法，其特征在于：所述方法依次对待处理的存在数据不平衡问题的数据集经过如下处理：数据清洗、文本预处理、先验信息统计、向量化、融入上下文信息、结构化自注意力机制和隐空间数据增强。/n

【技术特征摘要】
1.一种面向不平衡文本分类数据的数据增强方法，其特征在于：所述方法依次对待处理的存在数据不平衡问题的数据集经过如下处理：数据清洗、文本预处理、先验信息统计、向量化、融入上下文信息、结构化自注意力机制和隐空间数据增强。

2.根据权利要求1所述的一种面向不平衡文本分类数据的数据增强方法，其特征在于：所述方法包括以下步骤：
Step1、数据清洗：首先将待处理的存在数据不平衡问题的数据集中的数据以一种固定的格式存储；其次，进行去重、去噪处理，清洗后仍以一种固定的格式存储；
Step2、文本预处理：对数据清洗后样本的文本表示进行分词和词性标注；然后依据具体的文本分类任务具有的特性，对文本中的标点符号、数字、时间、地址、专有名词有选择的进行预处理；
Step3、先验信息统计：筛选出数据集中包含的所有类别的标签，对各类标签进行数字化编号；统计数据集中各类别样本的频率，计算每类样本的占比作为类别先验信息；
Step4、向量化：在批次训练过程中，将一个批次样本的文本表示输入嵌入层获取词嵌入；
Step5、融入上下文信息：在将样本的文本表示向量化后采用编码器将其中每个词都融入上下文信息；
Step6、结构化自注意力机制：得到了具有上下文语义的词序列的隐状态表示后，再采用结构化自注意力机制来计算文本的多个侧面的向量表示；
Step7、隐空间数据增强：经过以上的Step1-Step6处理后，在批次训练过程中随机抽取批次内的两对样本，利用它们所属类别样本的先验信息先后计算类别混合因子和标签混合因子，在此之后，再计算隐空间中的合成样本。

3.根据权利要求1所述的一种面向不平衡文本分类数据的数据增强方法，其特征在于：所述数据清洗包括将数据集中数据包括样本及其标签存储为格式化数据；数据清洗中的去重具体是指去除数据集中存在的重复冗余数据；数据清洗中的去噪具体是指去除数据集中的噪声数据，噪声数据包括空数据、残缺数据、无用数据、低信息量数据。

4.根据权...

【专利技术属性】
技术研发人员：线岩团，陈文仲，相艳，张亚飞，王红斌，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：云南;53

全部详细技术资料下载我是这个专利的主人