基于生成式对抗网络实现文本分类数据集扩展方法技术

技术编号：19593274 阅读：33 留言：0更新日期：2018-11-28 04:51

本发明专利技术公开了一种基于生成式对抗网络实现文本分类数据集扩展方法，该方法包括以下步骤：确定需要进行数据扩展的原始数据类别；对相应数据进行预处理，使用word2vec与TFIDF将数据表示成词向量矩阵的形式；使用生成式对抗网路生成扩展的矩阵向量，将原数据的矩阵向量与扩展的矩阵向量合并即实现对数据集的扩展。本发明专利技术方法通过扩展稀有类别的数据，有利于研究者对难以获得的数据集进行扩展，提高稀有类别数据的分类精度，方便科学研究。

全部详细技术资料下载

【技术实现步骤摘要】
基于生成式对抗网络实现文本分类数据集扩展方法
本专利技术涉及大数据分析技术，尤其涉及一种基于生成式对抗网络实现文本分类数据集扩展方法。
技术介绍
随着互联网的高速发展，网络上的信息量呈指数形式增长，其中非结构化文本数据所占比率最大，如何从纷繁的文本数据中挖掘用户感兴趣的信息变得日益重要。文本分类是网络文本数据挖掘的基础，分类结果是好是坏直接影响文本数据挖掘效果，因此如何构建正确率高的文本分类算法是网络信息数据挖掘研究中的重点。针对文本分类问题，国内外学者和专家投入了大量的时间和精力，进行了深入的研究。一般进行分类有两种方法：人工分类和自动分类。人工分类就是依靠人力对文本进行类别的划分，这种方法费时费力，不过人工分类的一个优点是准确率一般可以得到保证。另一种方法是自动分类，通过计算机采用一定的算法进行自动文本分类，分类复杂度降低，效率大大提高，但是准确率依赖于算法的好坏。目前最著名的机器学习数据库是由美国加州大学的Irvine分校维护的UCI数据库，其中有各国研究者贡献的在不同时期从不同应用领域收集的数据集。数据集的收集有时是代价昂贵的(如核实验)，有时则是样本稀少的(如航空飞机的着陆控制数据集)，有时则由于涉及个人隐私而难以获得，有时则包含有缺值。因此，数据集是所有研究者共享的宝贵财富。由于信息资源分布的特点，有些类别的信息明显匮乏，称为稀有类别，这些类别的信息资源有限，导致训练集中稀有类别的文本数量无法和普通类别相比。在现有的文本自动分类技术中，参与分类的各个类别在分类过程中都是平等的，并不会因为某个类是稀有类别就在分类时区别对待。这样，分类时貌似公平的...

【技术保护点】
1.一种基于生成式对抗网络实现文本分类数据集扩展方法，其特征在于，包括以下步骤：1)将文本数据集转化为词向量表示；获取待扩展的文本分类数据集，对数据集中的文本进行特征词提取，将特征词用特征向量表示，获取特征词的词向量矩阵；2)利用生成式对抗网络生成文本数据扩展数据集，将步骤1)获得的特征词词向量矩阵作为生成式对抗网络的输入，输出生成的文本数据，获得扩展数据集；2.1)将步骤1)得到的词向量矩阵作为生成式对抗网络的输入，经训练后输出设定数目的模拟数据，输出格式为词向量矩阵；2.2)将待扩展的文本分类数据与经数据扩展得到的扩展数据合并为新的数据，经过生成式对抗网络得到词向量表现形式的矩阵，即是模拟的该类别下的扩展数据，将原始数据与扩展数据合并，即能满足需要的数据量要求。

【技术特征摘要】
1.一种基于生成式对抗网络实现文本分类数据集扩展方法，其特征在于，包括以下步骤：1)将文本数据集转化为词向量表示；获取待扩展的文本分类数据集，对数据集中的文本进行特征词提取，将特征词用特征向量表示，获取特征词的词向量矩阵；2)利用生成式对抗网络生成文本数据扩展数据集，将步骤1)获得的特征词词向量矩阵作为生成式对抗网络的输入，输出生成的文本数据，获得扩展数据集；2.1)将步骤1)得到的词向量矩阵作为生成式对抗网络的输入，经训练后输出设定数目的模拟数据，输出格式为词向量矩阵；2.2)将待扩展的文本分类数据与经数据扩展得到的扩展数据合并为新的数据，经过生成式对抗网络得到词向量表现形式的矩阵，即是模拟的该类别下的扩展数据，将原始数据与扩展数据合并，即能满足需要的数据量要求。2.根据权利要求1所述的基于生成式对抗网络实现文本分类数据集扩展方法，其特征在于，所述步骤2.1)中生成式对抗网络如下：代价函数：可微分函数D表示判别器，G表示生成器,判别器输入为真实数据x，生成器的输入为随机变量z，G(z)则为由G生成的尽量服从真实数据分布pdata的样本；这里D的目标是实现对数据来源的二分类判别:真，若来源于真实数据x的分布；或者伪，若来源于生成器的伪数据G(z)；而G的目标是使自己生成的伪数据G(z)在D上的表现D(G(z))和真实数据x在D上的表现D(x)一致,这两个相互对抗并迭代优化的过程使得D和G的性能不断提升,当最终D的判别能力提升到一定程度,并且无法正确判别数据来源时,认为这个生成器G已经...

【专利技术属性】
技术研发人员：崔晓晖，田斐菡，杨威，关景，曹佳敏，唐艺豪，李启琛，
申请(专利权)人：武汉大学，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人