一种基于卷积神经网络的文本增强语义分类方法及系统技术方案

技术编号:23558231 阅读:20 留言:0更新日期:2020-03-25 03:50
本发明专利技术公开了一种基于卷积神经网络的文本增强语义分类方法及系统,属于自然语言处理技术领域,包括以下步骤:S1:收集训练样本;S2:预处理;S3:分词;S4:构建分词矩阵;S5:数据增强;S6:利用模型进行训练。本发明专利技术能够生成相同标签的新的文本词向量矩阵,很大程度上增强了原数据集中的少量标签的数据,扩充了样本容量,达到提升后续模型的鲁棒性,提升正确率,准确率和召回率等效果;通过改进后的卷积神经网络进行训练模型,能够对政务舆情中文文本标签下的文本进行有效的分类判断;适用于解决中文文本的语义类别分类问题,同样也适用于解决情感二分类等其他分类问题。

A text enhanced semantic classification method and system based on convolutional neural network

【技术实现步骤摘要】
一种基于卷积神经网络的文本增强语义分类方法及系统
本专利技术涉及自然语言处理
,具体涉及一种基于卷积神经网络的文本增强语义分类方法及系统。
技术介绍
随着互联网和智能手机的快速普及,信息的传播速度和广度在短短数年间得到了指数级的提升。对于信息的重要载体之一的新闻媒体,随着微信朋友圈,微博自媒体,今日头条推送等的新技术的出现在网络上得到了快速的发展。网络媒体的发展推动了民众对于这些新闻事件的获取与讨论,这种现象使得网络媒体成为反映社会舆情的重要载体之一。对于网络媒体的文本数据的分析,能帮助人们更好的获取新闻背后的信息,例如民众的观点和情感,帮助人们掌握舆论走向和分析社会事件的影响。实现这一点这就需要中文文本分类技术的帮助。中文文本分类是属于自然语言处理(NaturalLanguageProcess)的一个重要课题,承担着从现有的中文大数据文本中快速分类和挖掘有用信息的职能。中文文本分类是实现舆情分析的一个重要手段。目前基于中文文本分类的舆情分析技术主要是在于关键词检索,文本的情感二分类和短文本语义分类。对于关键词检索,由于中文文本中有大量同义词的干扰和长文本中多个关键词同时出现的可能性,并不是一种高效且准确的算法。对于舆情分析,不进行具体类别的分类,光是使用文本情感的正负面二分类无法很好的对于大数据文本进行有效率的归类,从而影响进行后续的查询和分析。对于短文本语义分类,较为成熟的技术有循环神经网络(RecurrentNeuralNetwork)和长短期记忆(LongShortTermMemory),但是这些技术很难适用于长网页文本,尤其是网络爬虫爬取新闻页面中会往往会爬取到大量的非正文内容的文本噪声,会极大地干扰分类的正确率。不仅如此,目前的语义分类往往是把文本分入例如“体育”,“经济”,“民生”等单个词语的分类标签,和对于针对政务舆情系统的分类例如“工程建设”,“公共安全公信”,“法院检察院公信”的多词短语类别标签相较甚远。对于单个次的标签可以利用词向量技术在向量空间中投影成一维向量,然后利用使用例如支持向量机技术(SupportVectorMachine)很好的去分类,但是对于多个单词的短语分类标签,经词向量处理过后形成二维的矩阵,并不适用于支持向量机等技术,而且不同标签中的重复词会带来很大干扰。所以基于中文文本分类的舆情分类需要更准确切有效的方法。中文语义分类中的一个重要途径是将中文文本分词后的词语转化为词向量进行后续的分析。这个概念的一个重要扩展是扩展词嵌入(WordEmbedding),其中Word2vec作为一个行业成熟技术被应用于本专利技术中。对于舆情分析的一个难点就在于很多分类标签下的样本数据不足。这个特征严重影响了分类结果的准确率和召回率。数据增强在很大程度上解决这个问题。现有的针对中文文本的增强方法主要有回译,同义词替换,生成对抗网络等。回译是中文文本翻译成别的语言后再翻译回来,这个方法需要额外的API接口和翻译费用,所以很少应用。同义词替换方法容易造成语义歧义,而且对于长文本会增加大量额外的运行时间。生成对抗网络能生成分类标签下的新的文本,但是这个训练方式很容易生成错误样本,或是形成噪声样本。为此,提出一种基于卷积神经网络的文本增强语义分类方法及系统。
技术实现思路
本专利技术所要解决的技术问题在于:如何解决现有中文文本语义分类在政务舆情分类分析上存在的分析准确率低,标签样本数量不均衡等问题,从而更好地对政务舆情进行监测,提供了一种基于卷积神经网络的文本增强语义分类方法。本专利技术是通过以下技术方案解决上述技术问题的,本专利技术包括以下步骤:S1:收集训练样本通过网络爬虫方法对目标网站上的文章进行爬取,并基于文章内容进行人工分类标签标注,把标注标签、文章标题和文章正文作为训练样本分别储存在数据库中;S2:预处理对数据库中的文章标题和文章正文内容进行预处理;S3:分词对经预处理后的文章标题和文章正文使用分词工具进行分词,并将分词的结果分别存入数据库,同时统计文章正文和文章标题分词后的词频信息;S4:构建分词矩阵通过Word2Vec技术将分别在文章标题和文章正文中出现频率高于一定阈值的词语转化成词向量,并以词频为权重分别组建文章标题和文章正文的词向量矩阵,然后将作为训练样本的文章标题和文章正文的词向量矩阵进行组合,把组合后的矩阵和分类标签对应储存到数据库中;S5:数据增强统计各个分类标签下的训练样本数量,并对数量少的样本进行数据增强,数据增强方式为将组合矩阵的文章标题和文章正文部分的非零向量进行随机排序,生成一定数量的新组合矩阵,新组合矩阵加上原来的分类标签即经过增强的新训练样本;S6:利用模型进行训练构建卷积神经网络模型,将步骤S5中得到的经过增强后的训练样本代入卷积神经网络模型进行训练。更进一步的,在所述步骤S2中,预处理包括去除部分样本在爬取时同时爬取的无关推送的短标题连接,并在此基础上去除噪声字词,噪声字词包括标点符号,英文字母,人称代词,数字,年月日等。更进一步的,在所述步骤S3中,词频信息包括词频的中、位数、众数、最大值和最小值。更进一步的,在所述步骤S4中,词向量矩阵需要统一维度,不足时需要进行补零操作。更进一步的,在所述步骤S5中,词向量矩阵的随机排序组合需要将文章标题和文章正文分开操作。更进一步的,在所述步骤S6中,卷积神经网络模型的具体结构如下:第一层为卷积运算层,将词向量矩阵作为输入,与卷积核进行卷积运算,得到降维后的特征映射;第二层为池化层,优选的使用最大池化,即用卷积运算后的矩阵中的相邻矩形区域内的最大值组成输出矩阵中,得到提取出特征并降维的矩阵;第三层为卷积运算层,将上一层池化运算获得的矩阵继续进行卷积运算降维;第四层为池化层,将上一层卷积运算获得的矩阵继续提取出特征并降维的矩阵;第五层为全连接层,将上一层池化运算后得到的特征映射的矩阵映射到样本标签空间中。更进一步的,全连接层的输出单元数为分类标签数。更进一步的,在所述步骤S6中,利用卷积神经网络模型进行训练的过程,包括以下步骤:S61:进行卷积运算通过设置卷积核的大小,提取文本矩阵中的词向量的空间特征;S62:进行池化运算进一步提取文本的特征,得到降维后的短文本的全局特征矩阵;S63:修改参数重复运算修改卷积核的大小,重复步骤S61和S62,至少一次,并根据需要选择是否对文本特征矩阵外圈进行填零处理;S64:过滤并输出结果将经过步骤S63处理后的矩阵输入全连接层展开成为一维向量,通过使用线性整流函数(RectifiedLinearUnit,缩写为ReLU)进行过滤,再利用Softmax函数对语义分类标签结果进行输出。更进一步的,在所述步骤S63中,进行填零处理的同时进行Dropout(随机失活)操作防止过拟合,Dropout的比例为文本特征矩阵的10%。<本文档来自技高网
...

【技术保护点】
1.一种基于卷积神经网络的文本增强语义分类方法,其特征在于,包括以下步骤:/nS1:收集训练样本/n通过网络爬虫方法对目标网站上的文章进行爬取,并基于文章内容进行人工分类标签标注,把标注标签、文章标题和文章正文作为训练样本分别储存在数据库中;/nS2:预处理/n对数据库中的文章标题和文章正文内容进行去重复,去非中文文本噪声预处理;/nS3:分词/n对经预处理后的文章标题和文章正文使用分词工具进行分词,并将分词的结果分别存入数据库,同时统计文章正文和文章标题分词后的词频信息;/nS4:构建分词矩阵/n将分别在文章标题和文章正文中出现频率高于阈值的词语转化成词向量,并以词频为权重分别组建文章标题和文章正文的词向量矩阵,然后将作为训练样本的文章标题和文章正文的词向量矩阵进行组合,把组合后的矩阵和分类标签对应储存到数据库中;/nS5:数据增强/n统计各个分类标签下的训练样本数量,并对数量少的样本进行数据增强,数据增强方式为将组合矩阵的文章标题和文章正文部分的非零向量进行随机排序,生成一定数量的新组合矩阵,新组合矩阵加上原来的分类标签即经过增强的新训练样本;/nS6:利用模型进行训练/n构建卷积神经网络模型,将步骤S5中得到的经过增强后的训练样本代入卷积神经网络模型进行训练。/n...

【技术特征摘要】
1.一种基于卷积神经网络的文本增强语义分类方法,其特征在于,包括以下步骤:
S1:收集训练样本
通过网络爬虫方法对目标网站上的文章进行爬取,并基于文章内容进行人工分类标签标注,把标注标签、文章标题和文章正文作为训练样本分别储存在数据库中;
S2:预处理
对数据库中的文章标题和文章正文内容进行去重复,去非中文文本噪声预处理;
S3:分词
对经预处理后的文章标题和文章正文使用分词工具进行分词,并将分词的结果分别存入数据库,同时统计文章正文和文章标题分词后的词频信息;
S4:构建分词矩阵
将分别在文章标题和文章正文中出现频率高于阈值的词语转化成词向量,并以词频为权重分别组建文章标题和文章正文的词向量矩阵,然后将作为训练样本的文章标题和文章正文的词向量矩阵进行组合,把组合后的矩阵和分类标签对应储存到数据库中;
S5:数据增强
统计各个分类标签下的训练样本数量,并对数量少的样本进行数据增强,数据增强方式为将组合矩阵的文章标题和文章正文部分的非零向量进行随机排序,生成一定数量的新组合矩阵,新组合矩阵加上原来的分类标签即经过增强的新训练样本;
S6:利用模型进行训练
构建卷积神经网络模型,将步骤S5中得到的经过增强后的训练样本代入卷积神经网络模型进行训练。


2.根据权利要求1所述的一种基于卷积神经网络的文本增强语义分类方法,其特征在于:在所述步骤S2中,预处理包括去除部分样本在爬取时同时爬取的无关推送的短标题连接,并在此基础上去除噪声字词,噪声字词包括标点符号,英文字母,人称代词,数字,年月日。


3.根据权利要求1所述的一种基于卷积神经网络的文本增强语义分类方法,其特征在于:在所述步骤S3中,词频信息包括词频的中、位数、众数、最大值和最小值;在所述步骤S4中,词向量矩阵需要统一维度,不足时需要进行补零操作。


4.根据权利要求1所述的一种基于卷积神经网络的文本增强语义分类方法,其特征在于:在所述步骤S5中,词向量矩阵中的标题词向量和正文词向量中分别进行随机排序并组合成新的增强文本词向量矩阵。


5.根据权利要求1所述的一种基于卷积神经网络的文本增强语义分类方法,其特征在于:在所述步骤S6中,卷积神经网络模型的具体结构如下:
第一层为卷积运算层,将词向量矩阵作为输入,与卷积核进行卷积运算,得到降维后的特征映射;
第二层为池化层,使用最大池化,即用卷积运算后得到的矩阵中的相邻矩形区域内的最大值组成输出矩阵中,得到提取出特征并降维的矩阵;
第三层为卷积运算层,将上一层池化运算获得的矩阵继续进行卷积运算降维;
第四层为池化层,将上一层卷积运算后获得的矩阵继续提取出特征并降维的矩阵;
第五层为全连接层,将上一层池化运算后得到的特征映射的矩阵映射到样本标签空间中。


6...

【专利技术属性】
技术研发人员:王正宇王平平王周焱丁磊杨鹏飞钱伟韦贾计
申请(专利权)人:科大国创软件股份有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1