一种基于卷积神经网络的文本增强语义分类方法及系统技术方案

技术编号：23558231 阅读：20 留言：0更新日期：2020-03-25 03:50

本发明专利技术公开了一种基于卷积神经网络的文本增强语义分类方法及系统，属于自然语言处理技术领域，包括以下步骤：S1：收集训练样本；S2：预处理；S3：分词；S4：构建分词矩阵；S5：数据增强；S6：利用模型进行训练。本发明专利技术能够生成相同标签的新的文本词向量矩阵，很大程度上增强了原数据集中的少量标签的数据，扩充了样本容量，达到提升后续模型的鲁棒性，提升正确率，准确率和召回率等效果；通过改进后的卷积神经网络进行训练模型，能够对政务舆情中文文本标签下的文本进行有效的分类判断；适用于解决中文文本的语义类别分类问题，同样也适用于解决情感二分类等其他分类问题。

A text enhanced semantic classification method and system based on convolutional neural network

全部详细技术资料下载

【技术实现步骤摘要】
一种基于卷积神经网络的文本增强语义分类方法及系统
本专利技术涉及自然语言处理
，具体涉及一种基于卷积神经网络的文本增强语义分类方法及系统。
技术介绍
随着互联网和智能手机的快速普及，信息的传播速度和广度在短短数年间得到了指数级的提升。对于信息的重要载体之一的新闻媒体，随着微信朋友圈，微博自媒体，今日头条推送等的新技术的出现在网络上得到了快速的发展。网络媒体的发展推动了民众对于这些新闻事件的获取与讨论，这种现象使得网络媒体成为反映社会舆情的重要载体之一。对于网络媒体的文本数据的分析，能帮助人们更好的获取新闻背后的信息，例如民众的观点和情感，帮助人们掌握舆论走向和分析社会事件的影响。实现这一点这就需要中文文本分类技术的帮助。中文文本分类是属于自然语言处理(NaturalLanguageProcess)的一个重要课题，承担着从现有的中文大数据文本中快速分类和挖掘有用信息的职能。中文文本分类是实现舆情分析的一个重要手段。目前基于中文文本分类的舆情分析技术主要是在于关键词检索，文本的情感二分类和短文本语义分类。对于关键词检索，由于中文文本中有大量同义词的干扰和长文本中多个关键词同时出现的可能性，并不是一种高效且准确的算法。对于舆情分析，不进行具体类别的分类，光是使用文本情感的正负面二分类无法很好的对于大数据文本进行有效率的归类，从而影响进行后续的查询和分析。对于短文本语义分类，较为成熟的技术有循环神经网络(RecurrentNeuralNetwork)和长短期记忆(LongShortTermMemory)，但是这...

【技术保护点】
1.一种基于卷积神经网络的文本增强语义分类方法，其特征在于，包括以下步骤：/nS1：收集训练样本/n通过网络爬虫方法对目标网站上的文章进行爬取，并基于文章内容进行人工分类标签标注，把标注标签、文章标题和文章正文作为训练样本分别储存在数据库中；/nS2：预处理/n对数据库中的文章标题和文章正文内容进行去重复，去非中文文本噪声预处理；/nS3：分词/n对经预处理后的文章标题和文章正文使用分词工具进行分词，并将分词的结果分别存入数据库，同时统计文章正文和文章标题分词后的词频信息；/nS4：构建分词矩阵/n将分别在文章标题和文章正文中出现频率高于阈值的词语转化成词向量，并以词频为权重分别组建文章标题和文章正文的词向量矩阵，然后将作为训练样本的文章标题和文章正文的词向量矩阵进行组合，把组合后的矩阵和分类标签对应储存到数据库中；/nS5：数据增强/n统计各个分类标签下的训练样本数量，并对数量少的样本进行数据增强，数据增强方式为将组合矩阵的文章标题和文章正文部分的非零向量进行随机排序，生成一定数量的新组合矩阵，新组合矩阵加上原来的分类标签即经过增强的新训练样本；/nS6：利用模型进行训练/n构建卷积...

【技术特征摘要】
1.一种基于卷积神经网络的文本增强语义分类方法，其特征在于，包括以下步骤：
S1：收集训练样本
通过网络爬虫方法对目标网站上的文章进行爬取，并基于文章内容进行人工分类标签标注，把标注标签、文章标题和文章正文作为训练样本分别储存在数据库中；
S2：预处理
对数据库中的文章标题和文章正文内容进行去重复，去非中文文本噪声预处理；
S3：分词
对经预处理后的文章标题和文章正文使用分词工具进行分词，并将分词的结果分别存入数据库，同时统计文章正文和文章标题分词后的词频信息；
S4：构建分词矩阵
将分别在文章标题和文章正文中出现频率高于阈值的词语转化成词向量，并以词频为权重分别组建文章标题和文章正文的词向量矩阵，然后将作为训练样本的文章标题和文章正文的词向量矩阵进行组合，把组合后的矩阵和分类标签对应储存到数据库中；
S5：数据增强
统计各个分类标签下的训练样本数量，并对数量少的样本进行数据增强，数据增强方式为将组合矩阵的文章标题和文章正文部分的非零向量进行随机排序，生成一定数量的新组合矩阵，新组合矩阵加上原来的分类标签即经过增强的新训练样本；
S6：利用模型进行训练
构建卷积神经网络模型，将步骤S5中得到的经过增强后的训练样本代入卷积神经网络模型进行训练。

2.根据权利要求1所述的一种基于卷积神经网络的文本增强语义分类方法，其特征在于：在所述步骤S2中，预处理包括去除部分样本在爬取时同时爬取的无关推送的短标题连接，并在此基础上去除噪声字词，噪声字词包括标点符号，英文字母，人称代词，数字，年月日。

3.根据权利要求1所述的一种基于卷积神经网络的文本增强语义分类方法，其特征在于：在所述步骤S3中，词频信息包括词频的中、位数、众数、最大值和最小值；在所述步骤S4中，词向量矩阵需要统一维度，不足时需要进行补零操作。

4.根据权利要求1所述的一种基于卷积神经网络的文本增强语义分类方法，其特征在于：在所述步骤S5中，词向量矩阵中的标题词向量和正文词向量中分别进行随机排序并组合成新的增强文本词向量矩阵。

5.根据权利要求1所述的一种基于卷积神经网络的文本增强语义分类方法，其特征在于：在所述步骤S6中，卷积神经网络模型的具体结构如下：
第一层为卷积运算层，将词向量矩阵作为输入，与卷积核进行卷积运算，得到降维后的特征映射；
第二层为池化层，使用最大池化，即用卷积运算后得到的矩阵中的相邻矩形区域内的最大值组成输出矩阵中，得到提取出特征并降维的矩阵；
第三层为卷积运算层，将上一层池化运算获得的矩阵继续进行卷积运算降维；
第四层为池化层，将上一层卷积运算后获得的矩阵继续提取出特征并降维的矩阵；
第五层为全连接层，将上一层池化运算后得到的特征映射的矩阵映射到样本标签空间中。

6...

【专利技术属性】
技术研发人员：王正宇，王平平，王周焱，丁磊，杨鹏飞，钱伟，韦贾计，
申请(专利权)人：科大国创软件股份有限公司，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人