一种基于词义消歧卷积神经网络的文本分类方法技术

技术编号：22295505 阅读：18 留言：0更新日期：2019-10-15 04:39

一种基于词义消歧卷积神经网络的文本分类方法，包括以下步骤：配置已确定词义的歧义词库；获取相关文件，从文件中提取文本内容，并对文本中各语句进行分词处理；确定语句中各个词语的词性；确定消歧目标词；确定目标词的词义并进行消歧处理；对消歧后文本中所包含的原始语句进行分词处理和去除停用词处理，得到与原始语句相对应的目标语句；确定目标语句中词语的关键度；确定目标语句的关键度；根据语句的关键度对语句进行排序，得到目标文本；利用经过训练的基于卷积神经网络的文本分类模型对目标文本进行分类。本发明专利技术能够基于词义消歧卷积神经网络进行文本分类，优化了文本分类方法，提高了文本分类效率和文本分类的准确性，省时省力。

A Text Classification Method Based on Word Sense Disambiguation Convolutional Neural Network

全部详细技术资料下载

【技术实现步骤摘要】
一种基于词义消歧卷积神经网络的文本分类方法
本专利技术涉及文本分类
，尤其涉及一种基于词义消歧卷积神经网络的文本分类方法。
技术介绍
随着网络媒体的日益发达和网民数量的不断增加，大量的文本数据在不断的产生，如何处理庞大的文本数据并正确分类是一个亟待解决的问题，文本分类通过已有数据训练分类器，并将此分类器用于测试文档，确定每一个文档的类别，正确的文本分类可以使用户更快的寻找到需要的信息，更方便的浏览文档，文本自动分类指通过带有类别标志的训练文本，即训练文本分类器，然后将该分类器用于测试未知类别文本进行识别；现有的技术中，文本分类方法主要包含以下几种：基于规则的方法，通过统计大量文本特点和该领域相关知识，制定规则并通过规则分类，该方法需要大量的时间和相关专业人员；基于向量空间表达方法，首先选择和提取特征，通过向量空间构造文本表达，然后构建分类器，该方法忽略了词语的语义信息，维度较大，易引起维度灾难问题；基于分布式词向量方法，首先选择和提取特征，通过LDA或Word2Vec等方法构建文本表达，之后构建分类器，该方法只包含全局信息或局部信息的一种，而忽略了另一种信息，分类准确度较低；目前的文本分类方法较为复杂，文本分类效率慢，文本分类的准确度较低。
技术实现思路
(一)专利技术目的为解决
技术介绍
中存在的技术问题，本专利技术提出一种基于词义消歧卷积神经网络的文本分类方法，能够基于词义消歧卷积神经网络进行文本分类，优化了文本分类方法，提高了文本分类效率和文本分类的准确性，省时省力。(二)技术方案为解决上述问题，本专利技术提出了一种基于词义消歧卷积神经网络的文本分类方...

【技术保护点】
1.一种基于词义消歧卷积神经网络的文本分类方法，其特征在于，包括以下步骤：S1、配置已确定词义的歧义词库；S2、获取相关文件，从文件中提取文本内容，并对文本中各语句进行分词处理；S3、对文本中各语句的词性进行标注，确定语句中各个词语的词性；S4、基于歧义词库，确定消歧目标词；S5、基于对语句的句法分析以及上下文信息分析，确定目标词的词义并进行消歧处理；S6、对消歧后文本中所包含的原始语句进行分词处理和去除停用词处理，得到与原始语句相对应的目标语句；S7、确定目标语句中词语的关键度；S8、根据目标语句中词语的关键度确定目标语句的关键度；S9、根据语句的关键度对语句进行排序，得到目标文本；S10、利用经过训练的基于卷积神经网络的文本分类模型对目标文本进行分类。

【技术特征摘要】
1.一种基于词义消歧卷积神经网络的文本分类方法，其特征在于，包括以下步骤：S1、配置已确定词义的歧义词库；S2、获取相关文件，从文件中提取文本内容，并对文本中各语句进行分词处理；S3、对文本中各语句的词性进行标注，确定语句中各个词语的词性；S4、基于歧义词库，确定消歧目标词；S5、基于对语句的句法分析以及上下文信息分析，确定目标词的词义并进行消歧处理；S6、对消歧后文本中所包含的原始语句进行分词处理和去除停用词处理，得到与原始语句相对应的目标语句；S7、确定目标语句中词语的关键度；S8、根据目标语句中词语的关键度确定目标语句的关键度；S9、根据语句的关键度对语句进行排序，得到目标文本；S10、利用经过训练的基于卷积神经网络的文本分类模型对目标文本进行分类。2.根据权利要求1所述的一种基于词义消歧卷积神经网络的文本分类方法，其特征在于，在S2中，文件的获取方式包括爬虫获取、网上下载和批量导入。3.根据权利要求1所述的一种基于词义消歧卷积神经网络的文本分类方法，其特征在于，在S2和S6中，通过jieba工具进行分词处理。4.根据权利要求1所述的一种基于词义消歧卷积神经网络的文本分类方法，其特征在于，在S6中，通过stopwords工具进行去除...

【专利技术属性】
技术研发人员：肖清林，
申请(专利权)人：厦门美域中央信息科技有限公司，
类型：发明
国别省市：福建,35

全部详细技术资料下载我是这个专利的主人