一种基于词义消歧卷积神经网络的文本分类方法技术

技术编号:22295505 阅读:18 留言:0更新日期:2019-10-15 04:39
一种基于词义消歧卷积神经网络的文本分类方法,包括以下步骤:配置已确定词义的歧义词库;获取相关文件,从文件中提取文本内容,并对文本中各语句进行分词处理;确定语句中各个词语的词性;确定消歧目标词;确定目标词的词义并进行消歧处理;对消歧后文本中所包含的原始语句进行分词处理和去除停用词处理,得到与原始语句相对应的目标语句;确定目标语句中词语的关键度;确定目标语句的关键度;根据语句的关键度对语句进行排序,得到目标文本;利用经过训练的基于卷积神经网络的文本分类模型对目标文本进行分类。本发明专利技术能够基于词义消歧卷积神经网络进行文本分类,优化了文本分类方法,提高了文本分类效率和文本分类的准确性,省时省力。

A Text Classification Method Based on Word Sense Disambiguation Convolutional Neural Network

【技术实现步骤摘要】
一种基于词义消歧卷积神经网络的文本分类方法
本专利技术涉及文本分类
,尤其涉及一种基于词义消歧卷积神经网络的文本分类方法。
技术介绍
随着网络媒体的日益发达和网民数量的不断增加,大量的文本数据在不断的产生,如何处理庞大的文本数据并正确分类是一个亟待解决的问题,文本分类通过已有数据训练分类器,并将此分类器用于测试文档,确定每一个文档的类别,正确的文本分类可以使用户更快的寻找到需要的信息,更方便的浏览文档,文本自动分类指通过带有类别标志的训练文本,即训练文本分类器,然后将该分类器用于测试未知类别文本进行识别;现有的技术中,文本分类方法主要包含以下几种:基于规则的方法,通过统计大量文本特点和该领域相关知识,制定规则并通过规则分类,该方法需要大量的时间和相关专业人员;基于向量空间表达方法,首先选择和提取特征,通过向量空间构造文本表达,然后构建分类器,该方法忽略了词语的语义信息,维度较大,易引起维度灾难问题;基于分布式词向量方法,首先选择和提取特征,通过LDA或Word2Vec等方法构建文本表达,之后构建分类器,该方法只包含全局信息或局部信息的一种,而忽略了另一种信息,分类准确度较低;目前的文本分类方法较为复杂,文本分类效率慢,文本分类的准确度较低。
技术实现思路
(一)专利技术目的为解决
技术介绍
中存在的技术问题,本专利技术提出一种基于词义消歧卷积神经网络的文本分类方法,能够基于词义消歧卷积神经网络进行文本分类,优化了文本分类方法,提高了文本分类效率和文本分类的准确性,省时省力。(二)技术方案为解决上述问题,本专利技术提出了一种基于词义消歧卷积神经网络的文本分类方法,包括以下步骤:S1、配置已确定词义的歧义词库;S2、获取相关文件,从文件中提取文本内容,并对文本中各语句进行分词处理;S3、对文本中各语句的词性进行标注,确定语句中各个词语的词性;S4、基于歧义词库,确定消歧目标词;S5、基于对语句的句法分析以及上下文信息分析,确定目标词的词义并进行消歧处理;S6、对消歧后文本中所包含的原始语句进行分词处理和去除停用词处理,得到与原始语句相对应的目标语句;S7、确定目标语句中词语的关键度;S8、根据目标语句中词语的关键度确定目标语句的关键度;S9、根据语句的关键度对语句进行排序,得到目标文本;S10、利用经过训练的基于卷积神经网络的文本分类模型对目标文本进行分类。优选的,在S2中,文件的获取方式包括爬虫获取、网上下载和批量导入。优选的,在S2和S6中,通过jieba工具进行分词处理。优选的,在S6中,通过stopwords工具进行去除分词处理。优选的,在S6中,目标语句中至少包含一个词语。优选的,在S7中,词语的关键度用于表示词语待分类文本所要表达的主题的相关程度。优选的,S7的具体步骤如下:S71、利用预先经过训练的第一词向量模型确定目标语句中词语的词向量;S72、利用预先经过训练的主题向量模型确定目标语句中词语的主题向量;S73、利用预先经过训练的第一主题模型确定待分类文本的主题概率分布;S74、根据词语的词向量、词语的主题向量和主题概率分布,确定词语的关键度。优选的,在S74中,包括以下步骤:S741、根据预设的相似度计算方法确定词语的词向量与词语的主题向量之间的第一相似度值;S742、根据第一相似度值和主题概率分布确定词语的关键度。优选的,在S8中,将目标语句中关键度最高的词语的关键度确定为目标语句的关键度。本专利技术的上述技术方案具有如下有益的技术效果:本专利技术能够基于词义消歧卷积神经网络进行文本分类,优化了文本分类方法,提高了文本分类效率和文本分类的准确性,省时省力。附图说明图1为本专利技术提出的一种基于词义消歧卷积神经网络的文本分类方法的流程图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本专利技术进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本专利技术的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本专利技术的概念。如图1所示,本专利技术提出的一种基于词义消歧卷积神经网络的文本分类方法,包括以下步骤:S1、配置已确定词义的歧义词库;S2、获取相关文件,从文件中提取文本内容,并对文本中各语句进行分词处理;S3、对文本中各语句的词性进行标注,确定语句中各个词语的词性;S4、基于歧义词库,确定消歧目标词;S5、基于对语句的句法分析以及上下文信息分析,确定目标词的词义并进行消歧处理;S6、对消歧后文本中所包含的原始语句进行分词处理和去除停用词处理,得到与原始语句相对应的目标语句;S7、确定目标语句中词语的关键度;S8、根据目标语句中词语的关键度确定目标语句的关键度;S9、根据语句的关键度对语句进行排序,得到目标文本;S10、利用经过训练的基于卷积神经网络的文本分类模型对目标文本进行分类。在一个可选的实施例中,在S2中,文件的获取方式包括爬虫获取、网上下载和批量导入。在一个可选的实施例中,在S2和S6中,通过jieba工具进行分词处理。在一个可选的实施例中,在S6中,通过stopwords工具进行去除分词处理。在一个可选的实施例中,在S6中,目标语句中至少包含一个词语。在一个可选的实施例中,在S7中,词语的关键度用于表示词语待分类文本所要表达的主题的相关程度。在一个可选的实施例中,S7的具体步骤如下:S71、利用预先经过训练的第一词向量模型确定目标语句中词语的词向量;S72、利用预先经过训练的主题向量模型确定目标语句中词语的主题向量;S73、利用预先经过训练的第一主题模型确定待分类文本的主题概率分布;S74、根据词语的词向量、词语的主题向量和主题概率分布,确定词语的关键度。在一个可选的实施例中,在S74中,包括以下步骤:S741、根据预设的相似度计算方法确定词语的词向量与词语的主题向量之间的第一相似度值;S742、根据第一相似度值和主题概率分布确定词语的关键度。在一个可选的实施例中,在S8中,将目标语句中关键度最高的词语的关键度确定为目标语句的关键度。本专利技术中,首先配置已确定词义的歧义词库;然后获取相关文件,从文件中提取文本内容,并对文本中各语句进行分词处理;之后对文本中各语句的词性进行标注,确定语句中各个词语的词性,并基于歧义词库,确定消歧目标词,再基于对语句的句法分析以及上下文信息分析,确定目标词的词义并进行消歧处理;然后对消歧后文本中所包含的原始语句进行分词处理和去除停用词处理,得到与原始语句相对应的目标语句;之后确定目标语句中词语的关键度,并根据目标语句中词语的关键度确定目标语句的关键度,目标语句中关键度最高的词语的关键度为目标语句的关键度;然后根据语句的关键度对语句进行排序,得到目标文本;最后利用经过训练的基于卷积神经网络的文本分类模型对目标文本进行分类;其中,确定目标语句中词语的关键度的步骤为:利用预先经过训练的第一词向量模型确定目标语句中词语的词向量,利用预先经过训练的主题向量模型确定目标语句中词语的主题向量,利用预先经过训练的第一主题模型确定待分类文本的主题概率分布,根据预设的相似度计算方法确定词语的词向量与词语的主题向量之间的第一相似度值,并根据第一相似度值和主题概率分布确定词语的关键度;本专利技术能够基于词义消歧卷积神经网络进行文本文档来自技高网...

【技术保护点】
1.一种基于词义消歧卷积神经网络的文本分类方法,其特征在于,包括以下步骤:S1、配置已确定词义的歧义词库;S2、获取相关文件,从文件中提取文本内容,并对文本中各语句进行分词处理;S3、对文本中各语句的词性进行标注,确定语句中各个词语的词性;S4、基于歧义词库,确定消歧目标词;S5、基于对语句的句法分析以及上下文信息分析,确定目标词的词义并进行消歧处理;S6、对消歧后文本中所包含的原始语句进行分词处理和去除停用词处理,得到与原始语句相对应的目标语句;S7、确定目标语句中词语的关键度;S8、根据目标语句中词语的关键度确定目标语句的关键度;S9、根据语句的关键度对语句进行排序,得到目标文本;S10、利用经过训练的基于卷积神经网络的文本分类模型对目标文本进行分类。

【技术特征摘要】
1.一种基于词义消歧卷积神经网络的文本分类方法,其特征在于,包括以下步骤:S1、配置已确定词义的歧义词库;S2、获取相关文件,从文件中提取文本内容,并对文本中各语句进行分词处理;S3、对文本中各语句的词性进行标注,确定语句中各个词语的词性;S4、基于歧义词库,确定消歧目标词;S5、基于对语句的句法分析以及上下文信息分析,确定目标词的词义并进行消歧处理;S6、对消歧后文本中所包含的原始语句进行分词处理和去除停用词处理,得到与原始语句相对应的目标语句;S7、确定目标语句中词语的关键度;S8、根据目标语句中词语的关键度确定目标语句的关键度;S9、根据语句的关键度对语句进行排序,得到目标文本;S10、利用经过训练的基于卷积神经网络的文本分类模型对目标文本进行分类。2.根据权利要求1所述的一种基于词义消歧卷积神经网络的文本分类方法,其特征在于,在S2中,文件的获取方式包括爬虫获取、网上下载和批量导入。3.根据权利要求1所述的一种基于词义消歧卷积神经网络的文本分类方法,其特征在于,在S2和S6中,通过jieba工具进行分词处理。4.根据权利要求1所述的一种基于词义消歧卷积神经网络的文本分类方法,其特征在于,在S6中,通过stopwords工具进行去除...

【专利技术属性】
技术研发人员:肖清林
申请(专利权)人:厦门美域中央信息科技有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1