当前位置: 首页 > 专利查询>中南大学专利>正文

一种文本分类方法及系统技术方案

技术编号:25599053 阅读:36 留言:0更新日期:2020-09-11 23:56
本发明专利技术公开了一种文本分类的方法及文本分类系统,其中主要内容包括:首先对分类数据进行预处理,然后由于计算机无法识别自然语言,计算机只能识别特定的数字符号,为了将自然语言转换为机器能处理的符号,采用训练词嵌入矩阵的方法进行文本表示,将自然语言字符转换为词向量,能够使语义相近的词保持较高的相似度,生成高质量的词组特征,并基于上述方式得到的词向量使用训练好的深度学习模型,对待分类文本进行分类处理,确定待分类文本的类别。

【技术实现步骤摘要】
一种文本分类方法及系统
本专利技术涉及自然语言处理领域,具体涉及根据文本语义特征和文本句间依赖关系,来对待分类文本进行分类。
技术介绍
文本分类是根据文本特征进行分类规则的设定,来对文本进行自动分类。宏观上来说就是构建文本信息与分类类别的映射关系。针对文本分类其主要步骤分为文本信息预处理,文本表达,文本特征选择,分类器构建。其中最重要的就是文本特征选择和分类方法的构建。分类算法主要分为三类:无监督,半监督,有监督的文本分类。无监督的文本分类的方法主要是通过文本聚类,种子词匹配等方式,对没有标注过的文本信息进行分类,这样的方式减少人工标注的工作量;半监督文本分类只利用少量的标注数据和大量无监督的数据进行分类模型的建立;有监督的方式需要大量的标注数据,但是精度远远高于前两者,信息时代的到来,这给有监督的分类方法提供了很好的数据基础。同时,随着计算机硬件与运算能力的不断提高,深度学习作为有监督机器学习的重要分支,在文本分类现在大放异彩。深度学习能够通过构建不同的神经元,以不同形式的拓扑结构进行组合,达到提取数据深层特征的目的,这样的方本文档来自技高网...

【技术保护点】
1.一种文本分类方法。其特征在于,包括:/n通过对文本进行预处理,得到待分类文本,主要从以下两个方面来对文本进行处理:特殊符号的去除、去停用词;/n将预处理得到的待分类文本,根据从训练文本中得到的词汇表,通过使用词嵌入工具,将自然语言处理字符转换为字符表示的词向量;/n将上述得到的词向量,使用训练好的深度学习模型进行处理,确定待分类文本的类别。/n

【技术特征摘要】
1.一种文本分类方法。其特征在于,包括:
通过对文本进行预处理,得到待分类文本,主要从以下两个方面来对文本进行处理:特殊符号的去除、去停用词;
将预处理得到的待分类文本,根据从训练文本中得到的词汇表,通过使用词嵌入工具,将自然语言处理字符转换为字符表示的词向量;
将上述得到的词向量,使用训练好的深度学习模型进行处理,确定待分类文本的类别。


2.根据权利要求1所述的文本分类的方法,其特征在于,特殊符号的去除及去停用词,包括:
特殊符号的去除,从互联网下载的文本或者从网页提取的内容中,经常包括一些特殊符号,对文本的内容表述没有任何影响,本发明使用此“[\n`~!@#$%^&*@#¥%……&*()——+|{}【】‘;:”“’。,、?]”正则表达式去除待分类文本中的特殊符号。
去停用词,去除停用词可以减少文本冗余使文本分类更加准确,如果文档中存在大量停用词容易对文本中的有效信息造成噪音干扰,去除停用词策略能节省储存空间和计算时间并且不影响分类的准确度。本发明去除的停用词主要包括自己收集的包括语气助词、副词、介词、连接词等,这些词自身并无明确的意义,出现频率又极高,如常见的“的”、“在”、“之”等。在进行特征提取过程时,去除停用词表中出现的词,这部分操作也属于特征选择的一部分。


3.根据权利要求2所述的文本分类的方法,其特征在于,根据所述预处理步骤后的文本,构建词汇表和使用词嵌入工具,包括:
构建词汇表,词汇表的构建直接影响词向量的特征提取准确度,并且方便构造相同维度的特征向量,词汇表是在文本中出现的单词列表,为了构建自己的词汇表语料,本发明对所有类别的训练语料,使用python中的Counter工具包,进行词频统计,保留5000个高频词汇作为词汇表。
使用词嵌...

【专利技术属性】
技术研发人员:时翔蔡丽君
申请(专利权)人:中南大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1