一种多模型融合的短文本分类方法技术

技术编号:13124587 阅读:99 留言:0更新日期:2016-04-06 12:15
本发明专利技术公开了一种多模型融合的短文本分类方法,包括学习方法和分类方法两部分;学习方法的步骤包括:对短文本训练数据进行分词、过滤,得到单词集合;计算每个单词的IDF值;计算所有单词的TFIDF值,构建文本向量VSM;基于向量空间模型进行文本学习,构建出本体树模型、关键字重叠模型、朴素贝叶斯模型和支持向量机模型。分类方法的步骤包括:对待分类短文本进行分词、过滤;基于向量空间模型生成文本向量;分别应用本体树模型、关键字重叠模型、朴素贝叶斯模型和支持向量机模型进行分类,得到单一模型分类结果;对单一模型分类结果进行融合,得到最终分类结果。本发明专利技术方法融合了多种分类模型,提高了短文本分类准确率。

【技术实现步骤摘要】
【专利说明】
本专利技术属于智能信息处理和计算机
,具体涉及一种短文本分类方法。 【
技术介绍
】 随着互联网快速发展,各种网络应用深入到社会生活的方方面面。以微博、微信为 代表的各种社交应用,以及各种网络评论、反馈机制已经成为现代社会发布和获取信息的 重要渠道。在微博上,网民可以表达自己的心情、经历以及感悟,政府可以发布通告和各种 信息,人们也可以自由地表达对某些事的观点和见解等等。 微博、微信、网络评论等数据都是字数有限的文本信息。这些数据都是典型的文本 短文,即短文本。通过对微博类短文本数据进行挖掘,可以获取社会关注热点、群众呼声和 意见反馈、突发事件传播、舆论倾向等等影响社会舆情的重要信息,可以为相关部门及时快 速地收集传递公民意见和建议。 短文本挖掘的一个基本应用就是对短文本进行分类,根据文本内容对文本进行分 门别类地汇总。自然语言文本包含着复杂的信息。一篇文本往往可以对应多个分类目标。也 就是说,短文本分类是一个复杂的多标签分类问题。解决分类问题常用的方法包括朴素贝 叶斯分类、决策树分类、支持向量机分类、神经网络分类等等。但是这些单一分类方法的适 应性和分类效果在实践应用中还不能完全满足需求。 【
技术实现思路
】 本专利技术的目的在于提供,能够对短文本进行比 较准确的多标签分类。 为了实现上述目的,本专利技术采用如下技术方案: -种多模型融合的短文本分类方法,包括学习方法和分类方法两部分; 1)、学习方法包括以下步骤: (11)对短文本训练数据进行分词、过滤,得到单词集合; (12)计算单词集合中每个单词的IDF值; (13)每一个训练文本求取该文本内所有单词的TFIDF值,然后构建成文本向量,即 得到VSM文本向量; (14)基于VSM文本向量进行文本聚类,并由聚类结果构建出本体树模型,然后在本 体树基础上构建出关键字重叠模型;基于VSM文本向量构建出朴素贝叶斯模型;基于VSM文 本向量构建出支持向量机模型; 2)、分类方法包括以下步骤: (21)对待分类文本进行分词、过滤; (22)每一个待分类文本求取其所有单词的TFIDF值,然后构建成文本向量,即得到 VSM文本向量; (23)应用学习方法所获得的本体树模型进行文本分类得到其分类结果;应用学习 方法所获得的关键字重叠模型进行文本分类得到其分类结果;应用学习方法所获得的朴素 贝叶斯模型进行文本分类得到其分类结果;应用学习方法所获得的支持向量机模型进行文 本分类得到其分类结果; (24)对上述4种单一模型分类结果进行融合,得到最终分类结果。 进一步的,学习方法第(11)步对文本进行分词、过滤具体包括以下步骤: (111)对文本数据,用中文分词工具进行分词,将每一个句子分割成一系列单词及 其词性; (112)对每个单词按照其词性进行过滤,滤除不需要的单词,共有两种过滤机制。 第一种过滤机制不需要的单词包括:停用词,长度为1的单词,纯数字以及以数字开头的单 词。保留的单词包括:名词、机构团体名、其它专名、名词性惯用语、名词性语素、动词、名动 词、趋向动词、形式动词、不及物动词(内动词)、动词性惯用语、动词性语素。第二种过滤机 制不需要的单词包括:代词、量词、介词、连词、助词、叹词、语气词、拟声词、标点符号; (113)由所有文本数据过滤后的单词生成单词集合。 进一步的,构建关键字重叠模型具体包括以下步骤: (141)对同一类别的文本训练数据用TBC方法进行聚类; (142)合并聚类结果中的小簇,合并后的簇心向量为被合并训练短文本向量的平 均值; (143)重复(141)和(142),直到所有类别都完成; (144)由聚类结果生成本体树模型;一个类别的聚类结果,对应着一个子树;在该 子树中,父节点是类别名称,下一层是簇标签节点,与聚类得到的簇一一对应,簇标签节点 由簇心向量前m(m默认值为50)个权重最大的词语及其权重组成,叶子节点则对应该簇中原 始的训练短文本;构建本体树的抽象根节点root,所有类别的子树作为root的子节点;得到 并保存本体树模型; (145)由本体树生成关键字重叠模型;统计一个类别中所有簇标签中单词的出现 次数,并从大到小进行排序;按照下式计算类别c冲关键词k的局部权重W(Cl,tj): 其中,f(Ci,tj)表示关键词tj在类别Ci中的排位次序;类别Ci中出现最多的关键词 排位为〇,出现次多的关键词排位为1,依次类推;m表示类别(^的中不同单词的数目,b(b默 认值为0.2)为用户设置的系统参数; 然后统计关键词k在所有类别中的次数,根据下式计算关键词h的全局权重w(tj) 其中,f(tj表示关键词k在多少个类别中出现过,N表示所有不同单词的数目;记 录每个关键词在每个类别中的局部权重,及其全局权重,保存为关键字重叠模型; 构建朴素贝叶斯模型具体包括以下步骤: (151)对于所有训练文本统计分别每个类别的出现概率P(Cl),其中Cl表示一个类 别; (152)对单词集中的每一个单词,统计该单词在每个类别出现概率P(k I Cl),其中 Ci表不一个类别,tj表不一个单词; (153)将上述类别和单词所对应的概率值保存到文件中,构成朴素贝叶斯模型; 构建支持向量机模型具体包括以下步骤: (161)把训练数据转换成支持向量机软件包1^131^11册#斤需数据格式; (162)利用LibLinear训练支持向量机模型; (163)将训练结果保存为支持向量机模型。进一步的,TBC方法具体包括以下步骤: (1411)取第一条数据单独为一个簇,并作为簇中心; (1412)依次取后续数据并计算该数据与当前所有簇中心的余弦相似性;如果该相 似度大于给定阈值(默认值为0.09)则将该数据放入与其相似度最大的簇中,并调整该簇中 心;如果该相似度小于给定阈值则将该数据单独生成一个簇,并作为簇中心; (1413)按照上述过程把所有数据处理完之后,再次遍历所有数据,依次取一条数 据,计算该数据与当前所有簇中心的余弦相似度,然后将该数据放入与其最相似的簇中;如 此处理完一遍所有数据并调整当前所有的簇中心; (1414)如果簇中心有变化,则重复过程(1413)直至簇中心不再变化为止;当簇中 心不再变化时,聚类结束。 进一步的,应用学习方法所获得的本体树模型进行文本分类得到其分类结果,具 体包括以下步骤: (231)计算待分类文本向量与本体树中簇标签的余弦相似度; (232)按照相似度从大到小进行排序; (233)选择相似度最大的前k(k默认值为20)个簇标签;这些簇标签父节点所标记 类别即为待分类文本类别; (234)相似度最大者所对应类别强度值记为20,次大者对应类别强度值减小1,后 续者依次减1; 应用学习方法所获得的关键字重叠模型进行文本分类得到其分类结果;具体包括 以下步骤: (241)在关键词重叠模型中,按照下式计算待分类文本T属于类别(^的权重v(T, Ci): 其中,τ= ,表示待分类文本的VSM向量;w(ci,tj)表示关键词重叠 模型中关键词k对类别Cl的局部权重;w(tj表示关键词重叠模型中关键词k的全局权重; (242)重复(241),计算待分类文本对所有类别的权重; (243)按照权重从大到小进行排本文档来自技高网...

【技术保护点】
一种多模型融合的短文本分类方法,其特征在于,包括学习方法和分类方法两部分;1)、学习方法包括以下步骤:(11)对短文本训练数据进行分词、过滤,得到单词集合;(12)计算单词集合中每个单词的IDF值;(13)每一个训练文本求取该文本内所有单词的TFIDF值,然后构建成文本向量,即得到VSM文本向量;(14)基于VSM文本向量进行文本聚类,并由聚类结果构建出本体树模型,然后在本体树基础上构建出关键字重叠模型;基于VSM文本向量构建出朴素贝叶斯模型;基于VSM文本向量构建出支持向量机模型;2)、分类方法包括以下步骤:(21)对待分类文本进行分词、过滤;(22)每一个待分类文本求取该文本内所有单词的TFIDF值,然后构建成文本向量,即得到VSM文本向量;(23)应用学习方法所获得的本体树模型进行文本分类得到其分类结果;应用学习方法所获得的关键字重叠模型进行文本分类得到其分类结果;应用学习方法所获得的朴素贝叶斯模型进行文本分类得到其分类结果;应用学习方法所获得的支持向量机模型进行文本分类得到其分类结果;(24)对上述4种单一模型分类结果进行融合,得到最终分类结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:鲍军鹏蒋立华袁瑞玉骆玉忠
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1