一种多模型融合的短文本分类方法技术

技术编号：13124587 阅读：99 留言：0更新日期：2016-04-06 12:15

本发明专利技术公开了一种多模型融合的短文本分类方法，包括学习方法和分类方法两部分；学习方法的步骤包括：对短文本训练数据进行分词、过滤，得到单词集合；计算每个单词的IDF值；计算所有单词的TFIDF值，构建文本向量VSM；基于向量空间模型进行文本学习，构建出本体树模型、关键字重叠模型、朴素贝叶斯模型和支持向量机模型。分类方法的步骤包括：对待分类短文本进行分词、过滤；基于向量空间模型生成文本向量；分别应用本体树模型、关键字重叠模型、朴素贝叶斯模型和支持向量机模型进行分类，得到单一模型分类结果；对单一模型分类结果进行融合，得到最终分类结果。本发明专利技术方法融合了多种分类模型，提高了短文本分类准确率。

全部详细技术资料下载

【技术实现步骤摘要】
【专利说明】
本专利技术属于智能信息处理和计算机
，具体涉及一种短文本分类方法。【
技术介绍
】随着互联网快速发展，各种网络应用深入到社会生活的方方面面。以微博、微信为代表的各种社交应用，以及各种网络评论、反馈机制已经成为现代社会发布和获取信息的重要渠道。在微博上，网民可以表达自己的心情、经历以及感悟，政府可以发布通告和各种信息，人们也可以自由地表达对某些事的观点和见解等等。微博、微信、网络评论等数据都是字数有限的文本信息。这些数据都是典型的文本短文，即短文本。通过对微博类短文本数据进行挖掘，可以获取社会关注热点、群众呼声和意见反馈、突发事件传播、舆论倾向等等影响社会舆情的重要信息，可以为相关部门及时快速地收集传递公民意见和建议。短文本挖掘的一个基本应用就是对短文本进行分类，根据文本内容对文本进行分门别类地汇总。自然语言文本包含着复杂的信息。一篇文本往往可以对应多个分类目标。也就是说，短文本分类是一个复杂的多标签分类问题。解决分类问题常用的方法包括朴素贝叶斯分类、决策树分类、支持向量机分类、神经网络分类等等。但是这些单一分类方法的适应性和分类效果在实践应用中还不能完全满足需求。【
技术实现思路
】本专利技术的目的在于提供，能够对短文本进行比较准确的多标签分类。为了实现上述目的，本专利技术采用如下技术方案： -种多模型融合的短文本分类方法，包括学习方法和分类方法两部分； 1)、学习方法包括以下步骤： (11)对短文本训练数据进行分词、过滤，得到单词集合； (12)计算单词集合中每个单词的IDF值； (13...

【技术保护点】
一种多模型融合的短文本分类方法，其特征在于，包括学习方法和分类方法两部分；1)、学习方法包括以下步骤：(11)对短文本训练数据进行分词、过滤，得到单词集合；(12)计算单词集合中每个单词的IDF值；(13)每一个训练文本求取该文本内所有单词的TFIDF值，然后构建成文本向量，即得到VSM文本向量；(14)基于VSM文本向量进行文本聚类，并由聚类结果构建出本体树模型，然后在本体树基础上构建出关键字重叠模型；基于VSM文本向量构建出朴素贝叶斯模型；基于VSM文本向量构建出支持向量机模型；2)、分类方法包括以下步骤：(21)对待分类文本进行分词、过滤；(22)每一个待分类文本求取该文本内所有单词的TFIDF值，然后构建成文本向量，即得到VSM文本向量；(23)应用学习方法所获得的本体树模型进行文本分类得到其分类结果；应用学习方法所获得的关键字重叠模型进行文本分类得到其分类结果；应用学习方法所获得的朴素贝叶斯模型进行文本分类得到其分类结果；应用学习方法所获得的支持向量机模型进行文本分类得到其分类结果；(24)对上述4种单一模型分类结果进行融合，得到最终分类结果。

【技术特征摘要】

【专利技术属性】
技术研发人员：鲍军鹏，蒋立华，袁瑞玉，骆玉忠，
申请(专利权)人：西安交通大学，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人