一种基于特征扩展的中文短文本分类方法技术

技术编号:8387212 阅读:315 留言:0更新日期:2013-03-07 07:52
本发明专利技术提供一种基于特征扩展的中文短文本分类方法,包括:步骤(1)建立背景知识库:从带有类别标注的长文本语料库中挖掘满足一定约束条件的特征词的二元组来生成背景知识库;步骤(2)扩展训练集中的短文本:根据背景知识库中的二元组,按照一定的扩展规则对训练集中的短文本添加扩展词;步骤(3)建立分类模型:用经过扩展的短文本训练集建立SVM分类模型;步骤(4)扩展待分类的短文本:根据背景知识库中的二元组和分类模型的特征空间,按照一定的扩展规则对待分类的短文本添加扩展词;步骤(5)产生分类结果:利用分类模型和扩展后的短文本来产生分类结果。本发明专利技术利用长文本语料库来丰富短文本的特征,提高了短文本分类的准确率和召回率。

【技术实现步骤摘要】

本专利技术涉及文本分类系统的
,特别涉及。
技术介绍
根据统计,在电子信息数据中,大约有80%的数据是以非结构化的文本文件形式而存在着。在互联网上,不仅文本数据是最为普遍的数据存储形式,而且视频、音频及图片等数据的搜索都有与之相关联的文本数据。文本分类为处理和组织海量文本数据的关键技术,可以比较有效地解决信息杂乱的问题,方便了用户准确地定位所需的信息和分流信息。传统的文本分类系统主要采用KNN, SVM等分类方法,能在长文本分类应用中获得很好的分类效果。 随着互联网的继续发展,短文本信息开始大量出现,例如论坛的留言、新闻标题、社交网络的状态、即时消息、微博等等,这些短文本信息是大家日常交流通讯中所必不可少的信息形式,它们的共同特点是信息长度较短、表述内容丰富、组合比较灵活、内容长短不定、数据规模很大。由于短文本的特征离散且长度较短,所以传统的文本分类方法直接应用到短文本语料集上时并不能取得可与长文本语料集上相比拟的分类效果。通过丰富短文本所携带的特征量,能够有效地提高短文本分类的准确率和召回率。
技术实现思路
本专利技术要解决的技术问题为克服现有技术的不足,提供,该系统通过从长文本文档来自技高网...

【技术保护点】
一种基于特征扩展的中文短文本分类方法,其特征在于:该方法具体步骤如下:步骤(1)、建立背景知识库:根据长文本语料库,利用改进的Apriori算法挖掘出具有共现在关系和相同类别趋向性的特征词的二元组,从而建立背景知识库;步骤(2)、扩展训练集中的短文本:利用步骤(1)中生成的背景知识库作为扩展库,对于短文本中的每个原始词,从背景知识库寻找与该词相关联的所有词,然后将这些词作为扩展词对短文本进行存在性扩展;步骤(3)、建立分类模型:从经过扩展的短文本训练中提取有用特征,获得特征空间,再将每个扩展后的短文本转换为该特征空间上的向量表示,最后用这些向量作为训练集来建立SVM分类模型;步骤(4)、扩展待...

【技术特征摘要】

【专利技术属性】
技术研发人员:欧阳元新罗建辉刘文琦熊璋
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1