基于修正的K近邻文本分类方法技术

技术编号:5466497 阅读:284 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于修正的K近邻文本分类方法,包括文本预处理,首先对训练文本集合中的每一个文档进行分词,去除停用词,将文本进行项目化表示;文本特征选择,然后对文本向量降维,选择尽可能少且与文档主题概念密切相关的文档特征;最后利用基于偏差的K近邻文本分类算法构建分类器进行分类,得到分类结果。该方法分类结果准确。

【技术实现步骤摘要】
基于修正的K近邻文本分类方法
本专利技术属于电子资源信息分类和检索领域,涉及一种非结构化文本分类和管理方 法,具体地说是一种基于修正的K近邻文本分类方法。
技术介绍
近年来,随着信息技术的迅速发展,特别是互联网的普及和数据库的大规模应用, 网上的电子资源信息急剧增加,面对信息爆炸和信息多元化,如何有效地组织和管理这些 海量信息,并且快速、准确地获得自己需要的、真正感兴趣的信息已成为当前一大难题。文 本分类技术作为组织和处理大量电子资源信息的关键技术,将有助于信息检索和分析,方 便用户快速、准确地定位所需要的信息。文本分类是指按照预先定义的主题类别,根据信息内容将不同的信息划分到与其 相关的类别中。文本分类技术研究始于50年代末,美国IBM公司的H. P. Luhn首先提出 了基于词频统计的文本分类算法,对文本分类技术进行可行性研究。20世纪60年代至80 年代末,知识工程技术是这段时期最主要最有效的内容文本分类系统,主要使用人工的方 法来构建分类器,这样既耗费人力物力,又容易出现人为错误。20世纪90年代以后,随着 互联网技术的飞速发展,基于统计理论和机器学习方法成为主流的文本分类技术,主要包 括决策树方法、神经网络方法、遗传算法、贝叶斯分类、K近邻、最小二乘拟合方法、粗糙集方 法、模糊集方法、支持向量机等等。K近邻是最早应用于自动文本分类的机器学习算法之一,其分类思想是取待分 类文文本S的K个近邻,看这K个近邻中多数属于哪一类,就将S归于该类。该种规则中显 然存在一个问题当样本分布密度不不均勻时,只按照前K个近邻样本的顺序而不考虑它 们的距离差别,一般K近邻存在倾向于大类的分类决策,将会降低分类器的分类性能。
技术实现思路
鉴于K近邻对样本不均勻数据存在较大的偏差,本专利技术的目的是提供一种基于修 正的K近邻文本分类方法,该算法首先对训练文本集合中的每一个文档进行分词,去除停 用词,将文本进行项目化表示,然后需要对文本向量降维,选择尽可能少且与文档主题概念 密切相关的文档特征,最后利用基于偏差的K近邻文本分类算法构建分类器,分类结果准 确。本专利技术的目的是通过以下技术方案来实现的一种基于修正的K近邻文本分类方法,其特征在于该方法首先对训练文本集合中的 每一个文档进行分词,去除停用词,将文本进行项目化表示,然后对文本向量降维,选择尽 可能少且与文档主题概念密切相关的文档特征,最后利用基于偏差的K近邻文本分类算法 构建分类器进行分类,得到分类结果,具体步骤如下1)文本预处理;搜集文本并进行预处理,包括处理文本乱码及非文本内容分词并去停 用词,删除非相关文本;2)文本特征选择,应该选择尽可能少而准确且与文档主题概念密切相关的文档特征进 行文本分类;用文本预处理的结果组成一个文本向量来表征文本,然后根据规则从高维的 特征空间中选取对文档分类影响最大的特征子集来提高文本分类的时间和空间效率;3)文本分类;由于K近邻文本分类方法存在当样本分布密度不不均勻时K近邻存在倾 向于大类的分类决策,采用基于修正的K近邻文本分类方法进行分类。本专利技术在文本特征选择时,构造一个特征函数对特征词进行打分,然后按照分值 的高低将特征词排序,最后通过设定的阈值仅保留分值高于阈值的特征词。常见的特征选 择方法有信息增益、互信息、C1统计量、特征权等方法,本专利技术中主要采用C1统计量的方 法。本专利技术首先对训练文本集合中的每一个文档进行分词,去除停用词,将文本进行 项目化表示,然后需要对文本向量降维,选择尽可能少且与文档主题概念密切相关的文档 特征,最后利用基于偏差的K近邻文本分类算法构建分类器进行分类,分类结果准确。附图说明图1为本专利技术的整体框架图。具体实施方式一种本专利技术所述的的基于修正的K近邻文本分类方法,该方法首先对训练文本集 合中的每一个文档进行分词,去除停用词,将文本进行项目化表示,然后对文本向量降维, 选择尽可能少且与文档主题概念密切相关的文档特征,最后利用基于偏差的K近邻文本分 类算法构建分类器进行分类,得到分类结果,1)文本预处理;搜集文本并进行预处理,包括处理文本乱码及非文本内容分词并去 停用词,删除非相关文本;由于文本预处理不是本专利技术的重点,所以就不再详述。2)文本特征选择,应该选择尽可能少而准确且与文档主题概念密切相关的文档特 征进行文本分类;用文本预处理的结果组成一个文本向量来表征文本,然后根据规则从高 维的特征空间中选取对文档分类影响最大的特征子集来提高文本分类的时间和空间效率。在文本特征选择时,构造一个特征函数对特征词进行打分,然后按照分值的高低 将特征词排序,最后通过设定的阈值仅保留分值高于阈值的特征词。3)文本分类;由于K近邻文本分类方法存在当样本分布密度不不均勻时K近邻存 在倾向于大类的分类决策,采用基于修正的K近邻文本分类方法进行分类。常见的特征选 择方法有信息增益、互信息、C2统计量、特征权等方法,本专利技术中采用C2统计量的方法。在文本预处理的基础上主要C2统计量来衡量特征词r和类别c之间的权重关系,根据 阀值选取对文本分类影响较大的特征词,最后在此基础上采用修正的文本分类方法完成文 本分类,具体实施步骤如下所示步骤1 由于C2统计量的方法充分考虑了特征词和文本类别之间的关系,所以该方法 使得所找出来的特征词对文本类别的判定有更大的帮助,在文本训练集合较大的情况下, 该方法有很好的稳定性,所以选取该方法来完成文本特征选择。令^为训练文本集中特征 词妒和类c同时出现的次数·β为特征词妒出现而类c不出现的次数f为特征词r不出现其中si为测试文本集合的特征向量,为其他文本,M为特征向量的维数,/fii为文本 向量W的第左维。 步骤4:为了能够修正K近邻分类器,为每个类别 赋予一个权重衬,其中权重大 小与根据文本类别的大小进行调整,如果文本类别大,则相对的调小一些该权重,否则调大 一些该权重,则调整后的相似度技术公式如公式(4)所示 步骤4 找出测试文本si的最大的K个最相似邻居,计算每个文本类别的权重,计算公 式如公式(5)所示权利要求1.一种基于修正的K近邻文本分类方法,其特征在于该方法首先对训练文本集合中 的每一个文档进行分词,去除停用词,将文本进行项目化表示,然后对文本向量降维,选择 尽可能少且与文档主题概念密切相关的文档特征,最后利用基于偏差的K近邻文本分类算 法构建分类器,得到分类结果,具体步骤如下1)文本预处理;搜集文本并进行预处理,包括处理文本乱码及非文本内容分词并去停 用词,删除非相关文本;2)文本特征选择,应该选择尽可能少而准确且与文档主题概念密切相关的文档特征进 行文本分类;用文本预处理的结果组成一个文本向量来表征文本,然后根据规则从高维的 特征空间中选取对文档分类影响最大的特征子集来提高文本分类的时间和空间效率;3)文本分类;由于K近邻文本分类方法存在当样本分布密度不不均勻时K近邻存在倾 向于大类的分类决策,采用基于修正的K近邻文本分类方法进行分类。2.根据权利要求1所述的基于修正的K近邻文本分类方法,其特征在于步骤2)中,文 本特征选择时,构造一个特征函数对特征词进行打分,然后按照分值的高低将特征词排序, 最后通过设定的阈值仅保留分值高于阈值的特征词。全文摘要本专利技术公开了一种基于修正的K本文档来自技高网
...

【技术保护点】
一种基于修正的K近邻文本分类方法,其特征在于:该方法首先对训练文本集合中的每一个文档进行分词,去除停用词,将文本进行项目化表示,然后对文本向量降维,选择尽可能少且与文档主题概念密切相关的文档特征,最后利用基于偏差的K近邻文本分类算法构建分类器,得到分类结果,具体步骤如下:1)文本预处理;搜集文本并进行预处理,包括处理文本乱码及非文本内容分词并去停用词,删除非相关文本;2)文本特征选择,应该选择尽可能少而准确且与文档主题概念密切相关的文档特征进行文本分类;用文本预处理的结果组成一个文本向量来表征文本,然后根据规则从高维的特征空间中选取对文档分类影响最大的特征子集来提高文本分类的时间和空间效率;3)文本分类;由于K近邻文本分类方法存在当样本分布密度不不均匀时K近邻存在倾向于大类的分类决策,采用基于修正的K近邻文本分类方法进行分类。

【技术特征摘要】

【专利技术属性】
技术研发人员:曹杰伍之昂王有权方仓健
申请(专利权)人:南京财经大学
类型:发明
国别省市:84

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1