一种对于文本智能分类的方法技术

技术编号:6983551 阅读:238 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种对于文本智能分类的方法。包括步骤:先准备大量的训练文本集,然后对每篇的文本进行文本分词,接着进行特征项提取并存储,然后对于每个特征项进行权重计算,把该文本转换成文本向量并存储到分类器中,最后形成了特征项集合和分类器集合。把需要确定分类的文本进行分词,默认特征项集合里面的特征都是符合待分类文本,然后进行特征项权重计算,不符合的过滤掉,符合的留下作为该文本的特征。将这些特征项转化成为该文本向量。通过相似度算法将该文本向量和分类器中的向量进行比对,根据相似文本向量来确定该文本的分类所属。本发明专利技术提供了一套有效的方法来使文本的分类提取更加准确,而且在速度上也优于现有的同类技术。

【技术实现步骤摘要】

本专利技术涉及人工智能领域数据挖掘的分类技术,特别涉及应用于互联网产品中对于文本的分类的分类技术。
技术介绍
互联网的迅猛发展导致了网络中的文本数据成指数级的增长,因此如何高效处理这些文本信息成为一个重要的研究课题。而自动分类技术作为文本信息处理中的一个重要环节引起了人们的广泛关注。随着我国的网络普及率越来越高,网络用户越来越多,各种各样的网站中蕴涵着海量的中文信息,这些信息绝大多数是以文本的形式存在着,因此能否准确地对文本进行分类具有非常重要的现实意义。在互联网产品中很多地方也都使用到分类技术,比如在百度知道、天涯知道等产品中都涉及到分类,但是这些产品在使用中都存在分类不准确而且分类速度慢的问题。
技术实现思路
本专利技术针对互联网上的产品在文本分类过程中存在分类不准确和分类速度慢等问题,提供一种对于本文的智能分类的方法。本专利技术的目的是可以实现自动的将某段文本分到某个特定的类别。本专利技术的另一个目的是解决文本分类不够准确的问题和加快提取速度。为此,本专利技术公开了。所述文本智能分类的方法步骤如下步骤一、准备一定数量的训练文本,并将这些训练文本分成多个类别;步骤二、对每一件训练文本文档来自技高网...

【技术保护点】
1.一种对文本进行智能分类的方法,其特征在于,包括以下步骤:步骤一、准备一定数量的训练文本,并将这些训练文本分成多个类别;步骤二、对每一件训练文本通过中文分词算法进行分词,并根据分词的特征属性,计算各分词的权重值W;步骤三、将所有训练文本中的所有分词的权重值统一进行排序,并取权重值位于前N名的N个分词作为特征项,各特征项均具有自己的权重值Wi(i=1~N);步骤四、将任意一件训练文本中所有分词与上述N个特征项进行比对,形成文本向量{a1,a2,a3…ai…aN},在该文本向量中,未匹配到该件训练文本中的任一个分词的第i个特征项对应的ai值被定义为一个统一的数值B,而匹配到该件训练文本中的一个分...

【技术特征摘要】

【专利技术属性】
技术研发人员:吕福军李军锋李跃海
申请(专利权)人:北京金和软件股份有限公司
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1