一种对于文本智能分类的方法技术

技术编号:6983551 阅读:213 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种对于文本智能分类的方法。包括步骤:先准备大量的训练文本集,然后对每篇的文本进行文本分词,接着进行特征项提取并存储,然后对于每个特征项进行权重计算,把该文本转换成文本向量并存储到分类器中,最后形成了特征项集合和分类器集合。把需要确定分类的文本进行分词,默认特征项集合里面的特征都是符合待分类文本,然后进行特征项权重计算,不符合的过滤掉,符合的留下作为该文本的特征。将这些特征项转化成为该文本向量。通过相似度算法将该文本向量和分类器中的向量进行比对,根据相似文本向量来确定该文本的分类所属。本发明专利技术提供了一套有效的方法来使文本的分类提取更加准确,而且在速度上也优于现有的同类技术。

【技术实现步骤摘要】

本专利技术涉及人工智能领域数据挖掘的分类技术,特别涉及应用于互联网产品中对于文本的分类的分类技术。
技术介绍
互联网的迅猛发展导致了网络中的文本数据成指数级的增长,因此如何高效处理这些文本信息成为一个重要的研究课题。而自动分类技术作为文本信息处理中的一个重要环节引起了人们的广泛关注。随着我国的网络普及率越来越高,网络用户越来越多,各种各样的网站中蕴涵着海量的中文信息,这些信息绝大多数是以文本的形式存在着,因此能否准确地对文本进行分类具有非常重要的现实意义。在互联网产品中很多地方也都使用到分类技术,比如在百度知道、天涯知道等产品中都涉及到分类,但是这些产品在使用中都存在分类不准确而且分类速度慢的问题。
技术实现思路
本专利技术针对互联网上的产品在文本分类过程中存在分类不准确和分类速度慢等问题,提供一种对于本文的智能分类的方法。本专利技术的目的是可以实现自动的将某段文本分到某个特定的类别。本专利技术的另一个目的是解决文本分类不够准确的问题和加快提取速度。为此,本专利技术公开了。所述文本智能分类的方法步骤如下步骤一、准备一定数量的训练文本,并将这些训练文本分成多个类别;步骤二、对每一件训练文本通过中文分词算法进行分词,并根据分词的特征属性, 计算各分词的权重值W;步骤三、将所有训练文本中的所有分词的权重值统一进行排序,并取权重值位于前N名的N个分词作为特征项,各特征项均具有自己的权重值Wi (i = 1 N);步骤四、将任意一件训练文本中所有分词与上述N个特征项进行比对,形成文本向量{al,a2, a3…ai…aN},在该文本向量中,未匹配到该件训练文本中的任一个分词的第 i个特征项对应的ai值被定义为一个统一的数值B,而匹配到该件训练文本中的一个分词的第i个特征项对应的ai值被定义为与该第i个特征项的权重值Wi相关的数值;步骤五、建立训练文本向量数据库,其中存储有包含各训练文本的识别码、所属类别和文本向量信息;步骤六、取待分类文本,进行中文算法分词处理,随后根据上述N个特征项形成文本向量;步骤七、将待分类文本的文本向量与训练文本的文本向量进行比较,找出最相似的训练文本,将待分类文本划入最相似的训练文本所属的类别。优选的是,所述的对文本进行智能分类的方法中,在所述步骤二中,分词的特征属性包括分词的词性、词频和词长。优选的是,所述的对文本进行智能分类的方法中,在所述步骤三中,N为1000。优选的是,所述的对文本进行智能分类的方法中,在所述步骤四中,统一的数值B 为0。优选的是,所述的对文本进行智能分类的方法中,在所述步骤四中,与该第i个特征项的权重值Wi相关的数值为相匹配的分词在该件训练文本中出现的频率X该第i个特征项的权重值Wi。优选的是,所述的对文本进行智能分类的方法中,在所述步骤七中,通过余弦相似度算法从训练文本向量数据库中找到最相似的文本向量。优选的是,所述的对文本进行智能分类的方法中,所有文本向量和分词结果均保存在计算机内存中。优选的是,所述的对文本进行智能分类的方法中,所有文本保存为TXT格式。本专利技术的有益效果是可以人工进行训练文本分类数据,也可以采用自动采集数据的方式进行分类训练,在处理获取数据和分类数据的时候,可以配合数据挖掘中的其他算法一起使用比如分类算法、聚类算法,可以做到灵活配置。本专利技术提供了一种针对海量数据进行分类训练的方式,在经过文本搜集、特征提取、文本向量转化等过程后,对于任何一篇文本的分类都能有效的进行分类,应用领域非常广泛。附图说明附图1为该方法的流程图。 具体实施例方式下面结合附图对本专利技术做进一步说明,以使本领域普通技术人员参照本说明书后能够据以实施。如图1所示,本专利技术的,包括如下步骤步骤一、准备一定数量的训练文本,并将这些训练文本分成多个类别,并在系统内存中建立一个文本信息链表LIST<TEXTINFO>m_TextInf0LISt,将所有的文本字符串以TXT 格式保存在内存里,其中TEXTINF0数据类型为public class TextInfo{public Guid id { get; set; } public string Text { get; set; }public string CategoryName { get; set; }}步骤二、在系统中建立分词链表LIST<String>,遍历文本信息链表,对每个文本通过中文分词算法进行分词,并根据分词的词频、词长和词性等属性,计算各分词的权重值W,保存在分词链表中。步骤三、建立分词权重字典Dictionary<string,double>,将每个分词的权重保存在权重字典里,然后根据权重对字典进行升序排序,取出权重值最大的前1000个作为特征项。步骤四、将任意一件训练文本中所有分词与上述1000个特征项进行比对,形成文本向量{3 ,32,33···3 ···3 000},在该文本向量中,未匹配到该件训练文本中的任一个分词的第i个特征项对应的ai值被定义为一个统一的数值0,而匹配到该件训练文本中的一个分词的第i个特征项对应的ai值被定义为与该第i个特征项的权重值Wi相关的数值。例如文本为“明天去北京出差”,转化成文本向量描述为{3,0,1}。步骤五、建立训练文本向量数据库,其中存储有包含各训练文本的识别码、所属类别和文本向量信息。步骤六、取待分类文本,进行中文算法分词处理,随后根据上述1000个特征项进行比对形成文本向量,将这些文本向量保存在数据结构里public class TextVectorpublieGuid id { get; set; }publiestring CatetgoryName { get; set; }publieList<double> VectorList { get; set; }publiedouble simiIarDegree { get; set; }publie TextVector (){CatetgoryName 二 〃〃; VectorList = new List<double> (); similarDegree 二 0.0;}}步骤七、将待分类文本的文本向量与训练文本的文本向量进行比较,通过标准的余弦相似度算法从分类器链表中进行遍历匹配,找出最相似的训练文本,将待分类文本划入最相似的训练文本所属的类别。另一种实现形式是步骤一、搜集大量的训练文集,将所有文本保存为TXT格式,预先设定若干分类,将文本分别保存在不同的分类下。步骤二、在系统内存中建立一个文本信息链表LIST<TEXTINFO>m_TextInfoLIst, 其中TEXTINF0数据类型为public class TextInfopublic Guid id { get; set; } public string Text { get; set; }public string CategoryName { get; set; }} 在该链表中将所有的文本字符串加载到内存里。 步骤三、在系统中建立分词链表LIST<Mring>,遍历文本信息链表,对每个文本通过中文分词算法进行分词,将分词保存在分词链表中。同时建立分词权重字典 本文档来自技高网...

【技术保护点】
1.一种对文本进行智能分类的方法,其特征在于,包括以下步骤:步骤一、准备一定数量的训练文本,并将这些训练文本分成多个类别;步骤二、对每一件训练文本通过中文分词算法进行分词,并根据分词的特征属性,计算各分词的权重值W;步骤三、将所有训练文本中的所有分词的权重值统一进行排序,并取权重值位于前N名的N个分词作为特征项,各特征项均具有自己的权重值Wi(i=1~N);步骤四、将任意一件训练文本中所有分词与上述N个特征项进行比对,形成文本向量{a1,a2,a3…ai…aN},在该文本向量中,未匹配到该件训练文本中的任一个分词的第i个特征项对应的ai值被定义为一个统一的数值B,而匹配到该件训练文本中的一个分词的第i个特征项对应的ai值被定义为与该第i个特征项的权重值Wi相关的数值;步骤五、建立训练文本向量数据库,其中存储有包含各训练文本的识别码、所属类别和文本向量信息;步骤六、取待分类文本,进行中文算法分词处理,随后根据上述N个特征项形成文本向量;步骤七、将待分类文本的文本向量与训练文本的文本向量进行比较,找出最相似的训练文本,将待分类文本划入最相似的训练文本所属的类别。

【技术特征摘要】

【专利技术属性】
技术研发人员:吕福军李军锋李跃海
申请(专利权)人:北京金和软件股份有限公司
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1