文本聚类方法技术

技术编号:15822730 阅读:295 留言:0更新日期:2017-07-15 04:55
本发明专利技术公开了一种文本聚类方法,包括:对待聚类的文本文档进行预处理,包括文本去噪、中文分词、去停用词、特征提取以及文本表示;利用预设聚类方法将经预处理后的文本文档进行聚类,并给出聚类结果;利用预设评估标准对所述聚类结果进行评估。本发明专利技术采用改进的K‑means算法对文本进行聚类,并对聚类结果尽量评估,能够提高聚类结果的准确率,便于快速查找,从而提高了文本聚类的有效性。

【技术实现步骤摘要】
文本聚类方法
本专利技术涉及一种文本聚类方法,具体涉及一种能够提高文本查找效率的文本聚类方法。
技术介绍
由于Internet在全球范围内快速发展,信息技术日新月异,人们使用的各种的数据正在以爆炸性速度不断增长。大量的数据存储在数据库中,可以应用于政府办公、商业智能、科学研究和项目开发等,但是要想真正地使用这些数据不是件容易的事情。理解数据库中海量数据已经不是人们能力范围之内的事情,如果我们不借助于自动分析手段,那么存储在数据中大量的数据就变成了“数据坟墓”——很难再次访问的数据存档。因为决策者无法从海量数据中人工发掘出有用的知识,其做出的重要决策也就并非基于数据库中的数据,而是基于直觉或者经验。此外,目前的专家系统主要是依靠领域专业人员或者用户将数据手工地输入到目标知识数据库中。令人遗憾的是,这一过程往往会出现误差,并且增加了时间及其他方面的投入成本。因此,人们迫切地需要强有力的数据挖掘技术来解决“数据丰富而知识贫乏”这一消极现象,用以帮助人们从海量的数据中挖掘出有用的知识,发现其中事先存在的关联规则,实现决策的自动化和智能化,并最终在经济、社会等多个层面获得巨大的价值。在此情况下,数据挖掘技术应运而生并且显示出强大的生命力。在分析数据的基础上,数据挖掘手段可以自动发现有趣的知识模式,在商业智能、政府办公、知识库和科学研究等领域中均有望做出巨大贡献。聚类分析是数据挖掘领域最重要的研究方向之一,通过数据分析能够发现有用的信息,其广泛地应用于市场研究、数据分析、模式识别、图像处理、人工智能和web文档分类等领域。在商业智能应用中,聚类分析能够帮助数据挖掘人员分析顾客的购买模式,刻画不同顾客群体的特征,从顾客消费信息数据库发现特殊的顾客。在生物学应用中,聚类分析可以用于推测物种的类别信息,根据功能的相关性对基因进行分门别类,从而可以获得对种群原有结构的认识。聚类分析还有助于在识别卫星监测数据库中对使用相关的区域进行识别,根据房屋的价值、类型和具体地理位置对城市中存在的房屋分组识别。与使用其它数据挖掘方法不同,用户在运用聚类分析算法之前并不知道数据集的内容和类别等特征信息,也即聚类分析不需要基于先验知识,是一种无监督的机器学习。目前,大部分数据是以标准文本的格式存储的,在海量但未知信息中如何挖掘出事先未知的有用的知识已经成为学术研究和人们关注的热点问题之一。文本聚类挖掘是在没有先验学习的条件下对文本文档集合进行组织或划分的过程,其基本思想是将相似度较近的文本文档划分到同一个簇中。文本聚类挖掘可以广泛应用于信息检索与文本挖掘等多个方面,在大数量文档集合的查看、组织和自动生成文档集的层次归类等都具有很重要的应用价值。文本聚类效果的好坏会大大影响检索用户目标信息的效率,如与对文档进行顺序组织的方法相比,对文档进行随机聚类的方法并不会提高查找效率而是降低了速度。所以,如何提高文本聚类的有效性成为当前研究的热点问题。
技术实现思路
针对上述技术问题,本专利技术提供一种能够提高文本查找准确率的文本聚类方法。本专利技术采用的技术方案为:本专利技术的实施例提供一种文本聚类方法,包括:S100:文本预处理对待聚类的文本文档进行预处理,包括文本去噪、中文分词、去停用词、特征提取以及文本表示;S200:文本聚类利用预设聚类方法将经预处理后的文本文档进行聚类,并给出聚类结果;S300:聚类结果评估利用预设评估标准对所述聚类结果进行评估。可选地,步骤S100具体包括:S110:去除原始文本文档中跟文本文档实际内容无关的标记;S111:通过中文分词器对经去噪的文档进行分词处理;S112:基于预设的中文停用词表对分词后文档中的停用词进行替换;S113:对去停用词后的每个文档中的每个词的ti-idf值,选取ti-idf值大于特定阈值的特征作为该文档的特征项,每个文档中的每个词的ti-idf值wi通过下述公式(1)确定:wi=fi*log(N/dfi)(1)其中,fi是指词频率,表示第i个词在该文档中出现的次数,dfi是指文档频率,表示文本文档中出现第i个词的文档数目;S114:利用预设模型将经提取特征项后的文本文档表示成特征向量集。可选地,在提取特征之前使用两个变量对文档中的词频信息进行保存,以及利用向量空间模型将经预处理后的文本文档表示成特征向量集。可选地,步骤S200具体包括:利用带孤立点检测改进的K-means算法对所述特征向量集进行聚类,并给出聚类结果的准确率,包括以下步骤:(1)输入包含N个文档的特征向量集X和聚类簇的个数K;(2)采用预设孤立点检测条件对特征向量集中的孤立点进行检测并提取检测到的孤立点;(3)采用预设初始聚类中心确定规则对提取孤立点后的向量集X’中选择K个文档作为初始聚类中心;(4)计算剩余的每个文档与K个簇的相似度,并将其分派到最相似的簇中;(5)重新计算已得到的各个簇的初始聚类中心;(6)重复步骤(4)和(5)直至新的初始聚类中心与原初始聚类中心相等或小于指定阈值,聚类过程结束;(7)计算提取的孤立点与各个簇的相似程度,将每个孤立点放入与其相似程度高的簇中;可选地,所述预设孤立点检测条件为,如果某个文档的标准分数的绝对值大于2,则该文档被检测为孤立点,具体的处理过程如下所示:设point[i][k]表示特征向量集X中的序号为i的文档样本点的第k维度上的值,则样本点i和样本点j之间的欧式距离表示为样本点i到其它所有样本点的距离之和表示为其中d是指样本点的维数;定义1:样本点i的标准分数其中可选地,所述预设初始聚类中心确定规则包括:(1)遍历提取孤立点后的向量集X’中的样本点i到其它样本点的距离之和最大点,记为Oi1;(2)找出距离点Oi1最远的点Oi2;(3)把距Oi2点距离小于等于第N/K个小元素的点(也就是距离Oi2点较近的N/K个点)划分为簇i;(4)从特征向量集X’中删除已归为簇i的数据对象,并求出i簇的中心点;(5)把特征向量集X’中剩下的样本归到簇K中,同时也求出簇K的聚类中心。可选地,在步骤S300中,基于目标函数的评估标准和基于人工判定的评估标准来对所述聚类结果进行评估。可选地,所述基于目标函数的评估标准通过计算标准误差指标sse来对所述聚类结果进行评估,所述标准误差指标sse通过下述公式(2)来确定:其中,Pij是指属于簇j的文档i,Cj是指簇j的聚类中心,Nj是指簇j中文档的数目,K是指簇的数目。可选地,基于人工判定的评估标准来对所述聚类结果进行评估包括:(1)扫描数据集,把类标号相同的数据集中放一起,记录类标号不同的分割点;(2)对聚类后的类标号按照步骤(1)的分隔点进行分隔;(3)统计每个类中的众数;(4)分别统计每个簇中分类号与该簇众数不相同的文档,然后对这些文档数目进行求和,计为errorNUM;(5)计算准确率correctRate=(N-errorNUM)/N,其中N表示整个数据集中文档的数目。本专利技术的文本聚类方法包括对文本进行预处理,在预处理后采用改进的K-means算法对文本进行聚类,并对聚类结果尽量评估,能够提高聚类结果的准确率,便于快速查找,从而提高了文本聚类的有效性。附图说明图1为本专利技术的文本聚类方法的流程示意图。图2为本专利技术的文本聚类系统的流程示意图。图3为本专利技术实施例中本文档来自技高网
...
文本聚类方法

【技术保护点】
一种文本聚类方法,其特征在于,包括:S100:文本预处理对待聚类的文本文档进行预处理,包括文本去噪、中文分词、去停用词、特征提取以及文本表示;S200:文本聚类利用预设聚类方法将经预处理后的文本文档进行聚类,并给出聚类结果;S300:聚类结果评估利用预设评估标准对所述聚类结果进行评估。

【技术特征摘要】
1.一种文本聚类方法,其特征在于,包括:S100:文本预处理对待聚类的文本文档进行预处理,包括文本去噪、中文分词、去停用词、特征提取以及文本表示;S200:文本聚类利用预设聚类方法将经预处理后的文本文档进行聚类,并给出聚类结果;S300:聚类结果评估利用预设评估标准对所述聚类结果进行评估。2.根据权利要求1所述的文本聚类方法,其特征在于,步骤S100具体包括:S110:去除原始文本文档中跟文本文档实际内容无关的标记;S111:通过中文分词器对经去噪的文档进行分词处理;S112:基于预设的中文停用词表对分词后文档中的停用词进行替换;S113:对去停用词后的每个文档中的每个词的ti-idf值,选取ti-idf值大于特定阈值的特征作为该文档的特征项,每个文档中的每个词的ti-idf值wi通过下述公式(1)确定:wi=fi*log(N/dfi)(1)其中,fi是指词频率,表示第i个词在该文档中出现的次数,dfi是指文档频率,表示文本文档中出现第i个词的文档数目;S114:利用预设模型将经提取特征项后的文本文档表示成特征向量集。3.根据权利要求2所述的文本聚类方法,其特征在于,在提取特征之前使用两个变量对文档中的词频信息进行保存,以及利用向量空间模型将经预处理后的文本文档表示成特征向量集。4.根据权利要求3所述的文本聚类方法,其特征在于,步骤S200具体包括:利用带孤立点检测改进的K-means算法对所述特征向量集进行聚类,并给出聚类结果的准确率,包括以下步骤:(1)输入包含N个文档的特征向量集X和聚类簇的个数K;(2)采用预设孤立点检测条件对特征向量集中的孤立点进行检测并提取检测到的孤立点;(3)采用预设初始聚类中心确定规则对提取孤立点后的向量集X’中选择K个文档作为初始聚类中心;(4)计算剩余的每个文档与K个簇的相似度,并将其分派到最相似的簇中;(5)重新计算已得到的各个簇的初始聚类中心;(6)重复步骤(4)和(5)直至新的初始聚类中心与原初始聚类中心相等或小于指定阈值,聚类过程结束;(7)计算提取的孤立点与各个簇的相似程度,将每个孤立点放入与其相似程度高的簇中;5.根据权利...

【专利技术属性】
技术研发人员:刘希张今宓黄毅
申请(专利权)人:国信优易数据有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1