文本聚类方法技术

技术编号：15822730 阅读：295 留言：0更新日期：2017-07-15 04:55

本发明专利技术公开了一种文本聚类方法，包括：对待聚类的文本文档进行预处理，包括文本去噪、中文分词、去停用词、特征提取以及文本表示；利用预设聚类方法将经预处理后的文本文档进行聚类，并给出聚类结果；利用预设评估标准对所述聚类结果进行评估。本发明专利技术采用改进的K‑means算法对文本进行聚类，并对聚类结果尽量评估，能够提高聚类结果的准确率，便于快速查找，从而提高了文本聚类的有效性。

全部详细技术资料下载

【技术实现步骤摘要】
文本聚类方法
本专利技术涉及一种文本聚类方法，具体涉及一种能够提高文本查找效率的文本聚类方法。
技术介绍
由于Internet在全球范围内快速发展，信息技术日新月异，人们使用的各种的数据正在以爆炸性速度不断增长。大量的数据存储在数据库中，可以应用于政府办公、商业智能、科学研究和项目开发等，但是要想真正地使用这些数据不是件容易的事情。理解数据库中海量数据已经不是人们能力范围之内的事情，如果我们不借助于自动分析手段，那么存储在数据中大量的数据就变成了“数据坟墓”——很难再次访问的数据存档。因为决策者无法从海量数据中人工发掘出有用的知识，其做出的重要决策也就并非基于数据库中的数据，而是基于直觉或者经验。此外，目前的专家系统主要是依靠领域专业人员或者用户将数据手工地输入到目标知识数据库中。令人遗憾的是，这一过程往往会出现误差，并且增加了时间及其他方面的投入成本。因此，人们迫切地需要强有力的数据挖掘技术来解决“数据丰富而知识贫乏”这一消极现象，用以帮助人们从海量的数据中挖掘出有用的知识，发现其中事先存在的关联规则，实现决策的自动化和智能化，并最终在经济、社会等多个层面获得巨大的价值。在此情况下，数据挖掘技术应运而生并且显示出强大的生命力。在分析数据的基础上，数据挖掘手段可以自动发现有趣的知识模式，在商业智能、政府办公、知识库和科学研究等领域中均有望做出巨大贡献。聚类分析是数据挖掘领域最重要的研究方向之一，通过数据分析能够发现有用的信息，其广泛地应用于市场研究、数据分析、模式识别、图像处理、人工智能和web文档分类等领域。在商业智能应用中，聚类分析能够帮助数据挖掘人员...
文本聚类方法

【技术保护点】
一种文本聚类方法，其特征在于，包括：S100：文本预处理对待聚类的文本文档进行预处理，包括文本去噪、中文分词、去停用词、特征提取以及文本表示；S200：文本聚类利用预设聚类方法将经预处理后的文本文档进行聚类，并给出聚类结果；S300：聚类结果评估利用预设评估标准对所述聚类结果进行评估。

【技术特征摘要】
1.一种文本聚类方法，其特征在于，包括：S100：文本预处理对待聚类的文本文档进行预处理，包括文本去噪、中文分词、去停用词、特征提取以及文本表示；S200：文本聚类利用预设聚类方法将经预处理后的文本文档进行聚类，并给出聚类结果；S300：聚类结果评估利用预设评估标准对所述聚类结果进行评估。2.根据权利要求1所述的文本聚类方法，其特征在于，步骤S100具体包括：S110：去除原始文本文档中跟文本文档实际内容无关的标记；S111：通过中文分词器对经去噪的文档进行分词处理；S112：基于预设的中文停用词表对分词后文档中的停用词进行替换；S113：对去停用词后的每个文档中的每个词的ti-idf值，选取ti-idf值大于特定阈值的特征作为该文档的特征项，每个文档中的每个词的ti-idf值wi通过下述公式(1)确定：wi＝fi*log(N/dfi)(1)其中，fi是指词频率，表示第i个词在该文档中出现的次数，dfi是指文档频率，表示文本文档中出现第i个词的文档数目；S114：利用预设模型将经提取特征项后的文本文档表示成特征向量集。3.根据权利要求2所述的文本聚类方法，其特征在于，在提取特征之前使用两个变量对文档中的词频信息进行保存，以及利用向量空间模型将经预处理后的文本文档表示成特征向量集。4.根据权利要求3所述的文本聚类方法，其特征在于，步骤S200具体包括：利用带孤立点检测改进的K-means算法对所述特征向量集进行聚类，并给出聚类结果的准确率，包括以下步骤：(1)输入包含N个文档的特征向量集X和聚类簇的个数K；(2)采用预设孤立点检测条件对特征向量集中的孤立点进行检测并提取检测到的孤立点；(3)采用预设初始聚类中心确定规则对提取孤立点后的向量集X’中选择K个文档作为初始聚类中心；(4)计算剩余的每个文档与K个簇的相似度，并将其分派到最相似的簇中；(5)重新计算已得到的各个簇的初始聚类中心；(6)重复步骤(4)和(5)直至新的初始聚类中心与原初始聚类中心相等或小于指定阈值，聚类过程结束；(7)计算提取的孤立点与各个簇的相似程度，将每个孤立点放入与其相似程度高的簇中；5.根据权利...

【专利技术属性】
技术研发人员：刘希，张今宓，黄毅，
申请(专利权)人：国信优易数据有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人