一种基于大数据的聚类方法技术

技术编号：18204189 阅读：70 留言：0更新日期：2018-06-13 06:18

本发明专利技术公开了一种基于大数据的聚类方法，包括以下步骤：对新闻D进行分词得到新闻S；判断新闻S是否为第一篇新闻，若是，基于新闻S建立新的类别，若不是，对新闻S建立VSM向量模型，计算新闻S与聚类中心所有类别的相似度；找出与新闻S具有最大相似度的类别C，若新闻S与类别C的相似度大于预设阈值，则将新闻S归类到类别C中，若小于预设阈值，则基于新闻S建立新的类别；计算新闻S与类别C中其他新闻的相似度平均值M1，计算类别C中其他新闻与聚类中心其他新闻的相似度平均值M2，若M1大于M2，则更新新闻S为新聚类中心，否则聚类中心不变；判断当前新闻是否处理完毕，若是，通过预设算法计算新闻热度，提取热点新闻，否则继续下一篇处理。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于大数据的聚类方法
本专利技术涉及聚类分析
，尤其涉及一种基于大数据的聚类方法。
技术介绍
由于Internet在全球范围内快速发展，信息技术日新月异，人们使用的各种的数据正在以爆炸性速度不断增长。大量的数据存储在数据库中，可以应用于政府办公、商业智能、科学研究和项目开发等，但是要想真正地使用这些数据不是件容易的事情。理解数据库中海量数据已经不是人们能力范围之内的事情，如果我们不借助于自动分析手段，那么存储在数据中大量的数据就变成了“数据坟墓”——很难再次访问的数据存档。因为决策者无法从海量数据中人工发掘出有用的知识，其做出的重要决策也就并非基于数据库中的数据，而是基于直觉或者经验。此外，目前的专家系统主要是依靠领域专业人员或者用户将数据手工地输入到目标知识数据库中。令人遗憾的是，这一过程往往会出现误差，并且增加了时间及其他方面的投入成本。因此，人们迫切地需要强有力的数据挖掘技术来解决“数据丰富而知识贫乏”这一消极现象，用以帮助人们从海量的数据中挖掘出有用的知识，发现其中事先存在的关联规则，实现决策的自动化和智能化，并最终在经济、社会等多个层面获得巨大的价值。在此情况下，数据挖掘技术应运而生并且显示出强大的生命力。在分析数据的基础上，数据挖掘手段可以自动发现有趣的知识模式，在商业智能、政府办公、知识库和科学研究等领域中均有望做出巨大贡献。聚类分析是数据挖掘领域最重要的研究方向之一，通过数据分析能够发现有用的信息，其广泛地应用于市场研究、数据分析、模式识别、图像处理、人工智能和web文档分类等领域。在商业智能应用中，聚类分析能够帮助数据挖掘人员分...
一种基于大数据的聚类方法

【技术保护点】
一种基于大数据的聚类方法，其特征在于，包括以下步骤：S1.对新闻D进行分词得到新闻S；S2.判断所述新闻S是否为第一篇新闻，若是，执行S5，若不是则执行S3；S3.对所述新闻S建立VSM向量模型，计算所述新闻S与聚类中心所有类别的相似度；S4.找出与所述新闻S具有最大相似度的类别C，若所述新闻S与所述类别C的相似度大于预设阈值，则将所述新闻S归类到所述类别C中，若小于预设阈值，则执行S5；S5.基于所述新闻S建立新的类别；S6.计算所述新闻S与所述类别C中其他新闻的相似度平均值M1，计算所述类别C中其他新闻与聚类中心其他新闻的相似度平均值M2，若M1大于M2，则更新所述新闻S为新聚类中心，否则聚类中心不变；S7.判断当前新闻是否处理完毕，若是，执行S8，否则执行S1；S8.通过预设算法计算新闻热度，提取热点新闻。

【技术特征摘要】
1.一种基于大数据的聚类方法，其特征在于，包括以下步骤：S1.对新闻D进行分词得到新闻S；S2.判断所述新闻S是否为第一篇新闻，若是，执行S5，若不是则执行S3；S3.对所述新闻S建立VSM向量模型，计算所述新闻S与聚类中心所有类别的相似度；S4.找出与所述新闻S具有最大相似度的类别C，若所述新闻S与所述类别C的相似度大于预设阈值，则将所述新闻S归类到所述类别C中，若小于预设阈值，则执行S5；S5.基于所述新闻S建立新的类别；S6.计算所述新闻S与所述类别C中其他新闻的相似度平均值M1，计算所述类别C中其他新闻与聚类中心其他新闻的相似度平均值M2，若M1大于M2，则更新所述新闻S为新聚类中心，否则聚类中心不变；S7.判断当前新闻是否处理完毕，若是，执行S8，否则执行S1；S8.通过预设算法计算新闻热度，提取热点新闻。2.根据权利要求1所述的一种基于大数据的聚类方法，其特征在于，所述步骤S3还包括：将所述新闻S设置为一个由n维特征组成的向量，所述VSM空间向...

【专利技术属性】
技术研发人员：马萧萧，温大川，吴春才，冯良怀，文斌，杨树海，姚晴麟，
申请(专利权)人：成都东方盛行电子有限责任公司，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人