一种基于大数据的聚类方法技术

技术编号:18204189 阅读:70 留言:0更新日期:2018-06-13 06:18
本发明专利技术公开了一种基于大数据的聚类方法,包括以下步骤:对新闻D进行分词得到新闻S;判断新闻S是否为第一篇新闻,若是,基于新闻S建立新的类别,若不是,对新闻S建立VSM向量模型,计算新闻S与聚类中心所有类别的相似度;找出与新闻S具有最大相似度的类别C,若新闻S与类别C的相似度大于预设阈值,则将新闻S归类到类别C中,若小于预设阈值,则基于新闻S建立新的类别;计算新闻S与类别C中其他新闻的相似度平均值M1,计算类别C中其他新闻与聚类中心其他新闻的相似度平均值M2,若M1大于M2,则更新新闻S为新聚类中心,否则聚类中心不变;判断当前新闻是否处理完毕,若是,通过预设算法计算新闻热度,提取热点新闻,否则继续下一篇处理。

【技术实现步骤摘要】
一种基于大数据的聚类方法
本专利技术涉及聚类分析
,尤其涉及一种基于大数据的聚类方法。
技术介绍
由于Internet在全球范围内快速发展,信息技术日新月异,人们使用的各种的数据正在以爆炸性速度不断增长。大量的数据存储在数据库中,可以应用于政府办公、商业智能、科学研究和项目开发等,但是要想真正地使用这些数据不是件容易的事情。理解数据库中海量数据已经不是人们能力范围之内的事情,如果我们不借助于自动分析手段,那么存储在数据中大量的数据就变成了“数据坟墓”——很难再次访问的数据存档。因为决策者无法从海量数据中人工发掘出有用的知识,其做出的重要决策也就并非基于数据库中的数据,而是基于直觉或者经验。此外,目前的专家系统主要是依靠领域专业人员或者用户将数据手工地输入到目标知识数据库中。令人遗憾的是,这一过程往往会出现误差,并且增加了时间及其他方面的投入成本。因此,人们迫切地需要强有力的数据挖掘技术来解决“数据丰富而知识贫乏”这一消极现象,用以帮助人们从海量的数据中挖掘出有用的知识,发现其中事先存在的关联规则,实现决策的自动化和智能化,并最终在经济、社会等多个层面获得巨大的价值。在此情况下,数据挖掘技术应运而生并且显示出强大的生命力。在分析数据的基础上,数据挖掘手段可以自动发现有趣的知识模式,在商业智能、政府办公、知识库和科学研究等领域中均有望做出巨大贡献。聚类分析是数据挖掘领域最重要的研究方向之一,通过数据分析能够发现有用的信息,其广泛地应用于市场研究、数据分析、模式识别、图像处理、人工智能和web文档分类等领域。在商业智能应用中,聚类分析能够帮助数据挖掘人员分析顾客的购买模式,刻画不同顾客群体的特征,从顾客消费信息数据库发现特殊的顾客。在生物学应用中,聚类分析可以用于推测物种的类别信息,根据功能的相关性对基因进行分门别类,从而可以获得对种群原有结构的认识。聚类分析还有助于在识别卫星监测数据库中对使用相关的区域进行识别,根据房屋的价值、类型和具体地理位置对城市中存在的房屋分组识别。与使用其它数据挖掘方法不同,用户在运用聚类分析算法之前并不知道数据集的内容和类别等特征信息,也即聚类分析不需要基于先验知识,是一种无监督的机器学习。目前,大部分数据是以标准文本的格式存储的,在海量但未知信息中如何挖掘出事先未知的有用的知识已经成为学术研究和人们关注的热点问题之一。文本聚类挖掘是在没有先验学习的条件下对文本文档集合进行组织或划分的过程,其基本思想是将相似度较近的文本文档划分到同一个簇中。文本聚类挖掘可以广泛应用于信息检索与文本挖掘等多个方面,在大数量文档集合的查看、组织和自动生成文档集的层次归类等都具有很重要的应用价值。文本聚类效果的好坏会大大影响检索用户目标信息的效率,如与对文档进行顺序组织的方法相比,对文档进行随机聚类的方法并不会提高查找效率而是降低了速度。所以,如何提高文本聚类的有效性成为当前研究的热点问题。
技术实现思路
为了解决上述问题,本专利技术提出一种基于大数据的聚类方法。具体的,一种基于大数据的聚类方法,包括以下步骤:S1.对新闻D进行分词得到新闻S;S2.判断所述新闻S是否为第一篇新闻,若是,执行S5,若不是则执行S3;S3.对所述新闻S建立VSM向量模型,计算所述新闻S与聚类中心所有类别的相似度;S4.找出与所述新闻S具有最大相似度的类别C,若所述新闻S与所述类别C的相似度大于预设阈值,则将所述新闻S归类到所述类别C中,若小于预设阈值,则执行S5;S5.基于所述新闻S建立新的类别;S6.计算所述新闻S与所述类别C中其他新闻的相似度平均值M1,计算所述类别C中其他新闻与聚类中心其他新闻的相似度平均值M2,若M1大于M2,则更新所述新闻S为新聚类中心,否则聚类中心不变;S7.判断当前新闻是否处理完毕,若是,执行S8,否则执行S1;S8.通过预设算法计算新闻热度,提取热点新闻。进一步的,所述步骤S3还包括:将所述新闻S设置为一个由n维特征组成的向量,所述VSM空间向量模型中每一个特征均为一个词。进一步的,所述步骤S3还包括:提取所述新闻S的特征词ti,通过预设算法得到S={ω1,ω2,…,ωn},其中ωi为特征词ti的权重。进一步的,ωi计算公式如下:其中,nti为出现词ti的新闻报道数,N为语料库中的总新闻数,tf(ti,D)为特征词ti在新闻S中出现的频率。进一步的,相似度具体计算过程如下:其中,di表示新文档的特征向量;dj表示某个话题的第j个种子话题的特征向量,其中,ω+λ=1,T(di,dj)为衰减函数,cosθ为余弦相似度。进一步的,新闻热度具体算法为:其中,n为该话题的新闻报道的数量,d为新闻初始得分,取值为1,t为当前时刻,单位为分钟,ti为新闻到达的时间,p为取一个新闻的有效期,α为话题冷却因子。本专利技术的有益效果在于:采用优化算法对文本进行聚类,提高了聚类的准确率和有效性。附图说明图1是本专利技术的一种基于大数据的聚类方法流程示意图。具体实施方式为了对本专利技术的技术特征、目的和效果有更加清楚的理解,现对照附图说明本专利技术的具体实施方式。如图1所示,一种基于大数据的聚类方法,包括以下步骤:S1.对新闻D进行分词得到新闻S;S2.判断所述新闻S是否为第一篇新闻,若是,执行S5,若不是则执行S3;S3.对所述新闻S建立VSM向量模型,计算所述新闻S与聚类中心所有类别的相似度;S4.找出与所述新闻S具有最大相似度的类别C,若所述新闻S与所述类别C的相似度大于预设阈值,则将所述新闻S归类到所述类别C中,若小于预设阈值,则执行S5;S5.基于所述新闻S建立新的类别;S6.计算所述新闻S与所述类别C中其他新闻的相似度平均值M1,计算所述类别C中其他新闻与聚类中心其他新闻的相似度平均值M2,若M1大于M2,则更新所述新闻S为新聚类中心,否则聚类中心不变;S7.判断当前新闻是否处理完毕,若是,执行S8,否则执行S1;S8.通过预设算法计算新闻热度,提取热点新闻。进一步的,所述步骤S3还包括:将所述新闻S设置为一个由n维特征组成的向量,所述VSM空间向量模型中每一个特征均为一个词。进一步的,所述步骤S3还包括:提取所述新闻S的特征词ti,通过预设算法得到S={ω1,ω2,…,ωn},其中ωi为特征词ti的权重。进一步的,ωi计算公式如下:其中,nti为出现词ti的新闻报道数,N为语料库中的总新闻数,tf(ti,D)为特征词ti在新闻S中出现的频率。进一步的,相似度具体计算过程如下:其中,di表示新文档的特征向量;dj表示某个话题的第j个种子话题的特征向量,其中,ω+λ=1,T(di,dj)为衰减函数,cosθ为余弦相似度,具体为进一步的,新闻热度具体算法为:其中,n为该话题的新闻报道的数量,d为新闻初始得分,取值为1,t为当前时刻,单位为分钟,ti为新闻到达的时间,p为取一个新闻的有效期,α为话题冷却因子,计算公式如下:其中,tftopic为当前话题的报道数,tall为所有话题的新闻的报道总数,tuccheck为参与该话题的用户数,stcheck为参与所有话题的用户数。需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的本文档来自技高网
...
一种基于大数据的聚类方法

【技术保护点】
一种基于大数据的聚类方法,其特征在于,包括以下步骤:S1.对新闻D进行分词得到新闻S;S2.判断所述新闻S是否为第一篇新闻,若是,执行S5,若不是则执行S3;S3.对所述新闻S建立VSM向量模型,计算所述新闻S与聚类中心所有类别的相似度;S4.找出与所述新闻S具有最大相似度的类别C,若所述新闻S与所述类别C的相似度大于预设阈值,则将所述新闻S归类到所述类别C中,若小于预设阈值,则执行S5;S5.基于所述新闻S建立新的类别;S6.计算所述新闻S与所述类别C中其他新闻的相似度平均值M1,计算所述类别C中其他新闻与聚类中心其他新闻的相似度平均值M2,若M1大于M2,则更新所述新闻S为新聚类中心,否则聚类中心不变;S7.判断当前新闻是否处理完毕,若是,执行S8,否则执行S1;S8.通过预设算法计算新闻热度,提取热点新闻。

【技术特征摘要】
1.一种基于大数据的聚类方法,其特征在于,包括以下步骤:S1.对新闻D进行分词得到新闻S;S2.判断所述新闻S是否为第一篇新闻,若是,执行S5,若不是则执行S3;S3.对所述新闻S建立VSM向量模型,计算所述新闻S与聚类中心所有类别的相似度;S4.找出与所述新闻S具有最大相似度的类别C,若所述新闻S与所述类别C的相似度大于预设阈值,则将所述新闻S归类到所述类别C中,若小于预设阈值,则执行S5;S5.基于所述新闻S建立新的类别;S6.计算所述新闻S与所述类别C中其他新闻的相似度平均值M1,计算所述类别C中其他新闻与聚类中心其他新闻的相似度平均值M2,若M1大于M2,则更新所述新闻S为新聚类中心,否则聚类中心不变;S7.判断当前新闻是否处理完毕,若是,执行S8,否则执行S1;S8.通过预设算法计算新闻热度,提取热点新闻。2.根据权利要求1所述的一种基于大数据的聚类方法,其特征在于,所述步骤S3还包括:将所述新闻S设置为一个由n维特征组成的向量,所述VSM空间向...

【专利技术属性】
技术研发人员:马萧萧温大川吴春才冯良怀文斌杨树海姚晴麟
申请(专利权)人:成都东方盛行电子有限责任公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1