舆情数据聚类方法和舆情数据聚类系统技术方案

技术编号:14066836 阅读:105 留言:0更新日期:2016-11-28 12:48
本发明专利技术提出了一种舆情数据聚类方法和一种舆情数据聚类系统,其中,所述舆情数据聚类方法包括:对社交网络中的当前数据进行冗余过滤,以获取非冗余数据;对所述非冗余数据进行分析,以在所述非冗余数据中确定相关舆情数据;对所述相关舆情数据进行聚类,以在所述相关舆情数据中确定目标舆情数据。通过本发明专利技术的技术方案,通过对社交网站中的海量数据进行增量式的聚类,不仅可以使聚类的处理速度可以达到实时性的要求,还可以调整聚类结果,从而避免了聚类出局部片断式的聚类结果,进而提高了聚类结果的准确性。

【技术实现步骤摘要】

本专利技术涉及舆情数据聚类
,具体而言,涉及一种舆情数据聚类方法和一种舆情数据聚类系统。
技术介绍
目前,随着互联网技术的不断发展,越来越多的互联网产品逐渐影响着人们的生活,例如微博自推出来就受到了广泛推崇,微博的出现让用户可以随时使用方便的终端设备以简短的文字来分享新闻、图片、视频等各种信息,这种便捷有效的服务使微博俨然成为了新的新闻发布渠道,消息中心、社交网络中心以及娱乐中心。以微博为代表的社交网络等新媒体的兴起,在丰富了大数据的同时,也给数据挖掘和知识发现带来了诸多挑战。如在微博中发现舆情数据正是当前重要的研究课题之一,而舆情数据聚类技术是话题发现的重要手段之一,相关技术中的舆情数据聚类方案主要有如下两方面:基于全量式的舆情数据聚类方案,常见的舆情数据聚类方案如K-means算法、凝聚式或分裂式的层次聚类方案等,再有将LDA(Latent Dirichlet Allocation,文档主体生成模型,也称为三层贝叶斯概率模型)等利用潜在概念的方法引入话题聚类过程改进模型。基于增量式的舆情数据聚类方案,常见的舆情数据聚类方案如single-pass算法,及在此算法框架基础上的改进模型,如克服single-pass算法受处理顺序影响的问题。但是,上述提到的两种相关技术中的舆情数据聚类方案存在以下缺点:基于全量式的舆情数据聚类方案,虽然聚类结果的精度较高,但由于每次计算针对的是全量数据,当应用对象面向海量的微博数据时,其处理速度达不到实时性要求。基于增量式的舆情数据聚类方案,虽然聚类的处理速度较快,但由于
对微博数据进行聚类时采用了single-pass的策略,也决定了聚类结果难于调整,导致产生局部片断式的聚类结果。因此,在对社交网站如微博中的海量数据进行聚类时,如何保证聚类的处理速度可以达到实时性的要求,同时还可以调整聚类结果,避免了聚类出局部片断式的聚类结果,从而提高了聚类结果的准确性,成为亟待解决的问题。
技术实现思路
本专利技术正是基于上述问题,提出了一种新的技术方案,通过对社交网站中的海量数据进行增量式的聚类,不仅可以使聚类的处理速度可以达到实时性的要求,还可以调整聚类结果,从而避免了聚类出局部片断式的聚类结果,进而提高了聚类结果的准确性。有鉴于此,本专利技术的一方面提出了一种舆情数据聚类方法,包括:对社交网络中的当前数据进行冗余过滤,以获取非冗余数据;对所述非冗余数据进行分析,以在所述非冗余数据中确定相关舆情数据;对所述相关舆情数据进行聚类,以在所述相关舆情数据中确定目标舆情数据。在该技术方案中,由于在社交网站(如微博)中的当前数据中存在大量的重复数据,因此,首先对当前数据进行冗余过滤,从而避免了重复数据对聚类结果的影响,进而提高了聚类结果的准确性,并且在进行冗余过滤得到非冗余数据之后,在对非冗余数据进行分析时,在非冗余数据中发现大量的与聚类结果不相关的不相关舆情数据,因此,将不相关舆情数据从非冗余数据中过滤掉,以在非冗余数据中确定相关舆情数据,从而在对相关舆情数据进行聚类时可以提高聚类的效率和速度,即聚类的处理速度可以达到实时性的要求,进而可以实时有效地发现社交网站中的舆情热点话题,另外,上述技术方案支持对海量数据进行增量式地聚类,同时还可以调整聚类结果,即避免了采用迭代的方案进行聚类,从而避免了聚类出局部片断式的聚类结果,进而提高了聚类结果的准确性。在上述技术方案中,优选地,对所述相关舆情数据进行聚类,以在所述相关舆情数据中确定所述目标舆情数据,具体包括:使用舆情热度值预
设公式对所述相关舆情数据进行统计,以确定所述相关舆情数据的舆情热度值;根据所述舆情热度值在所述相关舆情数据中确定第一中心舆情数据和第二中心舆情数据,并将所述第一中心舆情数据和所述第二中心舆情数据作为所述目标舆情数据。在该技术方案中,由于社交网站如微博有一定的字数限制,则微博中所讨论的话题比较单一或者比较集中,即很少出现话题漂移的现象,即在相关舆情数据中具有相同话题的数据分布相对密集(数据相似度比较高),而具有不同话题的数据分布相对疏远(数据相似度比较低),因此,可以使用舆情热度值预设公式计算相关舆情数据的舆情热度值来确定目标舆情数据,舆情热度值越高相关舆情数据的数据分布相对就比较密集,同时舆情热度值越低相关舆情数据的数据分布相对就比较疏远,从而可以有效地提高了对海量数据进行聚类的准确性和效率,另外,上述技术方案支持对海量数据进行增量式地聚类,同时还可以调整聚类结果,即避免了采用迭代的方案进行聚类,从而避免了聚类出局部片断式的聚类结果,进而提高了聚类结果的准确性。在上述技术方案中,优选地,对所述非冗余数据进行分析,以在所述非冗余数据中确定所述相关舆情数据,具体包括:根据随机森林算法和预设训练数据,建立随机森林模型;根据所述随机森林模型对所述非冗余数据进行判别和分类,以在所述非冗余数据中确定所述相关舆情数据。在该技术方案中,通过建立的随机森林模型对非冗余数据进行判别和分类,以确定相关舆情数据,从而将不相关舆情数据从非冗余数据中过滤掉,进而在对相关舆情数据进行聚类时有效地提高了聚类的速度和准确率。在上述技术方案中,优选地,对所述社交网络中的所述当前数据进行冗余过滤,具体包括:在所述当前数据中确定原创数据,并在所述原创数据中获取多个关键词,以确定所述原创数据的关键词向量;接收建立指令,建立所述原创数据的初始化向量,并根据所述关键词向量将所述初始化向量转化为数据指纹向量;根据所述数据指纹向量,对所述原创数据进行冗余过滤,以确定所述非冗余数据。在该技术方案中,由于在社交网站(如微博)中的当前数据中存在大
量的重复数据,如不同用户对热门微博内容的重复发布,或水军通过多个用户名对微博内容进行炒作,因此,通过对当前数据进行冗余过滤,从而避免了重复数据对聚类结果的影响,进而提高了聚类结果的准确性,另外,面向海量当前数据的文本消重,充分考虑到当前数据的文本表示方式,从而有利于相似计算和减少内存消耗。在上述技术方案中,优选地,所述舆情热度值预设公式包括文本局部密度预设公式和/或文本距离预设公式,以及所述舆情热度值包括:所述文本局部密度值和/或文本距离值,其中,所述文本局部密度预设公式包括: ρ i = Σ j = 1 n χ ( d ij - d c ) i 本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/201510191694.html" title="舆情数据聚类方法和舆情数据聚类系统原文来自X技术">舆情数据聚类方法和舆情数据聚类系统</a>

【技术保护点】
一种舆情数据聚类方法,其特征在于,包括:对社交网络中的当前数据进行冗余过滤,以获取非冗余数据;对所述非冗余数据进行分析,以在所述非冗余数据中确定相关舆情数据;对所述相关舆情数据进行聚类,以在所述相关舆情数据中确定目标舆情数据。

【技术特征摘要】
1.一种舆情数据聚类方法,其特征在于,包括:对社交网络中的当前数据进行冗余过滤,以获取非冗余数据;对所述非冗余数据进行分析,以在所述非冗余数据中确定相关舆情数据;对所述相关舆情数据进行聚类,以在所述相关舆情数据中确定目标舆情数据。2.根据权利要求1所述的舆情数据聚类方法,其特征在于,对所述相关舆情数据进行聚类,以在所述相关舆情数据中确定所述目标舆情数据,具体包括:使用舆情热度值预设公式对所述相关舆情数据进行统计,以确定所述相关舆情数据的舆情热度值;根据所述舆情热度值在所述相关舆情数据中确定第一中心舆情数据和第二中心舆情数据,并将所述第一中心舆情数据和所述第二中心舆情数据作为所述目标舆情数据。3.根据权利要求2所述的舆情数据聚类方法,其特征在于,对所述非冗余数据进行分析,以在所述非冗余数据中确定所述相关舆情数据,具体包括:根据随机森林算法和预设训练数据,建立随机森林模型;根据所述随机森林模型对所述非冗余数据进行判别和分类,以在所述非冗余数据中确定所述相关舆情数据。4.根据权利要求3所述的舆情数据聚类方法,其特征在于,对所述社交网络中的所述当前数据进行冗余过滤,具体包括:在所述当前数据中确定原创数据,并在所述原创数据中获取多个关键词,以确定所述原创数据的关键词向量;接收建立指令,建立所述原创数据的初始化向量,并根据所述关键词向量将所述初始化向量转化为数据指纹向量;根据所述数据指纹向量,对所述原创数据进行冗余过滤,以确定所述
\t非冗余数据。5.根据权利要求1至4中任一项所述的舆情数据聚类方法,其特征在于,所述舆情热度值预设公式包括文本局部密度预设公式和/或文本距离预设公式,以及所述舆情热度值包括:所述文本局部密度值和/或文本距离值,其中,所述文本局部密度预设公式包括: ρ i = Σ j = 1 n χ ( d ij - d c ) i , j ∈ [ 1 , n ] ]]> χ ( x ) = 1 x < 0 0 x ≥ 0 ]]>所述文本距离预设公式包括: δ i = min ρ j > ρ i ( d ij ) ]]>n表示所述相关舆情数据的文本总数,ρi表示第i个所述相关舆情数据的局部密度值,dij表示第i个所述相关舆情数据与第j个所述相关舆情数据的文本相似值,且i不等于j,dc表示相似系数,且dc的取值范围为n×1%至n×2%,δi表示第i个所述相关舆情数据的文本距离。6.一种舆情数...

【专利技术属性】
技术研发人员:郑妍于晓明杨建武
申请(专利权)人:北大方正集团有限公司北京大学北京北大方正电子有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1