【技术实现步骤摘要】
本专利技术涉及舆情数据聚类
,具体而言,涉及一种舆情数据聚类方法和一种舆情数据聚类系统。
技术介绍
目前,随着互联网技术的不断发展,越来越多的互联网产品逐渐影响着人们的生活,例如微博自推出来就受到了广泛推崇,微博的出现让用户可以随时使用方便的终端设备以简短的文字来分享新闻、图片、视频等各种信息,这种便捷有效的服务使微博俨然成为了新的新闻发布渠道,消息中心、社交网络中心以及娱乐中心。以微博为代表的社交网络等新媒体的兴起,在丰富了大数据的同时,也给数据挖掘和知识发现带来了诸多挑战。如在微博中发现舆情数据正是当前重要的研究课题之一,而舆情数据聚类技术是话题发现的重要手段之一,相关技术中的舆情数据聚类方案主要有如下两方面:基于全量式的舆情数据聚类方案,常见的舆情数据聚类方案如K-means算法、凝聚式或分裂式的层次聚类方案等,再有将LDA(Latent Dirichlet Allocation,文档主体生成模型,也称为三层贝叶斯概率模型)等利用潜在概念的方法引入话题聚类过程改进模型。基于增量式的舆情数据聚类方案,常见的舆情数据聚类方案如single-pass算法,及在此算法框架基础上的改进模型,如克服single-pass算法受处理顺序影响的问题。但是,上述提到的两种相关技术中的舆情数据聚类方案存在以下缺点:基于全量式的舆情数据聚类方案,虽然聚类结果的精度较高,但由于每次计算针对的是全量数据,当应用对象面向海量的微博数据时,其处理速度达不到实时性要求。基于增量式的舆情数据聚类方案,虽然聚类的处理速度较快,但由于
对微博数据进行聚类时采用了s ...
【技术保护点】
一种舆情数据聚类方法,其特征在于,包括:对社交网络中的当前数据进行冗余过滤,以获取非冗余数据;对所述非冗余数据进行分析,以在所述非冗余数据中确定相关舆情数据;对所述相关舆情数据进行聚类,以在所述相关舆情数据中确定目标舆情数据。
【技术特征摘要】
1.一种舆情数据聚类方法,其特征在于,包括:对社交网络中的当前数据进行冗余过滤,以获取非冗余数据;对所述非冗余数据进行分析,以在所述非冗余数据中确定相关舆情数据;对所述相关舆情数据进行聚类,以在所述相关舆情数据中确定目标舆情数据。2.根据权利要求1所述的舆情数据聚类方法,其特征在于,对所述相关舆情数据进行聚类,以在所述相关舆情数据中确定所述目标舆情数据,具体包括:使用舆情热度值预设公式对所述相关舆情数据进行统计,以确定所述相关舆情数据的舆情热度值;根据所述舆情热度值在所述相关舆情数据中确定第一中心舆情数据和第二中心舆情数据,并将所述第一中心舆情数据和所述第二中心舆情数据作为所述目标舆情数据。3.根据权利要求2所述的舆情数据聚类方法,其特征在于,对所述非冗余数据进行分析,以在所述非冗余数据中确定所述相关舆情数据,具体包括:根据随机森林算法和预设训练数据,建立随机森林模型;根据所述随机森林模型对所述非冗余数据进行判别和分类,以在所述非冗余数据中确定所述相关舆情数据。4.根据权利要求3所述的舆情数据聚类方法,其特征在于,对所述社交网络中的所述当前数据进行冗余过滤,具体包括:在所述当前数据中确定原创数据,并在所述原创数据中获取多个关键词,以确定所述原创数据的关键词向量;接收建立指令,建立所述原创数据的初始化向量,并根据所述关键词向量将所述初始化向量转化为数据指纹向量;根据所述数据指纹向量,对所述原创数据进行冗余过滤,以确定所述
\t非冗余数据。5.根据权利要求1至4中任一项所述的舆情数据聚类方法,其特征在于,所述舆情热度值预设公式包括文本局部密度预设公式和/或文本距离预设公式,以及所述舆情热度值包括:所述文本局部密度值和/或文本距离值,其中,所述文本局部密度预设公式包括: ρ i = Σ j = 1 n χ ( d ij - d c ) i , j ∈ [ 1 , n ] ]]> χ ( x ) = 1 x < 0 0 x ≥ 0 ]]>所述文本距离预设公式包括: δ i = min ρ j > ρ i ( d ij ) ]]>n表示所述相关舆情数据的文本总数,ρi表示第i个所述相关舆情数据的局部密度值,dij表示第i个所述相关舆情数据与第j个所述相关舆情数据的文本相似值,且i不等于j,dc表示相似系数,且dc的取值范围为n×1%至n×2%,δi表示第i个所述相关舆情数据的文本距离。6.一种舆情数...
【专利技术属性】
技术研发人员:郑妍,于晓明,杨建武,
申请(专利权)人:北大方正集团有限公司,北京大学,北京北大方正电子有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。