一种基于流式云平台的实时舆情分析方法技术

技术编号:21400976 阅读:25 留言:0更新日期:2019-06-19 07:32
本发明专利技术提供一种基于流式云平台的实时舆情分析方法,该方法包括基于奇异非回溯聚类,用于精准确定关键词聚类的关键词组,对于关键词组的降维更加高效;以及基于关键词之间语义相似度衡量机制,用于筛选关键词组中冗余关键词;以及基于Apache Storm平台,实时更新舆情的表示模型,并实时检测舆情。该发明专利技术基于奇异非回溯算法提取舆情的关键词组,并且基于关键词组权重的设计对舆情代表模型进行降维处理,并且基于Apache Storm云平台的拓扑结构,使得对舆情关键词组的选取更加精准,并且压缩了关键词组的维度,提高了实时舆情的分析效率。因此,可以准确表示舆情信息,从而实现了一种高效的流式舆情分析平台,可以在海量文本流中实时发现舆情信息。

【技术实现步骤摘要】
一种基于流式云平台的实时舆情分析方法
本专利技术属于大数据分析与应用
,涉及舆情分析,特别涉及一种基于流式云平台的实时舆情分析方法。
技术介绍
随着社交网络的发展和4G网络的普及,Facebook,微博和Twitter,在全世界都得到了广泛的普及,它们已经成为人们获取信息的主要手段。人们更加倾向于在社交媒体的实时舆情中获得最新消息,这就需要有效和快速的表示社交媒体实时舆情,以便及时筛选舆情。传统的舆情表示相当稀疏,这就极大地制约了舆情分析的准确性和效率。通常社交媒体用户更加倾向于发表简洁的舆情。与其他类型文本相似的,这些简洁的舆情也呈现着全部类型的社会事件,用来描述这些舆情的关键词与描述其他类型文本关键词的数量是相同的,舆情表示模型与其他文本表示模型具有相同的维度。以往的舆情分析方法构建的关键词代表模型会引入大量的冗余关键词,没有达到很好的舆情分析的效果。更为严重的是冗余关键词组将涉及无用信息,从而对舆情分析产生负面的影响。
技术实现思路
为了克服上述现有技术的缺点,本专利技术的目的在于提供一种基于流式云平台ApacheStorm的实时舆情分析方法,达到了较好的舆情分析效果。为了实现上述目的,本专利技术采用的技术方案是:一种基于流式云平台的实时舆情分析方法,包括:步骤1,对于给定的舆情,进行关键词聚类,得到若干具有相同语义的关键词组;步骤2,筛选冗余关键词组,对舆情的代表模型降维,所述舆情的代表模型是根据舆情的特征聚类出的用于代表舆情的关键词组;步骤3,利用ApacheStorm拓扑结构更新关键词组,以保证用关键词组表示实时舆情。即,将上述方法嵌入到ApacheStorm的拓扑结构中,根据KPF/NKP的值来计算词的权重,如果该词的权重较大则填入到表示模型中,并相应的筛去表示模型中权重最小的词,以进行更新。所述步骤1中,利用奇异非回溯聚类算法进行关键词聚类,根据相同语义关系提取关键词组的方法如下式:其中,syn(tk,lij)为具有相同语义的关键词组,M为关键词个数,tk为舆情中的某一个单词,其中k为序号,M个关键词与tk共享一个同语义树,lij是关键词组li中的关键词,CN(tk,lij)为同一个语义树中的tk和lij之间公共父节点数目,DN(tk,lij)为同一个语义树中tk与其最近父节点之间的距离,β和ξ为常数动态影响因子,根据语义关系实时选取。所述步骤2中,冗余关键词组的筛选方法如下:统计舆情中每一个关键词出现的频率,首先通过计算KPF/NKP的值来筛选冗余关键词组,其次统计KPF和NKP,然后通过计算的KPF与NKP来计算关键词组的权重,其中关键词组权重计算的方法如下式:其中Wij为第i个实时舆情ri中某个关键词组的权重,|R|表示舆情集合,KPF表示关键词组中每一个关键词频率相加之和,NKP表示在舆情中关键词组的数量,KPF(li,rj)表示在舆情ri中关键词组li的KPF值,NKP(li)表示包含li的关键词组的数量,分别计算每一个关键词组的权重,然后按照降序排列,取前5%的元素为有价值的关键词组。所述步骤3中,ApacheStorm拓扑结构包括LogHub、IRichSport、ClusterBolt、PatternBolt、IncrementBolt、HBaseShell六个部分,其工作流程如下:Step1:使用LogHub接收舆情,将接收到的舆情发送到IRichSpout;Step2:将IRichSpout接收到的舆情再发送到ClusterBolt;Step3:将ClusterBolt接收到的数据发送到PatternBolt中,并且缓存更新从IRichSpout接收的数据;Step4:将新的数据发送到PatternBolt获取通过关键词聚类方法聚类得到关键词组,然后再将获取的关键词组逐步计算KPF/NKP的值,并将计算后的值进行排序,再选择关键词组作为代表模型的元素,在接收|R|数据的同时,获取新的模型;Step5:对上步骤中得到的新的模型实施增量更新,并且将代表模型发送到IncrementBolt,IncrementBolt从PatternBolt获得舆情代表模型,并且将代表模型发送到IncrementBolt。在ClusterBolt接收舆情后,IncrementBolt使用关键词组权重向量以描述舆情;Step6:通过计算舆情中关键词组的KPF/NKP值来计算权重,最后IncrementBolt会将表示结果发送到HBaseShell中。与现有的舆情分析方法相比,本专利技术首先对实时舆情做一种奇异非回溯聚类算法,通过计算特征词的相同表示关系来获得特征词组,根据计算关键词的KPF/NKP的值来筛选关键词组;然后进行建模,最终通过在ApacheStorm上实现一个舆情拓扑,以保证用关键词组代表实时舆情,有效的提高了舆情分析的准确性和有效性。附图说明图1为根据本专利技术实施例的体系流程图。图2为根据本专利技术ApacheStorm的拓扑结构。具体实施方式为了使本专利技术的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本专利技术进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。图1给出了根据本专利技术一个实施例的流程示意图。概括来讲,该方法包括:步骤1)对给定的舆情进行关键词聚类,基于相同语义关系将关键词聚类;步骤2)对于已经聚类好的关键词组,通过计算关键词组中的每一个关键词的权重来衡量这个关键词表示实时舆情的能力;步骤3)对于计算好的每个关键词的权重,我们认为权重低的关键词不能很好地表示实时舆情,反之则可以很好的表示舆情,然后筛选出权重较低的关键词;步骤4)对于已经降维的关键词组,根据设计的ApacheStorm的拓扑结构,来更新关键词组,以达到实时分析的目的。更具体地,在步骤1)首先设计一个M个关键词与tk共享一个同一个语义关系的树DN(tk,lij),lij是关键词组li的关键词,其次把CN(tk,lij)设置为同一个语义树中tk和lij之间公共父节点数目。最后我们设计了两个常数动态影响因子β和ξ,这两个常量根据表示关系实时选取,通常情况系数β取为1,常量ξ取为2,syn(tk,lij)为具有相同表示关系的关键词组。下式为根据相同表示关系提取关键词组的方法。更具体地,在步骤2)和步骤3)中统计了关键词组中每一个关键词出现的频率,把每一个关键词的频率相加求和把所得和命名为KPF(li,rj),把舆情中包含的关键词组li的数量命名为NKP(li);首先通过计算KPF/NKP的值来筛选冗余关键词组。其次统计上述KPF和NKP,然后把实时舆情用做|R|来表示,把rj设置为具体的每一个实时舆情,把Wij作为rj中某个关键词组的权重。最后如果这个关键词组的权重较小,则认为这个关键词组不能很好的表示该舆情,并将其筛出。下式为关键词组权重计算的方法。图2给出了根据本专利技术一个实施例的ApacheStorm的拓扑结构示意图。概括来讲包括:步骤1)首先为了解决Spout组件并行读取问题,使用LogHub系统用来接收舆情,将接收到的舆情发送到IRichSpout构件中。步骤2)然后将IRichSpout接收到的舆情再发送到ClusterBolt步骤3)ClusterBol本文档来自技高网...

【技术保护点】
1.一种基于流式云平台的实时舆情分析方法,其特征在于,包括:步骤1,对于给定的舆情,进行关键词聚类,得到若干具有相同语义的关键词组;步骤2,筛选冗余关键词组,对舆情的代表模型降维,所述舆情的代表模型是根据舆情的特征聚类出的用于代表舆情的关键词组;步骤3,利用Apache Storm拓扑结构更新关键词组,以保证用关键词组表示实时舆情。

【技术特征摘要】
1.一种基于流式云平台的实时舆情分析方法,其特征在于,包括:步骤1,对于给定的舆情,进行关键词聚类,得到若干具有相同语义的关键词组;步骤2,筛选冗余关键词组,对舆情的代表模型降维,所述舆情的代表模型是根据舆情的特征聚类出的用于代表舆情的关键词组;步骤3,利用ApacheStorm拓扑结构更新关键词组,以保证用关键词组表示实时舆情。2.根据权利要求1所述基于流式云平台的实时舆情分析方法,其特征在于,所述步骤1中,利用奇异非回溯聚类算法进行关键词聚类,根据相同语义关系提取关键词组的方法如下式:其中,syn(tk,lij)为具有相同语义的关键词组,M为关键词个数,tk为舆情中的某一个单词,其中k为序号,M个关键词与tk共享一个同语义树,lij是关键词组li中的关键词,CN(tk,lij)为同一个语义树中的tk和lij之间公共父节点数目,DN(tk,lij)为同一个语义树中tk与其最近父节点之间的距离,β和ξ为常数动态影响因子,根据语义关系实时选取。3.根据权利要求1所述基于流式云平台的实时舆情分析方法,其特征在于,所述步骤2中,冗余关键词组的筛选方法如下:统计舆情中每一个关键词出现的频率,首先通过计算KPF/NKP的值来筛选冗余关键词组,其次统计KPF和NKP,然后通过计算的KPF与NKP来计算关键词组的权重,其中关键词组权重计算的方法如下式:其中Wij为第i个实时舆情ri中某个关键词组的权重,|R|表示舆情集合,KPF表示关键词组中每一个关键词频率相加之和,NKP表示在舆情中关键词组的数量,KPF(li,rj)表示在舆情ri中关键词组li的KPF...

【专利技术属性】
技术研发人员:王永生赵禹萌云静邢红梅
申请(专利权)人:内蒙古工业大学
类型:发明
国别省市:内蒙古,15

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1