一种基于流式云平台的实时舆情分析方法技术

技术编号：21400976 阅读：25 留言：0更新日期：2019-06-19 07:32

本发明专利技术提供一种基于流式云平台的实时舆情分析方法,该方法包括基于奇异非回溯聚类，用于精准确定关键词聚类的关键词组，对于关键词组的降维更加高效；以及基于关键词之间语义相似度衡量机制，用于筛选关键词组中冗余关键词；以及基于Apache Storm平台，实时更新舆情的表示模型，并实时检测舆情。该发明专利技术基于奇异非回溯算法提取舆情的关键词组，并且基于关键词组权重的设计对舆情代表模型进行降维处理，并且基于Apache Storm云平台的拓扑结构，使得对舆情关键词组的选取更加精准，并且压缩了关键词组的维度，提高了实时舆情的分析效率。因此，可以准确表示舆情信息，从而实现了一种高效的流式舆情分析平台，可以在海量文本流中实时发现舆情信息。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于流式云平台的实时舆情分析方法
本专利技术属于大数据分析与应用
，涉及舆情分析，特别涉及一种基于流式云平台的实时舆情分析方法。
技术介绍
随着社交网络的发展和4G网络的普及，Facebook，微博和Twitter，在全世界都得到了广泛的普及，它们已经成为人们获取信息的主要手段。人们更加倾向于在社交媒体的实时舆情中获得最新消息，这就需要有效和快速的表示社交媒体实时舆情，以便及时筛选舆情。传统的舆情表示相当稀疏，这就极大地制约了舆情分析的准确性和效率。通常社交媒体用户更加倾向于发表简洁的舆情。与其他类型文本相似的，这些简洁的舆情也呈现着全部类型的社会事件，用来描述这些舆情的关键词与描述其他类型文本关键词的数量是相同的，舆情表示模型与其他文本表示模型具有相同的维度。以往的舆情分析方法构建的关键词代表模型会引入大量的冗余关键词，没有达到很好的舆情分析的效果。更为严重的是冗余关键词组将涉及无用信息，从而对舆情分析产生负面的影响。
技术实现思路
为了克服上述现有技术的缺点，本专利技术的目的在于提供一种基于流式云平台ApacheStorm的实时舆情分析方法，达到了较好的舆情分析效果。为了实现上述目的，本专利技术采用的技术方案是：一种基于流式云平台的实时舆情分析方法，包括：步骤1，对于给定的舆情，进行关键词聚类，得到若干具有相同语义的关键词组；步骤2，筛选冗余关键词组，对舆情的代表模型降维，所述舆情的代表模型是根据舆情的特征聚类出的用于代表舆情的关键词组；步骤3，利用ApacheStorm拓扑结构更新关键词组，以保证用关键词组表示实时舆情。即，将上述方法嵌入到Ap...

【技术保护点】
1.一种基于流式云平台的实时舆情分析方法，其特征在于，包括：步骤1，对于给定的舆情，进行关键词聚类，得到若干具有相同语义的关键词组；步骤2，筛选冗余关键词组，对舆情的代表模型降维，所述舆情的代表模型是根据舆情的特征聚类出的用于代表舆情的关键词组；步骤3，利用Apache Storm拓扑结构更新关键词组，以保证用关键词组表示实时舆情。

【技术特征摘要】
1.一种基于流式云平台的实时舆情分析方法，其特征在于，包括：步骤1，对于给定的舆情，进行关键词聚类，得到若干具有相同语义的关键词组；步骤2，筛选冗余关键词组，对舆情的代表模型降维，所述舆情的代表模型是根据舆情的特征聚类出的用于代表舆情的关键词组；步骤3，利用ApacheStorm拓扑结构更新关键词组，以保证用关键词组表示实时舆情。2.根据权利要求1所述基于流式云平台的实时舆情分析方法，其特征在于，所述步骤1中，利用奇异非回溯聚类算法进行关键词聚类，根据相同语义关系提取关键词组的方法如下式：其中，syn(tk,lij)为具有相同语义的关键词组，M为关键词个数，tk为舆情中的某一个单词，其中k为序号，M个关键词与tk共享一个同语义树，lij是关键词组li中的关键词，CN(tk,lij)为同一个语义树中的tk和lij之间公共父节点数目，DN(tk,lij)为同一个语义树中tk与其最近父节点之间的距离，β和ξ为常数动态影响因子，根据语义关系实时选取。3.根据权利要求1所述基于流式云平台的实时舆情分析方法，其特征在于，所述步骤2中，冗余关键词组的筛选方法如下：统计舆情中每一个关键词出现的频率，首先通过计算KPF/NKP的值来筛选冗余关键词组，其次统计KPF和NKP，然后通过计算的KPF与NKP来计算关键词组的权重，其中关键词组权重计算的方法如下式：其中Wij为第i个实时舆情ri中某个关键词组的权重，|R|表示舆情集合，KPF表示关键词组中每一个关键词频率相加之和，NKP表示在舆情中关键词组的数量，KPF(li,rj)表示在舆情ri中关键词组li的KPF...

【专利技术属性】
技术研发人员：王永生，赵禹萌，云静，邢红梅，
申请(专利权)人：内蒙古工业大学，
类型：发明
国别省市：内蒙古,15

全部详细技术资料下载我是这个专利的主人