一种基于并行关联规则的舆情热点跟踪方法与跟踪装置制造方法及图纸

技术编号:12814416 阅读:57 留言:0更新日期:2016-02-05 14:33
本发明专利技术实施例提供一种基于并行关联规则的舆情热点跟踪方法。热点关键词与后续事件存在潜在的关联性,通过将关联规则挖掘算法并行实现:首先获取1_项频繁关键词集,然后对数据进行分割并分布式并行处理,接下来合并结果并约简获得包含多项的频繁关键词集,在此基础上获取关联规则并推导热点关联关键词。本发明专利技术实施例还提供一种基于并行关联规则的舆情热点跟踪装置。本发明专利技术实施例提供的技术方案能够实现舆情热点跟踪和实时响应,为决策提供支持。

【技术实现步骤摘要】

本专利技术涉及一种舆情热点跟踪方法,特别涉及一种基于并行关联规则的舆情热点跟踪方法与跟踪装置
技术介绍
舆情分析能够为政府机构和相关组织单位提供掌握大众民意信息和舆情动态提供技术支持。大数据环境下如何快速对海量网络数据进行分析并建立舆情监控和引导机制从而为管理者提供决策支持是当前研究的热点。对舆情信息进行分析,发现舆情热点并跟踪,从而为舆情预警和决策提供有力支持。热点评估与跟踪是根据热点事件中公众的情感和行为反应对舆情进行等级评估。当前主要使用K最近邻算法(KNN)和朴素贝叶斯算法(NBC)进行热点跟踪,通过对热点舆情的快速分类,实现跟踪目的。KNN算法对于舆情信息的分类准确性较高,但是对于大批量数据的处理速度较慢。NBC算法在分类效率上较为稳定,但是由于其模型假设属性之间相互独立的特点,使得其分类误差率受到了一定的影响。热点检测与跟踪算法通常首先将热点转化成中心向量模型,然后对中心向量进行相似度计算,进而对舆情信息进行分类,能够识别出新热点并与原来出现过的热点区分,实现热点跟踪。热点主题相似度计算是热点检测与跟踪的关键技术,目前常见的计算文本向量之间相似度的公式主要有内积、余弦相似度、Correlat1n距离、Spearman距离、Euclidean距离等。此外,IBM的Okapi公式也得到了较多的应用。现有的方法多数利用相似度进行归类实现热点跟踪,没有利用关键词信息挖掘数据之间时序上的内在联系,从而实现由已知舆情热点的关联关键词获取热点跟踪和预测。
技术实现思路
为了解决现有技术的问题,本专利技术提供了一种并行关联规则的舆情热点跟踪方法。本专利技术的并行关联规则的舆情热点跟踪方法,其基于热点关键词与后续事件存在潜在的关联性,通过将关联规则挖掘算法并行实现:首先进行数据分割,然后异步处理,接下来合并结果并约简获得包含多项的频繁关键词集,在此基础上获取关联规则并推导热点关联关键词,为舆情热点跟踪和响应决策提供支持。本专利技术所采用的技术方案如下:—种基于并行关联规则的舆情热点跟踪方法,包括以下步骤:根据获取的社交网络页面信息对T0P1000关键词进行统计,获取1_项频繁关键词集;设置用户支持数,在已经获得k-1_项频繁关键词集基础上继续获得k_项频繁关键词集的过程如下:k_项频繁关键词集的获得由1_项频繁关键词集和k-l_项频繁关键词集合并获得,分为以下三个阶段:首先根据k_l_项频繁关键词集进行数据分割和任务分配;其次,每个节点获得分配给它的k_l_项频繁关键词集和所有1_项频繁关键词集,在本地进行处理,独立产生k_项频繁关键词集;最后,在服务器将分布式处理的结果组合形成一个集合,将集合中的重复项删除,得到全局的k_项频繁关键词集;继续进行以上过程直到所有k_项候选集的支持度都不能达到用户指定的支持度,将存在频繁关键词集的最大项记为η ;根据得到的所有k_项频繁关键词集(1《k《η)和用户要求的最小可信度,产生所有大于最小可信度的关联规则,根据关联规则获取关联关键词,将一个热点关键词的关联关键词组合形成热点相关信息,实现对舆情热点的跟踪和预警。所述的一种基于并行关联规则的舆情热点跟踪方法,其特征在于,所述的1_项频繁关键词集是指:包含系统定义的Τ0Ρ1000关键词中的1个关键词且达到支持度的关键词集。所述的一种基于并行关联规则的舆情热点跟踪方法,其特征在于,热点关联关键词展示了舆情热点的相关信息,对其进行筛选和组合,可以获得关联热点,从而实现对舆情热点跟踪和事态发展预测,便于预警。另一方面,本专利技术提供了一种基于并行关联规则的舆情热点跟踪装置,包括以下丰吴块:1_项频繁关键词获取模块:根据获取的社交网络页面信息对Τ0Ρ1000关键词进行统计,获取1_项频繁关键词集。k_项频繁关键词集获取模块:设置用户支持数,在已经获得k_l_项频繁关键词集基础上继续获得k_项频繁关键词集的过程如下:k_项频繁关键词集的获得由1_项频繁关键词集和k_l_项频繁关键词集合并获得,分为以下三个阶段:首先根据k_l_项频繁关键词集进行数据分割和任务分配;其次,每个节点获得分配给它的k_l_项频繁关键词集和所有1_项频繁关键词集,在本地进行处理,独立产生k_项频繁关键词集;最后,在服务器将分布式处理的结果组合形成一个集合,将集合中的重复项删除,得到全局的k_项频繁关键词集;继续进行以上过程直到所有k_项候选集的支持度都不能达到用户指定的支持度,将存在频繁关键词集的最大项记为η。关联关键词获取模块:根据得到的所有k_项频繁关键词集(1《k《η)和用户要求的最小可信度,产生所有大于最小可信度的关联规则,根据关联规则获取关联关键词,将一个热点关键词的关联关键词组合形成热点相关信息,实现对舆情热点的跟踪和预警。本专利技术提供的技术方案以及热点跟踪装置带来的有益效果是:本专利技术基于热点关键词与后续事件存在潜在的关联性,通过将关联规则挖掘算法并行实现获得包含多项的频繁关键词集,在频繁关键词集中发现关联规则从而获取热点关联关键词,为舆情热点跟踪和响应决策提供支持,提尚响应的时效性,使得政府机构能够准确掌握当前的实时舆情趋势并进行跟踪,提高舆情应对策略的针对性。 【附图说明】为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的当前第1页1 2 本文档来自技高网...

【技术保护点】
一种基于并行关联规则的舆情热点跟踪方法,其特征在于:根据获取的社交网络页面信息对TOP1000关键词进行统计,获取1_项频繁关键词集;设置用户支持数,在已经获得k‑1_项频繁关键词集基础上继续获得k_项频繁关键词集的过程如下:k_项频繁关键词集的获得由1_项频繁关键词集和k‑1_项频繁关键词集合并获得,分为以下三个阶段:首先根据k‑1_项频繁关键词集进行数据分割和任务分配;其次,每个节点获得分配给它的k‑1_项频繁关键词集和所有1_项频繁关键词集,在本地进行处理,独立产生k_项频繁关键词集;最后,在服务器将分布式处理的结果组合形成一个集合,将集合中的重复项删除,得到全局的k_项频繁关键词集;继续进行以上过程直到所有k_项候选集的支持度都不能达到用户指定的支持度,将存在频繁关键词集的最大项记为n;根据得到的所有k_项频繁关键词集(1《k《n)和用户要求的最小可信度,产生所有大于最小可信度的关联规则,根据关联规则获取关联关键词,将一个热点关键词的关联关键词组合形成热点相关信息,实现对舆情热点的跟踪和预警。

【技术特征摘要】

【专利技术属性】
技术研发人员:李忠伟刘昕孙贝贝邹苹钧
申请(专利权)人:中国石油大学华东
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1