一种基于分布式框架的舆情并行关联挖掘方法技术

技术编号:29673810 阅读:30 留言:0更新日期:2021-08-13 21:55
本发明专利技术涉及一种基于分布式框架的舆情并行关联挖掘方法,首先将各目标网络舆情文本进行划分投影,生成各频繁项集;接着基于分区划分,设计有序模式森林,用于压缩存储舆情频繁模式;然后基于舆情频繁模式,提出深度路径搜索和长度优先超集检验,进行深度路径递归搜索生成最大舆情频繁候选项集,最后对舆情候选项集进行长度优先排序并检验超集,降低舆情候选项集的规模和挖掘次数,解决传统最大频繁项集挖掘算法在数据量大、维度高时效率低的问题,且对数据集规模具有良好的扩展性。

【技术实现步骤摘要】
一种基于分布式框架的舆情并行关联挖掘方法
本专利技术涉及一种基于分布式框架的舆情并行关联挖掘方法,属于舆情数据挖掘

技术介绍
网络舆情是指在一定的时间空间内,通过网络围绕中介性社会事件的发生、发展和变化,民众对公共问题和社会管理者产生和持有的社会政治态度、信念和价值观。它是较多民众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。网络舆情形成迅速,对社会影响巨大。传统的社会舆情存在于民间,存在于大众的思想观念和日常的街头巷尾的议论之中,前者难以捕捉,后者稍纵即逝,舆情的获取只能通过社会明察暗访、民意调查等方式进行,获取效率低下,样本少而且容易流于偏颇,耗费巨大。而随着互联网的发展,大众往往以信息化的方式发表各自看法,网络舆情可以采用Apriori数据挖掘算法技术自动抓取目标数据,效率高而且信息保真,覆盖面全。关联规则算法是数据挖掘中一个重要的应用,关联规则挖掘是从大型数据集中挖掘相关信息的最佳技术之一。当关联规则挖掘算法在数据集规模较小的情况下执行,传统算法往往是有效的,然而随着数据集规模的增加,算法的效率本文档来自技高网...

【技术保护点】
1.一种基于分布式框架的舆情并行关联挖掘方法,用于实现对各目标网络舆情文本的舆情数据挖掘,其特征在于,包括如下步骤:/n步骤A. 分别针对各目标网络舆情文本执行分词操作,获得各目标网络舆情文本分别所对应的各个分词,然后进入步骤B;/n步骤B. 根据预设热词库,获得各目标网络舆情文本分别所对应的热度,筛选获得热度大于预设文本热度下限阈值的各个目标网络舆情文本,构成各个待处理目标网络舆情文本,然后进入步骤C;/n步骤C. 针对各待处理目标网络舆情文本,通过提取待处理目标网络舆情文本所对应频繁出现的分词作为各个频繁项,并结合各频繁项在待处理目标网络舆情文本中的位置进行排序,构成待处理目标网络舆情文本...

【技术特征摘要】
1.一种基于分布式框架的舆情并行关联挖掘方法,用于实现对各目标网络舆情文本的舆情数据挖掘,其特征在于,包括如下步骤:
步骤A.分别针对各目标网络舆情文本执行分词操作,获得各目标网络舆情文本分别所对应的各个分词,然后进入步骤B;
步骤B.根据预设热词库,获得各目标网络舆情文本分别所对应的热度,筛选获得热度大于预设文本热度下限阈值的各个目标网络舆情文本,构成各个待处理目标网络舆情文本,然后进入步骤C;
步骤C.针对各待处理目标网络舆情文本,通过提取待处理目标网络舆情文本所对应频繁出现的分词作为各个频繁项,并结合各频繁项在待处理目标网络舆情文本中的位置进行排序,构成待处理目标网络舆情文本所对应的频繁项集,进而获得各待处理目标网络舆情文本分别所对应的频繁项集,然后进入步骤D;
步骤D.分别针对各待处理目标网络舆情文本所对应的频繁项集,按预设分区数,基于滑动窗口针对频繁项集逐个频繁项滑动下、所获各位置滑动窗口分别对应一个分区,各分区分别包含对应位置滑动窗口中的各频繁项,获得该频繁项集所对应的个分区,即获得各待处理目标网络舆情文本分别所对应的个分区,然后进入步骤E;
步骤E.分别基于参数,针对各待处理目标网络舆情文本所对应的第分区,通过有序森林存储模式的构建,作为第汇总分区所对应的有序模式森林,进而获得各汇总分区分别所对应的有序模式森林,然后进入步骤F;
步骤F.基于各汇总分区分别所对应的有序模式森林,根据针对有序模式森林中树节点的深度路径搜索应用,通过后缀树的构建,获得各汇总分区分别所对应的各最大频繁候选项集,然后进入步骤G;
步骤G.针对各汇总分区分别所对应的各最大频繁候选项集,删除最大频繁候选项集中的冗余节点集合、低支持度节点集合,更新各汇总分区分别所对应的各最大频繁候选项集,然后进入步骤H;
步骤H.针对各汇总分区分别所对应的各最大频繁候选项集,执行降维操作,删除其中彼此之间构成子集的最大频繁候选项集,更新各汇总分区分别所对应的各最大频繁候选项集,然后进入步骤I;
步骤I.针对各汇总分区分别所对应的各最大频繁候选项集,通过预设置信度阈值、预设提升度阈值挖掘关键词,实现对各目标网络舆情文本的舆情数据挖掘。


2.根据权利要求1所述一种基于分布式框架的舆情并行关联挖掘方法,其特征在于:所述步骤C中,分别针对各个待处理目标网络舆情文本,执行如下步骤C1至步骤C3,获得各待处理目标网络舆情文本分别所对应的频繁项集;
步骤C1.获得待处理目标网络舆情文本所对应各不同分词分别出现的次数,并针对该各不同分词按其出现次数由高到低进行排序,然后进入步骤C2;
步骤C2.按公式,选取该各不同分词排序中的前个不同分词,作为该待处理目标网络舆情文本所对应的各个频繁项,然后进入步骤C3;其中,表示比例数,表示该待处理目标网络舆情文本所对应各不同分词的数量,表示向上取整;
步骤C3.获得各频繁项分别在该待处理目标网络舆情文本中最后一次出现的位置,并按此顺序,由各频繁项构成该待处理目标网络舆情文本所对应的频繁项集。


3.根据权利要求1所述一种基于分布式框架的舆情并行关联挖掘方法,其特征在于:所述步骤E包括如下步骤E1至步骤E6;
步骤E1.初始化参数,并进入步骤E2;
步骤E2.针对各待处理目标网络舆情文本所对应的第分区,统计其中各不同频繁项出现次数分别与其中最大频繁项出现次数的比值,作为各不同频繁项分别对应的热度,并进入步骤E3;
步骤E3.针对各待处理目标网络舆情文本所对应的第分区,统计其中各不同频繁项出现次数分别与其中各不同频繁项出现总次数的比值,作为各不同频繁项分别对应的频率,并进入步骤E4;
步骤E4.选择所包含各频繁项的热度、频率分别均小于预设频繁项热度阈值、预设频繁项频率阈值,且所包含频繁项个数不小于预设分区频繁项数阈值的各第分区,删除该各第分区,然后进入步骤E5;
步骤E5.基于剩余各第分区中的各频繁项,构建有序森林存储模式,作为第汇总分区所对应的有序模式森林,然后进入步骤E6;
步骤E6.判断是否等于,是则即获得各汇总分区分别所对应的有序模式森林,并进入步骤F;否则针对的值进行加1更新,并返回步骤E2。


4.根据权利要求3所述一种基于分布式框架的舆情并行关联挖掘方法,其特征在于:所述步骤E5包括如下步骤E5-1至步骤E5-3;
步骤E5-1.基于剩余各第分区中的各频繁项,统计其中各不同频繁项出现次数分别与其中各不同频繁项出现总次数的比值,作为各不同频繁项分别对应的二次频率,然后进入步骤E5-2;
步骤E5-2.分别针对剩余各第分区,按二次频率由高至低顺序,针对第分区中的各频繁项进行排序,进而更新剩余各第分区中频繁项的排序,然后进入步骤E5-3;
步骤E5-3.创建、并基于根节点root,依次选择剩余各第分区,并按所选分区中频繁项的排序,依次创建各频繁项分别对应的树节点,完成剩余各第分区中各频繁项的有序森林存储模式,进而作为第汇总分区所对应的有序模式森林,然后进入步骤E6。

【专利技术属性】
技术研发人员:刘宇彭艳兵唐帅李雪
申请(专利权)人:南京烽火星空通信发展有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1