一种雾环境下基于CFI-Apriori算法的元组度量方法及系统技术方案

技术编号:24091125 阅读:36 留言:0更新日期:2020-05-09 08:07
本发明专利技术提供一种雾环境下基于CFI‑Apriori算法的元组度量方法及系统,能够有效利用原Apriori算法在迭代过程中丢失的非频繁项集的潜藏信息,提高数据的有效利用率和准确率。所述方法包括:获取雾节点上的原始数据;在雾节点本地利用基于CFI的Apriori算法对获取的原始数据进行关联,产生频繁项集,并对剪枝过程小于最小支持度的候选频繁项集进行存储,其中,CFI表示候选频繁项集,小于最小支持度的候选频繁项集为非频繁项集;将获取的原始数据、产生的频繁项集和存储的非频繁项集上传到云服务器,以便云服务器根据接收到频繁项集和非频繁项集集对接收到的原始数据进行关联、度量,并根据度量结果提取数据。本发明专利技术涉及通信技术领域。

A tuple measurement method and system based on CFI Apriori algorithm in fog environment

【技术实现步骤摘要】
一种雾环境下基于CFI-Apriori算法的元组度量方法及系统
本专利技术涉及通信
,特别是指一种雾环境下基于CFI-Apriori算法的元组度量方法及系统。
技术介绍
近年来,随着社会网络的发展,信息技术也在不断革新,社交网络,电子商务,人工智能等进入了蓬勃发展时期,网络数据呈现海量,结构复杂,动态难以追溯等特点,各种结构与非结构化数据充斥在社会网络的各个角落,我们进入了大数据时代,数据之间的关联程度越来越紧密与复杂,因此如何有效的将数据的关联关系较完整的表现出来,如何有效的挖掘关联数据中潜藏的价值是值得探索与研究的。随着无线网络与传感技术的提升,无限网络覆盖区域进一步扩大,现有的云计算框架可以满足大多数固定的网络用户,但无法满足新生的智能移动终端的多样化服务需求,为了适应新需求,思科先提出了雾计算的概念。在雾节点中利用Apriori算法,优点在于可以简单的将数据之间的关联关系找出来,但是根据Apriori算法的性质,Apriori算法会将候选频繁项集中小于最小支持度的候选频繁项集删除,会丢失一些潜藏信息,导致数据准确率降低,且关联后的数据样本中包含多种不同项级别的频繁项集与非频繁项集的信息,样本信息杂乱,数据有效利用率低。
技术实现思路
本专利技术要解决的技术问题是提供一种雾环境下基于CFI-Apriori算法的元组度量方法及系统,能够有效利用原Apriori算法在迭代过程中丢失的非频繁项集的潜藏信息,提升了关联后的数据的完整性与可用性,使隐藏的、有价值的、关联程度较小的信息得以利用,并通过度量实现关联后数据的有效性评价,提取有效数据,从而提高数据的有效利用率和准确率。为解决上述技术问题,本专利技术实施例提供一种雾环境下基于CFI-Apriori算法的元组度量方法,包括:获取雾节点上的原始数据;在雾节点本地利用基于CFI的Apriori算法对获取的原始数据进行关联,产生频繁项集,并对剪枝过程小于最小支持度的候选频繁项集进行存储,其中,CFI表示候选频繁项集,小于最小支持度的候选频繁项集为非频繁项集;将获取的原始数据、产生的频繁项集和存储的非频繁项集上传到云服务器,以便云服务器根据接收到频繁项集和非频繁项集集对接收到的原始数据进行关联、度量,并根据度量结果提取数据。进一步地,所述在雾节点本地利用基于CFI的Apriori算法对获取的原始数据进行关联,产生频繁项集,并对剪枝过程小于最小支持度的候选频繁项集进行存储包括:A1,在雾节点本地,生成原始数据对应的事务表,令k=1,扫描事务表,其中,k表示项集中元素的数目;A2,生成候选频繁k项集的集合Ck,从集合Ck中,选取支持度大于等于最小支持度的候选项集,生成频繁k项集的集合Lk;若Lk为空,则结束;若Lk不为空,则继续执行步骤A3;其中,若k>1时,将小于最小支持度的候选频繁k项集储存在内存中;若k=1,将小于最小支持度的候选频繁1项集删除;A3,从频繁k项集的集合Lk中取出两个频繁项集,若取出的两个频繁项集有且只有k-1个项相同,则取出的两个频繁项集进行连接,得到候选频繁(k+1)项集;A4,重复执行步骤A3,直至得到的候选频繁(k+1)项集不在重复,得到候选频繁(k+1)项集的集合Ck+1,若Ck+1不为空,则k=k+1,并返回执行步骤A2;否则,则结束。进一步地,在云服务器根据接收到频繁项集和非频繁项集集对接收到的原始数据进行关联、度量之前,所述方法还包括:云服务器对接收到的频繁项集和非频繁项集进行去重处理。进一步地,所述云服务器根据接收到频繁项集和非频繁项集集对接收到的原始数据进行关联、度量,并根据度量结果提取数据包括:云服务器根据接收到频繁项集和非频繁项集集对接收到的原始数据进行关联,基于用户需求和项集占比对关联后的数据进行度量,根据度量结果提取数据。进一步地,所述云服务器根据接收到频繁项集和非频繁项集集对接收到的原始数据进行关联,基于用户需求和项集占比对关联后的数据进行度量,根据度量结果提取数据包括:在云服务器,根据接收到的频繁项集和非频繁项集,对接收到的原始数据进行关联,并根据关联后的数据生成相应的子事务表;其中,子事务表中每行表示一个元组,元组是由事务组成;确定子事务表中元组Dj中频繁i项集与非频繁i项集的数目xi占元组Dj中i项组合的组合集中组合数目的比值p(xi);其中,Dj表示第j行元组,xi表示i项集的数目;确定xi的权值wi,其中,wi由p(xi)与用户需求共同确定;根据p(xi)和wi确定元组Dj的价值Qj;判定价值Qj是否大于预设的价值阈值,若是,则元组Dj利用性高,提取元组Dj。进一步地,价值Qj表示为:其中,n表示元组Dj中最大项集包含的事务的数目。进一步地,所述云服务器根据接收到频繁项集和非频繁项集集对接收到的原始数据进行关联、度量,并根据度量结果提取数据包括:云服务器根据接收到频繁项集和非频繁项集集对接收到的原始数据进行关联,利用信息熵计算频繁项集的涵盖量对关联后的数据进行度量,根据度量结果提取数据。进一步地,所述云服务器根据接收到频繁项集和非频繁项集集对接收到的原始数据进行关联,利用信息熵计算频繁项集的涵盖量对关联后的数据进行度量,根据度量结果提取数据包括:云服务器根据接收到的频繁项集和非频繁项集,对接收到的原始数据进行关联,并根据关联后的数据生成相应的子事务表;其中,子事务表中每行表示一个元组,元组是由事务组成;确定子事务表中元组Dj中频繁k项集的数目占元组Dj中频繁k项集与非频繁k项集的数目的比值Pk;其中,Dj表示第j行元组;通过信息熵确定元组Dj的不确定性;判定信息熵是否小于预设的信息熵阈值,若是,则元组Dj的不确定性小,提取元组Dj。进一步地,信息熵表示为:其中,Ent(Dj)表示元组Dj的信息熵,|y|表示元组Dj中最大频繁项集包含的事务的数目。本专利技术实施例还提供一种雾环境下基于CFI-Apriori算法的元组度量系统,包括:雾节点和云服务器,其中,所述雾节点包括:获取模块、生成模块和上传模块;获取模块,用于获取雾节点上的原始数据;生成模块,用于在雾节点本地利用基于CFI的Apriori算法对获取的原始数据进行关联,产生频繁项集,并对剪枝过程小于最小支持度的候选频繁项集进行存储,其中,CFI表示候选频繁项集,小于最小支持度的候选频繁项集为非频繁项集;上传模块,用于将获取的原始数据、产生的频繁项集和存储的非频繁项集上传到云服务器;云服务器,用于根据接收到频繁项集和非频繁项集集对接收到的原始数据进行关联、度量,并根据度量结果提取数据。本专利技术的上述技术方案的有益效果如下:上述方案中,获取雾节点上的原始数据;在雾节点本地利用基于CFI的Apriori算法对获取的原始数据进行关联,产生频繁项集,并对剪枝过程小于最小支持度的候本文档来自技高网...

【技术保护点】
1.一种雾环境下基于CFI-Apriori算法的元组度量方法,其特征在于,包括:/n获取雾节点上的原始数据;/n在雾节点本地利用基于CFI的Apriori算法对获取的原始数据进行关联,产生频繁项集,并对剪枝过程小于最小支持度的候选频繁项集进行存储,其中,CFI表示候选频繁项集,小于最小支持度的候选频繁项集为非频繁项集;/n将获取的原始数据、产生的频繁项集和存储的非频繁项集上传到云服务器,以便云服务器根据接收到频繁项集和非频繁项集集对接收到的原始数据进行关联、度量,并根据度量结果提取数据。/n

【技术特征摘要】
1.一种雾环境下基于CFI-Apriori算法的元组度量方法,其特征在于,包括:
获取雾节点上的原始数据;
在雾节点本地利用基于CFI的Apriori算法对获取的原始数据进行关联,产生频繁项集,并对剪枝过程小于最小支持度的候选频繁项集进行存储,其中,CFI表示候选频繁项集,小于最小支持度的候选频繁项集为非频繁项集;
将获取的原始数据、产生的频繁项集和存储的非频繁项集上传到云服务器,以便云服务器根据接收到频繁项集和非频繁项集集对接收到的原始数据进行关联、度量,并根据度量结果提取数据。


2.根据权利要求1所述的雾环境下基于CFI-Apriori算法的元组度量方法,其特征在于,所述在雾节点本地利用基于CFI的Apriori算法对获取的原始数据进行关联,产生频繁项集,并对剪枝过程小于最小支持度的候选频繁项集进行存储包括:
A1,在雾节点本地,生成原始数据对应的事务表,令k=1,扫描事务表,其中,k表示项集中元素的数目;
A2,生成候选频繁k项集的集合Ck,从集合Ck中,选取支持度大于等于最小支持度的候选项集,生成频繁k项集的集合Lk;若Lk为空,则结束;若Lk不为空,则继续执行步骤A3;其中,若k>1时,将小于最小支持度的候选频繁k项集储存在内存中;若k=1,将小于最小支持度的候选频繁1项集删除;
A3,从频繁k项集的集合Lk中取出两个频繁项集,若取出的两个频繁项集有且只有k-1个项相同,则取出的两个频繁项集进行连接,得到候选频繁(k+1)项集;
A4,重复执行步骤A3,直至得到的候选频繁(k+1)项集不在重复,得到候选频繁(k+1)项集的集合Ck+1,若Ck+1不为空,则k=k+1,并返回执行步骤A2;否则,则结束。


3.根据权利要求1所述的雾环境下基于CFI-Apriori算法的元组度量方法,其特征在于,在云服务器根据接收到频繁项集和非频繁项集集对接收到的原始数据进行关联、度量之前,所述方法还包括:
云服务器对接收到的频繁项集和非频繁项集进行去重处理。


4.根据权利要求1所述的雾环境下基于CFI-Apriori算法的元组度量方法,其特征在于,所述云服务器根据接收到频繁项集和非频繁项集集对接收到的原始数据进行关联、度量,并根据度量结果提取数据包括:
云服务器根据接收到频繁项集和非频繁项集集对接收到的原始数据进行关联,基于用户需求和项集占比对关联后的数据进行度量,根据度量结果提取数据。


5.根据权利要求4所述的雾环境下基于CFI-Apriori算法的元组度量方法,其特征在于,所述云服务器根据接收到频繁项集和非频繁项集集对接收到的原始数据进行关联,基于用户需求和项集占比对关联后的数据进行度量,根据度量结果提取数据包括:
在云服务器,根据接收到的频繁项集和非频繁项集,对接收到的原始数据进行关联,并根据关联后的数据生成相应的子事务表;其中,子事务表中每行表示一个元组,元组是由事...

【专利技术属性】
技术研发人员:林福宏吴青青周成成陆月明许海涛安建伟
申请(专利权)人:北京科技大学北京邮电大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1