【技术实现步骤摘要】
一种雾环境下基于CFI-Apriori算法的元组度量方法及系统
本专利技术涉及通信
,特别是指一种雾环境下基于CFI-Apriori算法的元组度量方法及系统。
技术介绍
近年来,随着社会网络的发展,信息技术也在不断革新,社交网络,电子商务,人工智能等进入了蓬勃发展时期,网络数据呈现海量,结构复杂,动态难以追溯等特点,各种结构与非结构化数据充斥在社会网络的各个角落,我们进入了大数据时代,数据之间的关联程度越来越紧密与复杂,因此如何有效的将数据的关联关系较完整的表现出来,如何有效的挖掘关联数据中潜藏的价值是值得探索与研究的。随着无线网络与传感技术的提升,无限网络覆盖区域进一步扩大,现有的云计算框架可以满足大多数固定的网络用户,但无法满足新生的智能移动终端的多样化服务需求,为了适应新需求,思科先提出了雾计算的概念。在雾节点中利用Apriori算法,优点在于可以简单的将数据之间的关联关系找出来,但是根据Apriori算法的性质,Apriori算法会将候选频繁项集中小于最小支持度的候选频繁项集删除,会丢失一些潜藏信息,导致数据准确率降低,且关联后的数据样本中包含多种不同项级别的频繁项集与非频繁项集的信息,样本信息杂乱,数据有效利用率低。
技术实现思路
本专利技术要解决的技术问题是提供一种雾环境下基于CFI-Apriori算法的元组度量方法及系统,能够有效利用原Apriori算法在迭代过程中丢失的非频繁项集的潜藏信息,提升了关联后的数据的完整性与可用性,使隐藏的、有价值的、关联程度较小的信息得以 ...
【技术保护点】
1.一种雾环境下基于CFI-Apriori算法的元组度量方法,其特征在于,包括:/n获取雾节点上的原始数据;/n在雾节点本地利用基于CFI的Apriori算法对获取的原始数据进行关联,产生频繁项集,并对剪枝过程小于最小支持度的候选频繁项集进行存储,其中,CFI表示候选频繁项集,小于最小支持度的候选频繁项集为非频繁项集;/n将获取的原始数据、产生的频繁项集和存储的非频繁项集上传到云服务器,以便云服务器根据接收到频繁项集和非频繁项集集对接收到的原始数据进行关联、度量,并根据度量结果提取数据。/n
【技术特征摘要】
1.一种雾环境下基于CFI-Apriori算法的元组度量方法,其特征在于,包括:
获取雾节点上的原始数据;
在雾节点本地利用基于CFI的Apriori算法对获取的原始数据进行关联,产生频繁项集,并对剪枝过程小于最小支持度的候选频繁项集进行存储,其中,CFI表示候选频繁项集,小于最小支持度的候选频繁项集为非频繁项集;
将获取的原始数据、产生的频繁项集和存储的非频繁项集上传到云服务器,以便云服务器根据接收到频繁项集和非频繁项集集对接收到的原始数据进行关联、度量,并根据度量结果提取数据。
2.根据权利要求1所述的雾环境下基于CFI-Apriori算法的元组度量方法,其特征在于,所述在雾节点本地利用基于CFI的Apriori算法对获取的原始数据进行关联,产生频繁项集,并对剪枝过程小于最小支持度的候选频繁项集进行存储包括:
A1,在雾节点本地,生成原始数据对应的事务表,令k=1,扫描事务表,其中,k表示项集中元素的数目;
A2,生成候选频繁k项集的集合Ck,从集合Ck中,选取支持度大于等于最小支持度的候选项集,生成频繁k项集的集合Lk;若Lk为空,则结束;若Lk不为空,则继续执行步骤A3;其中,若k>1时,将小于最小支持度的候选频繁k项集储存在内存中;若k=1,将小于最小支持度的候选频繁1项集删除;
A3,从频繁k项集的集合Lk中取出两个频繁项集,若取出的两个频繁项集有且只有k-1个项相同,则取出的两个频繁项集进行连接,得到候选频繁(k+1)项集;
A4,重复执行步骤A3,直至得到的候选频繁(k+1)项集不在重复,得到候选频繁(k+1)项集的集合Ck+1,若Ck+1不为空,则k=k+1,并返回执行步骤A2;否则,则结束。
3.根据权利要求1所述的雾环境下基于CFI-Apriori算法的元组度量方法,其特征在于,在云服务器根据接收到频繁项集和非频繁项集集对接收到的原始数据进行关联、度量之前,所述方法还包括:
云服务器对接收到的频繁项集和非频繁项集进行去重处理。
4.根据权利要求1所述的雾环境下基于CFI-Apriori算法的元组度量方法,其特征在于,所述云服务器根据接收到频繁项集和非频繁项集集对接收到的原始数据进行关联、度量,并根据度量结果提取数据包括:
云服务器根据接收到频繁项集和非频繁项集集对接收到的原始数据进行关联,基于用户需求和项集占比对关联后的数据进行度量,根据度量结果提取数据。
5.根据权利要求4所述的雾环境下基于CFI-Apriori算法的元组度量方法,其特征在于,所述云服务器根据接收到频繁项集和非频繁项集集对接收到的原始数据进行关联,基于用户需求和项集占比对关联后的数据进行度量,根据度量结果提取数据包括:
在云服务器,根据接收到的频繁项集和非频繁项集,对接收到的原始数据进行关联,并根据关联后的数据生成相应的子事务表;其中,子事务表中每行表示一个元组,元组是由事...
【专利技术属性】
技术研发人员:林福宏,吴青青,周成成,陆月明,许海涛,安建伟,
申请(专利权)人:北京科技大学,北京邮电大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。