关联规则算法的数据降维与压缩方法技术

技术编号:13115001 阅读:66 留言:0更新日期:2016-04-06 07:30
本发明专利技术公开了一种关联规则算法的数据降维与压缩方法,包括:对数据源运用关联规则算法得到相应的频繁一项集;从而过滤掉无用的非频繁一项,得到有用的频繁一项集文件的步骤;对上述得到的频繁一项集进行数字编码化,从而得到数字编码化的数据源的步骤;以及对上述数字编码化后的数据源再次运行数据关联规则算法得到频繁项集结果集的步骤。达到提高大数据量处理效率的目的。

【技术实现步骤摘要】

本专利技术数据处理领域,具体地,涉及一种关联规则算法的数据降维与压缩方法
技术介绍
关联规则算法开始是由R.Agrawal等人提出的挖掘顾客交易数据中商品项目集间的关联规则问题,它能够从所有顾客的交易数据中挖掘出商品与商品之间的隐藏关系,比如买面包的顾客会顺便买牛奶的概率比较大,这将非常利于大商场的货物排放。目前,数据关联规则算法中常用的有两种:一种是Apriori算法,另一种是FP-Growth算法。Apriori算法由于需要不断的构造候选集、筛选候选集挖掘出频繁项集,需要多次扫描原始数据,数据源很大时,执行挖掘效率比较低下;FP-Growth算法则只需扫描原始数据两遍,执行挖掘效率相对比较高。如果参与运算的数据量达到一定的数量级别时,调用相关的数据关联规则算法,会创建非常多的文字节点数据存放在内存中并进行运算,容易导致机器内存不够用并且算法执行效率也比较低下。
技术实现思路
本专利技术的目的在于,针对上述问题,提出一种关联规则算法的数据降维与压缩方法,以实现提高大数据量处理效率的优点。为实现上述目的,本专利技术采用的技术方案是:一种关联规则算法的数据降维与压缩方法,包括:对数据源运用关联规则算法得到相应的频繁一项集;从而过滤掉无用的非频繁一项,得到有用的频繁一项集文件的步骤;对上述得到的频繁一项集进行数字编码化,从而得到数字编码化的数据源的步骤;以及对上述数字编码化后的数据源再次运行关联规则算法得到频繁项集结果集的步骤。优选的,所述关联规则算法:包括,Apriori算法或FP-Growth算法。本专利技术的技术方案具有以下有益效果:本专利技术的技术方案,先对数据源调用关联规则算法得到频繁一项集,不符合条件的项会被先过滤掉,减少了无用的数据参与后期的运算。对数据进行编码,使得参与算法运算创建树的过程中,对树节点之间相互比较和查询运算更加有效率,而且占用的内存也相对较小。达到提高大数据量处理效率的目的。在经济上,本技术方案对服务器性能相对原算法要求比较低,降低服务器硬件成本。在空间和时间上,节省了内存的占用,提高了数据挖掘的执行效率,算法性能相对提高。下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。附图说明图1为现有的FP-Growth算法的运算流程图;图2为本专利技术实施例所述的关联规则算法的数据降维与压缩方法的流程图;图3为本专利技术实施例所述的对数据源进行数字编码化的结果示意图;图4为采用本专利技术实施例所述的关联规则算法的数据降维与压缩方法的数据结构示意图。具体实施方式以下结合附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。一种关联规则算法的数据降维与压缩方法,包括:对数据源运用关联规则算法得到相应的频繁一项集;从而过滤掉无用的非频繁一项,得到有用的频繁一项集文件的步骤;对上述得到的频繁一项集进行数字编码化,从而得到数字编码化的数据源的步骤;以及对上述数字编码化后的数据源再次运行关联规则算法得到频繁项集结果集的步骤。优选的,关联规则算法:包括,Apriori算法或FP-Growth算法。如图3所示,常用的关联规则算法没有对参与运算的数据源数据类型进行限制,比如FP-Growth算法,它内用于存储各个节点的树结构,节点的内容是用文字字符串进行存储在内存中,很明显存储大量的数据节点会浪费很多内存空间,而且节点的内容之间相互比较与查询,也是非常的低效的由此,本专利技术技术方案则是用编码来描述节点的内容,这样不仅会节约内存空间而且执行效率也会提高不少。如图1所示,现有关联规则算法(FP-Growth算法),直接对数据源数据进行挖掘处理如图2所示,本专利技术技术方案,在挖掘数据前,需要对数据源进行分析加工压缩处理首先对事务数据源调用关联规则算法得到所有数据的频繁一项集结果集进行编码化,在利用前面的编码,再对之前的事务数据源进行编码化如图4所示,最后用编码化的事务数据进行参与关联规则算法(比如FP-Growth算法)运算,得到所需要的频繁项集结果集其中:下文具体对频繁一项与频繁项集进行说明:如:顾客消费记录customer1{牛奶,面包,鸡蛋,香肠本文档来自技高网...

【技术保护点】
一种关联规则算法的数据降维与压缩方法,其特征在于,包括:对数据源运用关联规则算法得到相应的频繁一项集;从而过滤掉无用的非频繁一项,得到有用的频繁一项集文件的步骤;对上述得到的频繁一项集进行数字编码化,从而得到数字编码化的数据源的步骤;以及对上述数字编码化后的数据源再次运行关联规则算法得到频繁项集结果集的步骤。

【技术特征摘要】
1.一种关联规则算法的数据降维与压缩方法,其特征在于,包括:
对数据源运用关联规则算法得到相应的频繁一项集;从而过滤掉无用的非频繁一项,
得到有用的频繁一项集文件的步骤;
对上述得到的频繁一项集进行数字编码化,从而得到数字编码化的数据源的步...

【专利技术属性】
技术研发人员:江海国
申请(专利权)人:央视国际网络无锡有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1