【技术实现步骤摘要】
本专利技术数据处理领域,具体地,涉及一种关联规则算法的数据降维与压缩方法。
技术介绍
关联规则算法开始是由R.Agrawal等人提出的挖掘顾客交易数据中商品项目集间的关联规则问题,它能够从所有顾客的交易数据中挖掘出商品与商品之间的隐藏关系,比如买面包的顾客会顺便买牛奶的概率比较大,这将非常利于大商场的货物排放。目前,数据关联规则算法中常用的有两种:一种是Apriori算法,另一种是FP-Growth算法。Apriori算法由于需要不断的构造候选集、筛选候选集挖掘出频繁项集,需要多次扫描原始数据,数据源很大时,执行挖掘效率比较低下;FP-Growth算法则只需扫描原始数据两遍,执行挖掘效率相对比较高。如果参与运算的数据量达到一定的数量级别时,调用相关的数据关联规则算法,会创建非常多的文字节点数据存放在内存中并进行运算,容易导致机器内存不够用并且算法执行效率也比较低下。
技术实现思路
本专利技术的目的在于,针对上述问题,提出一种关联规则算法的数据降维与压缩方法,以实现提高大数据量处理效率的优点。为实现上述目的,本专利技术采用的技术方案是:一种关联规则算法的数据降维与压缩方法,包括:对数据源运用关联规则算法得到相应的频繁一项集;从而过滤掉无用的非频繁一项,得到有用的频繁一项集文件的步骤;对上述得到的频繁一项集进行数字编码化,从而得到数字编码化的数据源的步骤;以及对上述数字编码化后的数据源再次 ...
【技术保护点】
一种关联规则算法的数据降维与压缩方法,其特征在于,包括:对数据源运用关联规则算法得到相应的频繁一项集;从而过滤掉无用的非频繁一项,得到有用的频繁一项集文件的步骤;对上述得到的频繁一项集进行数字编码化,从而得到数字编码化的数据源的步骤;以及对上述数字编码化后的数据源再次运行关联规则算法得到频繁项集结果集的步骤。
【技术特征摘要】
1.一种关联规则算法的数据降维与压缩方法,其特征在于,包括:
对数据源运用关联规则算法得到相应的频繁一项集;从而过滤掉无用的非频繁一项,
得到有用的频繁一项集文件的步骤;
对上述得到的频繁一项集进行数字编码化,从而得到数字编码化的数据源的步...
【专利技术属性】
技术研发人员:江海国,
申请(专利权)人:央视国际网络无锡有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。