【技术实现步骤摘要】
数据处理方法、装置、设备、存储介质及计算机程序产品
[0001]本申请属于数据处理领域,尤其涉及一种数据处理方法、装置、设备、存储介质及计算机程序产品。
技术介绍
[0002]随着大数据时代的到来,对海量数据的处理成为了现在要解决的关键问题,尤其是随着人们对教育行业的高度重视,发现海量教育数据之间的关联性成为更为重要的要解决的问题。
[0003]目前发现海量教育数据之间的关联性通常是利用Aprior算法对要进行处理的大量教育数据进行逐层反复扫描,从而在海量教育数据中发现各种类型的教育数据之间的关联性。
[0004]然而,上述方式由于需要对存储海量教育数据的数据库进行逐层反复扫描,增加了读取数据库I/O口的操作次数,从而导致计算时间过长,降低了数据处理的效率。
技术实现思路
[0005]本申请实施例提供种数据处理方法、装置、设备、存储介质及计算机程序产品,实现高效从海量教育数据中发现各类教育数据之间的关联性的效果。
[0006]第一方面,本申请实施例提供一种数据处理方法,方法包括: />[0007]对所本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取预设区域内的待处理教育数据;所述待处理教育数据包括多种不同类型的教育数据;对所述待处理教育数据进行哈希函数的计算,得到与所述待处理教育数据对应的哈希编码;对所述哈希编码构建哈希索引;对所述哈希索引进行扫描,得到至少一个频繁项集;其中,所述频繁项集中包括至少一种类型的教育数据;基于至少一个频繁项集,生成各所述频繁项集的关联规则。2.根据权利要求1所述的方法,其特征在于,所述对所述哈希编码构建哈希索引,包括:将所述哈希编码划分为至少两个子哈希编码串;将每个所述子哈希编码串作为哈希筒编码,插入哈希表中,生成哈希索引。3.根据权利要求1所述的方法,其特征在于,所述对所述哈希索引进行扫描,得到至少一个频繁项集,包括:对所述哈希索引进行扫描,构造候选K
‑
项集哈希表;其中,K的初始值为1;根据所述候选K
‑
项集哈希表和预先设置的最小支持度获取K
‑
频繁项集;将各所述K
‑
频繁项集两两进行与运算,得到K+1
‑
频繁项集;按照K=K+1的方式更新K值,返回执行所述将各所述K
‑
频繁项集两两进行与运算,得到K+1
‑
频繁项集,直至不再生成新的频繁项集。4.根据权利要求1所述的方法,其特征在于,在所述基于至少一个频繁项集,生成各所述频繁项集的关联规则之后,所述方法还包括:基于所述关联规则和所述待处理教育数据,筛选出符合所述关联规则的待处理教育数据对应的项目。5.根据权利要求4所述的方法,其特征在于,在所述基于所述关...
【专利技术属性】
技术研发人员:权蕾,
申请(专利权)人:中国移动通信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。