The present invention provides a method and a device for determining the association rules, the method comprises: constructing auxiliary table, auxiliary table includes at least two pending data corresponding to the identification information and the length of the field, and every one to be processed data corresponding to the identification information and at least one other pending identification information corresponding to the data a combination of data; for each combination of data, are executed: according to the length of the field data to be processed each data corresponding to the combination of the determined support data corresponding to the combination; determine the support degree is larger than a preset threshold, if yes, the data as a combination of frequent itemsets, otherwise, according to the the identification information corresponding to the combination of data from the data table, remove the auxiliary combination; determine the frequent itemsets corresponding confidence, confidence and confidence is larger than a preset A threshold, if it is, determines an association between the various data to be processed corresponding to the set of frequent itemsets. This scheme can improve the efficiency of determining the association rules.
【技术实现步骤摘要】
一种关联规则的确定方法及装置
本专利技术涉及计算机
,特别涉及一种关联规则的确定方法及装置。
技术介绍
关联规则是反映一个事物与其他事物之间的相互依存性和关联性的规则,其在金融和电子商务等多个领域具有重要作用。目前,人们已开发出多种算法对关联规则进行挖掘,例如Apriori算法和FP-树频集算法等。在利用Apriori算法挖掘关联规则时,一般先从数据库的众多数据中确定出频繁项集,即支持度不低于预设阈值的数据项集合,再从频繁项集中确定置信度不低于预设阈值的数据项,则确定出的支持度和置信度分别大于预设阈值的数据项,即为具有关联的数据项。在此过程中可能会产生仅符合支持度或置信度要求的候选数据集,计算时需反复迭代候选数据集中的数据项,迭代时需扫描整个数据库,而数据库中的数据量较大,扫描过程耗费的时间较多,导致确定关联规则的效率较低。
技术实现思路
本专利技术实施例提供了一种关联规则的确定方法及装置,能提高关联规则的确定效率。第一方面,本专利技术实施例提供了一种关联规则的确定方法,包括:构建辅助表,所述辅助表中包括:至少两个待处理数据分别对应的标识信息和字段长度,以及每一个所述待处理数据对应的标识信息与所述至少两个待处理数据中的至少一个其他待处理数据对应的标识信息构成的数据组合;针对每一个所述数据组合,均执行:根据每一个所述数据组合对应的待处理数据的字段长度,确定所述数据组合对应的支持度;确定所述支持度是否大于预设的支持度阈值,如果是,将所述数据组合作为频繁项集,否则,根据所述数据组合对应的标识信息,从所述辅助表中移除所述数据组合;确定所述频繁项集对应的置信度,并 ...
【技术保护点】
一种关联规则的确定方法,其特征在于,包括:构建辅助表,所述辅助表中包括:至少两个待处理数据分别对应的标识信息和字段长度,以及每一个所述待处理数据对应的标识信息与所述至少两个待处理数据中的至少一个其他待处理数据对应的标识信息构成的数据组合;针对每一个所述数据组合,均执行:根据每一个所述数据组合对应的待处理数据的字段长度,确定所述数据组合对应的支持度;确定所述支持度是否大于预设的支持度阈值,如果是,将所述数据组合作为频繁项集,否则,根据所述数据组合对应的标识信息,从所述辅助表中移除所述数据组合;确定所述频繁项集对应的置信度,并确定所述置信度是否大于预设的置信阈值,如果是,确定所述频繁项集对应的各个所述待处理数据之间存在关联。
【技术特征摘要】
1.一种关联规则的确定方法,其特征在于,包括:构建辅助表,所述辅助表中包括:至少两个待处理数据分别对应的标识信息和字段长度,以及每一个所述待处理数据对应的标识信息与所述至少两个待处理数据中的至少一个其他待处理数据对应的标识信息构成的数据组合;针对每一个所述数据组合,均执行:根据每一个所述数据组合对应的待处理数据的字段长度,确定所述数据组合对应的支持度;确定所述支持度是否大于预设的支持度阈值,如果是,将所述数据组合作为频繁项集,否则,根据所述数据组合对应的标识信息,从所述辅助表中移除所述数据组合;确定所述频繁项集对应的置信度,并确定所述置信度是否大于预设的置信阈值,如果是,确定所述频繁项集对应的各个所述待处理数据之间存在关联。2.根据权利要求1所述的方法,其特征在于,当确定出所述数据组合的支持度不大于所述支持度阈值时,所述根据所述数据组合对应的标识信息,从所述辅助表中移除所述数据组合,包括:根据所述数据组合中的各个所述标识信息,确定与所述数据组合对应的目标组合;其中,所述目标组合包括所述数据组合中的每一个所述标识信息;将确定出的所述目标组合和所述数据组合从所述辅助表中进行移除。3.根据权利要求1所述的方法,其特征在于,所述构建辅助表,包括:确定空闲内存空间;在确定出的空闲内存空间中构建所述辅助表。4.根据权利要求1所述的方法,其特征在于,所述根据每一个所述数据组合对应的待处理数据的字段长度,确定所述数据组合对应的支持度,包括:利用以下计算公式,计算所述数据组合对应的支持度;其中,M表征所述数据组合对应的支持度;bi表征所述数据组合中的第i个待处理数据对应的字段长度;n表征各个所述待处理数据的总数量;ai表征第i个待处理数据对应的字段长度。5.根据权利要求1所述的方法,其特征在于,所述确定所述频繁项集对应的置信度,包括:从所述频繁项集中确定目标待处理数据;根据所述目标待处理数据对应的字段长度,利用下述计算公式,计算所述频繁项集对应的置信度;其中,N表征所述频繁项集对应的置信度,bi表征所述频繁项集中的第i个待处理数据对应的字段长度,n表征所述...
【专利技术属性】
技术研发人员:王树峥,
申请(专利权)人:山东浪潮云服务信息科技有限公司,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。