一种关联规则的确定方法及装置制造方法及图纸

技术编号:17541713 阅读:34 留言:0更新日期:2018-03-24 18:51
本发明专利技术提供了一种关联规则的确定方法及装置,该方法包括:构建辅助表,辅助表中包括:至少两个待处理数据分别对应的标识信息和字段长度,以及每一个待处理数据对应的标识信息与至少一个其他待处理数据对应的标识信息构成的数据组合;针对每一个数据组合,均执行:根据每一个数据组合对应的待处理数据的字段长度,确定数据组合对应的支持度;确定支持度是否大于预设的支持度阈值,如果是,将数据组合作为频繁项集,否则,根据数据组合对应的标识信息,从辅助表中移除数据组合;确定频繁项集对应的置信度,并确定置信度是否大于预设的置信阈值,如果是,确定所述频繁项集对应的各个所述待处理数据之间存在关联。本方案能提高确定关联规则的效率。

A method and device for determining the association rules

The present invention provides a method and a device for determining the association rules, the method comprises: constructing auxiliary table, auxiliary table includes at least two pending data corresponding to the identification information and the length of the field, and every one to be processed data corresponding to the identification information and at least one other pending identification information corresponding to the data a combination of data; for each combination of data, are executed: according to the length of the field data to be processed each data corresponding to the combination of the determined support data corresponding to the combination; determine the support degree is larger than a preset threshold, if yes, the data as a combination of frequent itemsets, otherwise, according to the the identification information corresponding to the combination of data from the data table, remove the auxiliary combination; determine the frequent itemsets corresponding confidence, confidence and confidence is larger than a preset A threshold, if it is, determines an association between the various data to be processed corresponding to the set of frequent itemsets. This scheme can improve the efficiency of determining the association rules.

【技术实现步骤摘要】
一种关联规则的确定方法及装置
本专利技术涉及计算机
,特别涉及一种关联规则的确定方法及装置。
技术介绍
关联规则是反映一个事物与其他事物之间的相互依存性和关联性的规则,其在金融和电子商务等多个领域具有重要作用。目前,人们已开发出多种算法对关联规则进行挖掘,例如Apriori算法和FP-树频集算法等。在利用Apriori算法挖掘关联规则时,一般先从数据库的众多数据中确定出频繁项集,即支持度不低于预设阈值的数据项集合,再从频繁项集中确定置信度不低于预设阈值的数据项,则确定出的支持度和置信度分别大于预设阈值的数据项,即为具有关联的数据项。在此过程中可能会产生仅符合支持度或置信度要求的候选数据集,计算时需反复迭代候选数据集中的数据项,迭代时需扫描整个数据库,而数据库中的数据量较大,扫描过程耗费的时间较多,导致确定关联规则的效率较低。
技术实现思路
本专利技术实施例提供了一种关联规则的确定方法及装置,能提高关联规则的确定效率。第一方面,本专利技术实施例提供了一种关联规则的确定方法,包括:构建辅助表,所述辅助表中包括:至少两个待处理数据分别对应的标识信息和字段长度,以及每一个所述待处理数据对应的标识信息与所述至少两个待处理数据中的至少一个其他待处理数据对应的标识信息构成的数据组合;针对每一个所述数据组合,均执行:根据每一个所述数据组合对应的待处理数据的字段长度,确定所述数据组合对应的支持度;确定所述支持度是否大于预设的支持度阈值,如果是,将所述数据组合作为频繁项集,否则,根据所述数据组合对应的标识信息,从所述辅助表中移除所述数据组合;确定所述频繁项集对应的置信度,并确定所述置信度是否大于预设的置信阈值,如果是,确定所述频繁项集对应的各个所述待处理数据之间存在关联。优选地,当确定出所述数据组合的支持度不大于所述支持度阈值时,所述根据所述数据组合对应的标识信息,从所述辅助表中移除所述数据组合,包括:根据所述数据组合中的各个所述标识信息,确定与所述数据组合对应的目标组合;其中,所述目标组合包括所述数据组合中的每一个所述标识信息;将确定出的所述目标组合和所述数据组合从所述辅助表中进行移除。优选地,所述构建辅助表,包括:确定空闲内存空间;在确定出的空闲内存空间中构建所述辅助表。优选地,所述根据每一个所述数据组合对应的待处理数据的字段长度,确定所述数据组合对应的支持度,包括:利用以下计算公式,计算所述数据组合对应的支持度;其中,M表征所述数据组合对应的支持度;bi表征所述数据组合中的第i个待处理数据对应的字段长度;n表征各个所述待处理数据的总数量;ai表征第i个待处理数据对应的字段长度。优选地,所述确定所述频繁项集对应的置信度,包括:从所述频繁项集中确定目标待处理数据;根据所述目标待处理数据对应的字段长度,利用下述计算公式,计算所述频繁项集对应的置信度;其中,N表征所述频繁项集对应的置信度,bi表征所述频繁项集中的第i个待处理数据对应的字段长度,n表征所述目标待处理数据对应的字段长度。第二方面,本专利技术实施例提供了一种关联规则的确定装置,包括:构建单元、支持度确定单元和关联规则确定单元;其中,所述构建单元,用于构建辅助表,所述辅助表中包括:至少两个待处理数据分别对应的标识信息和字段长度,以及每一个所述待处理数据对应的标识信息与所述至少两个待处理数据中的至少一个其他待处理数据对应的标识信息构成的数据组合;所述支持度确定单元,用于针对每一个所述数据组合,均执行:根据每一个所述数据组合对应的待处理数据的字段长度,确定所述数据组合对应的支持度;并确定所述支持度是否大于预设的支持度阈值,如果是,将所述数据组合作为频繁项集,否则,根据所述数据组合对应的标识信息,从所述辅助表中移除所述数据组合;所述关联规则确定单元,用于确定所述频繁项集对应的置信度,并确定所述置信度是否大于预设的置信阈值,如果是,确定所述频繁项集对应的各个所述待处理数据之间存在关联。优选地,所述支持度确定单元,用于根据所述数据组合中的各个所述标识信息,确定与所述数据组合对应的目标组合;其中,所述目标组合包括所述数据组合中的每一个所述标识信息;并将确定出的所述目标组合和所述数据组合从所述辅助表中进行移除。优选地,所述构建单元,用于确定空闲内存空间,在确定出的空闲内存空间中构建所述辅助表。优选地,所述支持度确定单元,用于利用以下计算公式,计算所述数据组合对应的支持度;其中,M表征所述数据组合对应的支持度;bi表征所述数据组合中的第i个待处理数据对应的字段长度;n表征各个所述待处理数据的总数量;ai表征第i个待处理数据对应的字段长度。优选地,所述关联规则确定单元,用于从所述频繁项集中确定目标待处理数据,并根据所述目标待处理数据对应的字段长度,利用下述计算公式,计算所述频繁项集对应的置信度;其中,N表征所述频繁项集对应的置信度,bi表征所述频繁项集中的第i个待处理数据对应的字段长度,n表征所述目标待处理数据对应的字段长度。本专利技术实施例提供了一种关联规则的确定方法及装置,通过构建辅助表,用以存储各个待处理数据构成的数据组合,当确定出某一数据组合对应的支持度不大于预设的支持度阈值时,说明该数据组合对应的待处理数据不符和相应的关联规则,此时将该数据组合从辅助表中移除,使得后续在确定置信度时,不用再对该数据组合对应的待处理数据进行扫描,由此降低了扫描数据量,缩短了数据扫描时间,从而提高了确定关联规则的效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一个实施例提供的一种关联规则的确定方法的流程图;图2是本专利技术另一个实施例提供的一种关联规则的确定方法的流程图;图3是本专利技术一个实施例提供的一种关联规则的确定装置的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例,基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,本专利技术实施例提供了一种关联规则的确定方法,该方法可以包括以下步骤:步骤101:构建辅助表,所述辅助表中包括:至少两个待处理数据分别对应的标识信息和字段长度,以及每一个所述待处理数据对应的标识信息与所述至少两个待处理数据中的至少一个其他待处理数据对应的标识信息构成的数据组合;步骤102:针对每一个所述数据组合,均执行:根据每一个所述数据组合对应的待处理数据的字段长度,确定所述数据组合对应的支持度;步骤103:判断所述支持度是否大于预设的支持度阈值,如果是,执行步骤104,否则执行步骤105;步骤104:将所述数据组合作为频繁项集,并执行步骤106:步骤105:根据所述数据组合对应的标识信息,从所述辅助表中移除所述数据组合,并结束当前流程;步骤106:确定所述频繁项集对应的置信度,并确定所述置信度是否大于预设的置信阈值,如果是本文档来自技高网...
一种关联规则的确定方法及装置

【技术保护点】
一种关联规则的确定方法,其特征在于,包括:构建辅助表,所述辅助表中包括:至少两个待处理数据分别对应的标识信息和字段长度,以及每一个所述待处理数据对应的标识信息与所述至少两个待处理数据中的至少一个其他待处理数据对应的标识信息构成的数据组合;针对每一个所述数据组合,均执行:根据每一个所述数据组合对应的待处理数据的字段长度,确定所述数据组合对应的支持度;确定所述支持度是否大于预设的支持度阈值,如果是,将所述数据组合作为频繁项集,否则,根据所述数据组合对应的标识信息,从所述辅助表中移除所述数据组合;确定所述频繁项集对应的置信度,并确定所述置信度是否大于预设的置信阈值,如果是,确定所述频繁项集对应的各个所述待处理数据之间存在关联。

【技术特征摘要】
1.一种关联规则的确定方法,其特征在于,包括:构建辅助表,所述辅助表中包括:至少两个待处理数据分别对应的标识信息和字段长度,以及每一个所述待处理数据对应的标识信息与所述至少两个待处理数据中的至少一个其他待处理数据对应的标识信息构成的数据组合;针对每一个所述数据组合,均执行:根据每一个所述数据组合对应的待处理数据的字段长度,确定所述数据组合对应的支持度;确定所述支持度是否大于预设的支持度阈值,如果是,将所述数据组合作为频繁项集,否则,根据所述数据组合对应的标识信息,从所述辅助表中移除所述数据组合;确定所述频繁项集对应的置信度,并确定所述置信度是否大于预设的置信阈值,如果是,确定所述频繁项集对应的各个所述待处理数据之间存在关联。2.根据权利要求1所述的方法,其特征在于,当确定出所述数据组合的支持度不大于所述支持度阈值时,所述根据所述数据组合对应的标识信息,从所述辅助表中移除所述数据组合,包括:根据所述数据组合中的各个所述标识信息,确定与所述数据组合对应的目标组合;其中,所述目标组合包括所述数据组合中的每一个所述标识信息;将确定出的所述目标组合和所述数据组合从所述辅助表中进行移除。3.根据权利要求1所述的方法,其特征在于,所述构建辅助表,包括:确定空闲内存空间;在确定出的空闲内存空间中构建所述辅助表。4.根据权利要求1所述的方法,其特征在于,所述根据每一个所述数据组合对应的待处理数据的字段长度,确定所述数据组合对应的支持度,包括:利用以下计算公式,计算所述数据组合对应的支持度;其中,M表征所述数据组合对应的支持度;bi表征所述数据组合中的第i个待处理数据对应的字段长度;n表征各个所述待处理数据的总数量;ai表征第i个待处理数据对应的字段长度。5.根据权利要求1所述的方法,其特征在于,所述确定所述频繁项集对应的置信度,包括:从所述频繁项集中确定目标待处理数据;根据所述目标待处理数据对应的字段长度,利用下述计算公式,计算所述频繁项集对应的置信度;其中,N表征所述频繁项集对应的置信度,bi表征所述频繁项集中的第i个待处理数据对应的字段长度,n表征所述...

【专利技术属性】
技术研发人员:王树峥
申请(专利权)人:山东浪潮云服务信息科技有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1