当前位置: 首页 > 专利查询>曲逸文专利>正文

一种基于概念格扩展理论的关联规则挖掘方法技术

技术编号:17994674 阅读:24 留言:0更新日期:2018-05-19 11:51
本发明专利技术公开了一种基于概念格扩展理论的关联规则挖掘方法,包括以下步骤:将数据集中的对象、属性以及属性值依据所关注的关系提取,构建出目标数据集的形式背景,利用基础概念格构建理论,分析出各概念节点;对概念格上的元素进行判定,计算出概念格L(FC)上的不可约元集;根据设置的支持度和可信度,对关联规则进行缩减,进一步提高算法的计算效率;最后对方法的复杂度进行计算,可用来指示计算量。本发明专利技术在传统形式概念分析提取关联规则的基础上,将狭义概念格理论扩展,在关注数据集对象之间差异性的同时,充分探索对象之间的相似性。同时采用相应的属性和规则约简算法,保证方法的计算效率,具有快速、稳定和高效的特点。

An association rule mining method based on concept lattice extension theory

This invention discloses a method of mining association rules based on the concept lattice extension theory, which includes the following steps: extracting the object, attribute and attribute value of the data set according to the concerned relation, constructing the formal background of the target data set, constructing the theory by using the basic concept lattice, and analyzing the concept nodes; and the concept of the concept. The element on the lattice is determined and the irreducible element set on the concept lattice L (FC) is calculated. According to the support and credibility of the set, the association rules are reduced to further improve the computational efficiency of the algorithm. Finally, the complexity of the method is calculated, which can be used to indicate the computation. On the basis of traditional formal concept analysis extraction of association rules, this invention extends the narrow sense concept lattice theory, and explores the similarity between the objects fully while paying attention to the difference between the objects of the data set. At the same time, the corresponding attribute and rule reduction algorithm is adopted to ensure the efficiency of the method. It is fast, stable and efficient.

【技术实现步骤摘要】
一种基于概念格扩展理论的关联规则挖掘方法
本专利技术属于计算机、大数据和云计算领域,涉及一种数据集对象和属性之间的关联规则挖掘方法。
技术介绍
在数据挖掘关联规则发现领域中,由二元关系构建的概念格是一种非常直观的形式概念分析方法,它利用概念的内涵(属性)和外延(对象)以及知识概念之间的泛化和特化关系,能够充分反映对象和属性之间的蕴含规则。但是目前的概念格方法过于强调对象之间的差异性,却没有充分考虑它们的相似性,这在偶发性极强的商业数据分析领域,往往忽略了对象之间某些细微的共性,导致规则挖掘过于苛刻而错过一些细微且关键的规则发现;一些新兴算法加入了对象间的相似性考量,却因为由此引发的关联规则过于复杂而造成算法时效性太差,资源占用过高,无法在实时性要求高的领域发挥作用。
技术实现思路
为解决上述问题,本专利技术提出了一种基于概念格扩展理论的关联规则挖掘方法,可在传统形式概念分析提取关联规则的基础上,将狭义概念格理论扩展,在关注数据集对象之间差异性的同时,充分探索对象之间的相似性。同时采用相应的属性和规则约简算法,保证方法的计算效率。本专利技术的技术方案为:一种基于概念格扩展理论的关联规则挖掘方法,其特征在于:所述方法包括以下步骤:A.在基础概念格构建理论的基础上,引入容限范围内的二元关系,将数据集中的对象、属性以及属性值依据所关注的关系提取,允许对象之间具有一定的差异性,构建出目标数据集的形式背景;B.对概念格上的元素进行判定,计算出概念格上的不可约元集;C.根据设置的支持度和可信度,对关联规则进行缩减,进一步提高算法的计算效率;D.计算方法复杂度,指示计算量。进一步的,所述步骤A的具体实现方式为:用三元组定义目标数据集的形式背景,记为FC=(U,D,R),其中U表示数据集中对象的集合,D表示对象的描述符——属性的集合,R表示U和D之间的某个二元关系,其中该关系表述为“对象U具有属性D”,记作uRd,其中u∈U,R∈R,d∈D,R只需满足对称性和自反性即可作为此处的二元关系,此时R允许对象之间具有容限内的差异性,并且关系R可以不具备传递性;幂集U和D之间的伽罗华关系记为如下两个函数f1和f2:进一步,将上述两个函数定义成以下两个算式:显然,u*计算得到了共同具有U中对象的全体属性集,d*计算得到了共同具有D中属性的全体对象集;满足上述两个算式的序对(ui,di)就是形式背景FC上的形式概念,所有形式概念构成的集合记为L(FC),其中L(FC)的所有的对象概念集记为LU(FC)={u|(u,d)∈L(FC)},相应的属性概念集记为LD(FC)={d|(u,d)∈L(FC)}。进一步的,所述步骤B的具体实现方式为:利用求解不可约元集来约简形式背景的属性的算法如下:对于步骤A中所述的形式背景FC=(U,D,R),假设FCD=(U,D,RD)是FC的子形式背景,不可约元集分为交不可约元集和并不可约元集,在此记L(FC)的交不可约元集为Ise(L(FC)),并不可约元集为Sma(L(FC));由属性概念集和对象概念集的性质,可得:另外,设a,b,c∈L(FC),则由不可约元集的定义,可推得下式:由上述两算式可得,若(ui,di)∈Ise(L(FC)),则使得ui,di)=(d*,d**),即概念格的交不可约元集必定为属性概念集,同样可得若(ui,di)∈Sma(L(FC)),则使得(ui,di)=(u*,u**),即概念格的并不可约元一定是对象概念集;在上面形式背景FC上,当=对象集{U}时:当≠对象集{U}时:使得d*=u1∩u2时,有d*=u1ord*=u2;由上述算式可得使得同样方法可得到并不可约元集的判断条件,再结合交不可约元集的判断条件,可得概念格的不可约元集判断算式如下:上述形式背景FC=(U,D,R),设d∈D,u∈U:进一步的,所述步骤C的具体实现方式为:对于唯一对应于上述步骤所建概念格中的节点二元组(N1,N2),其中N1=(f2(RuleA),f1(f2(RuleA))),N2=(f2(RuleA∪RuleB),f1(f2(RuleA∪RuleB))),则关联规则由二元组(N1,N2)产生,并且必然有N1≥N2,针对这类规则,计算规则的支持度和可信度,算式如下:其中,表示的支持度;表示的可信度;Ext()表示节点的外延;根据上述计算出概念格中规则项集的支持度和可信度后,根据系统设置的阈值对概念节点进行缩减,假设系统设置的支持度阈值记为,可信度阈值记为ε,节点二元组(N1,N2),则概念格中概念节点依据系统阈值的缩减方法如下:满足上面算式的节点(N1,N2)作为在当前系统阈值下的保留节点,对于保留节点,可进一步得到下面的特性:若RuleA,RuleB,RuleC是互不相交的项集:由上述两个算式可知,本方法可通过系统阈值筛选出频繁节点,并利用频繁节点的性质可消除冗余规则,可进一步提高算法的计算效率。进一步的,所述步骤D的具体实现方式为:通过上述步骤A、步骤B和步骤C,从概念格的构建、属性集以及关联规则项集的系统阈值多方面进行约简,可使得计算具有相当好的实时性:对于一个包含a个对象,b个属性特征,c个属性/对象的试验数据集,得到节点与对象之间的空间复杂度曲线图、概念格的构建与对象数目间的时间复杂度曲线图、计算复杂性与形式背景的属性数目关系曲线图这些关键指标性结果,即可明显看出方法的计算效率的提高。本专利技术的有益效果为:本专利技术在传统形式概念分析提取关联规则的基础上,将狭义概念格理论扩展,引入了容限范围内的二元关系作为形式背景关系,允许对象之间具有一定的差异性,在关注数据集对象之间差异性的同时,充分探索对象之间的相似性;同时采用相应的属性和规则约简算法,保证了方法的计算效率,具有快速、稳定和高效的特点,特别适用于具有超大属性数目数据集的在线关联规则提取。附图说明图1为节点与对象之间的空间复杂度曲线图。图2为概念格的构建与对象数目间的时间复杂度曲线图。图3为计算复杂性与形式背景的属性数目关系曲线图。具体实施方式本专利技术基于概念格扩展理论的关联规则挖掘方法,包括以下步骤:A.将数据集中的对象、属性以及属性值依据所关注的关系提取,构建出目标数据集的形式背景,利用基础概念格构建理论,分析出各概念节点。用三元组定义目标数据集的形式背景(formalcontext),记为FC=(U,D,R),其中U表示数据集中对象的集合;D表示对象的描述符——属性(特征)的集合;R表示U和D之间的某个二元关系,其中该关系表述为“对象U具有属性D”,记作uRd,(u∈U,R∈R,d∈D)。在传统概念格算法中,二元关系R表示为等价关系,而本专利技术中对此进行扩展,R只需满足对称性和自反性即可作为此处的二元关系,此时R允许对象之间具有容限内的差异性,并且关系R可以不具备传递性。幂集U和D之间的伽罗华关系记为如下两个函数f1和f2:为方便运算,将上述两个函数定义成以下两个算式:显然,u*计算得到了共同具有U中对象的全体属性集,d*计算得到了共同具有D中属性的全体对象集。满足上述两个算式的序对(ui,di)就是形式背景FC上的形式概念,所有形式概念构成的集合记为L(FC),其中L(FC)的所有的对象概念集记为LU(FC)={u|(u,d)∈L(FC)}本文档来自技高网...
一种基于概念格扩展理论的关联规则挖掘方法

【技术保护点】
一种基于概念格扩展理论的关联规则挖掘方法,其特征在于:所述方法包括以下步骤:A.在基础概念格构建理论的基础上,引入容限范围内的二元关系,将数据集中的对象、属性以及属性值依据所关注的关系提取,允许对象之间具有一定的差异性,构建出目标数据集的形式背景;B.对概念格上的元素进行判定,计算出概念格上的不可约元集;C.根据设置的支持度和可信度,对关联规则进行缩减,进一步提高算法的计算效率;D.计算方法复杂度,指示计算量。

【技术特征摘要】
1.一种基于概念格扩展理论的关联规则挖掘方法,其特征在于:所述方法包括以下步骤:A.在基础概念格构建理论的基础上,引入容限范围内的二元关系,将数据集中的对象、属性以及属性值依据所关注的关系提取,允许对象之间具有一定的差异性,构建出目标数据集的形式背景;B.对概念格上的元素进行判定,计算出概念格上的不可约元集;C.根据设置的支持度和可信度,对关联规则进行缩减,进一步提高算法的计算效率;D.计算方法复杂度,指示计算量。2.如权利要求1所述的基于概念格扩展理论的关联规则挖掘方法,其特征在于:所述步骤A的具体实现方式为:用三元组定义目标数据集的形式背景,记为FC=(U,D,R),其中U表示数据集中对象的集合,D表示对象的描述符——属性的集合,R表示U和D之间的某个二元关系,其中该关系表述为“对象U具有属性D”,记作uRd,其中u∈U,R∈R,d∈D,R只需满足对称性和自反性即可作为此处的二元关系,此时R允许对象之间具有容限内的差异性,并且关系R可以不具备传递性;幂集U和D之间的伽罗华关系记为如下两个函数f1和f2:进一步,将上述两个函数定义成以下两个算式:显然,u*计算得到了共同具有U中对象的全体属性集,d*计算得到了共同具有D中属性的全体对象集;满足上述两个算式的序对(ui,di)即为形式背景FC上的形式概念,所有形式概念构成的集合记为L(FC),其中L(FC)的所有的对象概念集记为LU(FC)={u|(u,d)∈L(FC)},相应的属性概念集记为LD(FC)={d|(u,d)∈L(FC)}。3.如权利要求2所述的基于概念格扩展理论的关联规则挖掘方法,其特征在于:所述步骤B的具体实现方式为:利用求解不可约元集来约简形式背景的属性的算法如下:对于步骤A中所述的形式背景FC=(U,D,R),假设FCD=(U,D,RD)是FC的子形式背景,不可约元集分为交不可约元集和并不可约元集,在此记L(FC)的交不可约元集为Ise(L(FC)),并不可约元集为Sma(L(FC));由属性概念集和对象概念集的性质,可得:另外,设a,b,c∈L(FC),则由不可约元集的定义,可推得下式:由上述两算式可得,若(ui,di)∈Ise(L...

【专利技术属性】
技术研发人员:曲逸文衣学武
申请(专利权)人:曲逸文
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1