一种面向类别型属性的关联规则挖掘方法技术

技术编号:2851421 阅读:309 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种面向类别型属性的关联规则挖掘方法。该方法首先将类别数目大于8的类别型属性模式采用进制转化的方法映射为布尔型属性模式;其次,采用BAR挖掘方法获得一组布尔型关联规则,根据完整模式要求,在挖掘过程中去除非法的侯选属性模式,并在挖掘结果中去除非法关联规则。最后,根据类别型属性模式与布尔型属性模式的映射关系,还原布尔型关联规则中的类别型属性模式,从而实现面向类别型属性的关联规则挖掘。当类别型属性的类别数目较多时,该方法使用较少的布尔型属性来替代类别型属性,能有效降低后续BAR挖掘过程的时间复杂度。

【技术实现步骤摘要】

本专利技术属于计算机科学与
中的数据挖掘子领域,特别涉及。
技术介绍
关联规则挖掘用于对多个属性之间的相关性进行建模。目前,关联规则挖掘方法主要是针对布尔型属性,对于类别型、数值型等多值属性的关联规则挖掘问题,一般是通过属性映射的方式转化为BAR(Boolean Association Rules)问题,即将每个多值属性用一组相互独立的布尔型属性描述。经过查新,检索到4篇与本专利技术紧密相关的文献,它们分别是1.Tzung P H.Mining,Association Rules from Quantitative Data.Intelligent Data Analysis,1999,3(5)363-376;2.J.Li,K.Ramamohanarao,G.Dong,Combining the Strength of Pattern Frequency andDistance for Classification,PAKDD’2001,455-466;3.Zhang,Y.Lu,and B.Zhang.An effective partitioning-combining 本文档来自技高网...

【技术保护点】
一种面向类别型属性的关联规则挖掘方法,其特征在于,包括以下步骤:步骤一:将数据集中的所有类别型属性CategoricalAttribute模式按以下过程映射成布尔型属性BooleanAttribute模式:设类别型属性有n个 类别,若n>8,则使用基于进制转换的映射方法将该类别型属性模式转化为一组布尔型属性模式:若n≤8,则直接采用n个布尔型属性分别描述该类别型属性的n个类别;步骤二:将产生的布尔型属性模式代替原有的类别型属性模式得到新的数据集,并采用A priori或AprioriTid、AprioriAll算法对新数据集进行布尔型关联规则BAR,...

【技术特征摘要】
1.一种面向类别型属性的关联规则挖掘方法,其特征在于,包括以下步骤步骤一将数据集中的所有类别型属性Categorical Attribute模式按以下过程映射成布尔型属性Boolean Attribute模式设类别型属性有n个类别,若n>8,则使用基于进制转换的映射方法将该类别型属性模式转化为一组布尔型属性模式;若n≤8,则直接采用n个布尔型属性分别描述该类别型属性的n个类别;步骤二将产生的布尔型属性模式代替原有的类别型属性模式得到新的数据集,并采用Apriori或AprioriTid、AprioriAll算法对新数据集进行布尔型关联规则BAR,BooleanAssociation Rules挖掘,获得一组布尔型关联规则;根据完整模式要求,在挖掘过程中,去除非法的候选属性模式,并在结果中去除非法的关联规则;步骤三根据步骤一中类别型属性模式与布尔型属性模式的映射关系,将关联规则前件与后件中的布尔型属性模式还原为对应的类别型属性模式,从而实现面向类别型属性的关联规则挖掘。2.根据权利要求1所述的面向类别型属性的关联规则挖掘方法,其特征在于,所述的基于进制转换的映射方法是将类别型属性模式映射为一组布尔型属性模式设类别型属性有n(n>8)个类别,则将类别值映射为区间中n的整数,然后,采用进制转换方法将该属性的十进制整型数值转化为二进制数值;若转化后二进制数值长度少于该属性下位数最长的二进制数值,则将该二进制数值的最高位前面补零,直到该属性的所有二进制数值长度均相同;将二进制数值每一位分别采用两个布尔型属性描述,分别表示该位为0或1。3.根据权利要求1所述的面向类别型属性的关联规则挖掘方法,其特征在于在布尔型关联规则BAR挖掘过程中,若候选属性模式不是由完整模式组成,则去除包含非...

【专利技术属性】
技术研发人员:刘均郑庆华杜瑾
申请(专利权)人:西安交通大学
类型:发明
国别省市:87[中国|西安]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1