一种基于包含度的模糊粗糙单调数据挖掘方法技术

技术编号:7612468 阅读:167 留言:0更新日期:2012-07-26 19:57
本发明专利技术参照模糊粗糙集的理论,提出基于包含度的模糊粗糙单调数据挖掘方法,通过对决策属性和条件属性按值重新排列后,然后对重新排列后的集合进行区间划分,然后根据各个区间的隶属函数和各个区间的包含度,设定判定规则,对决策属性和条件属性之间的关系进行判断,从而建立模糊包含单调依赖关系模型;通过关系模型挖掘决策属性和条件属性之间的初步关系,设定决策过虑规则,求出条件属性约简的数据集和最优数据,现有的属性约简算法一般针对有限的数据值集,本发明专利技术可以针对海量的不规则数据,而且数据量越大,越能体现算法的优越性。

【技术实现步骤摘要】

本专利技术所涉及数据挖掘的
,特别是涉及。
技术介绍
对于包含度的概念及基础在这里用C(U)表示U中经典集合的全体,而F(U)表示U中模糊集合的全体。设 F0(U)^F(U),若对任意A,B e F0(U)有数ID (B/A)对应,且满足(1)0 彡 ID(B/A)彡 1,(2) VA,B G F0(U), A。B 4 ID(B/ A) = I,(3)对于G F0(U\ A G B G H 11D(A iHK ID(A /B、,则称ID为F0(U)上的包含度(inclusion degree)。称ID为F0(U)上的强包含度, 若ID满足(1),⑵(3)和以下的⑷(4)对于G Fa(U\A G B 11D(A / C) S ID(A / B、称ID为Ftl⑶上的弱包含度,若ID满足(I),(3)和以下⑵'(2)' ^ABgF0(U)I C(U),A^ B ID(B / A) = l q粗糙集理论是用来处理不确定和不完整数据信息的数学工具,而模糊集也可以描述信息和知识的不确定性,由于两者有很强的互补性,因此可以把它们结合起来对信息进行不确定性处理。在决策表中,粗糙集挖掘,条件属性和决策属性之间的依赖关系,约简属性,找出哪些条件属性对决策属性比较重要,主要的理论基础是等价关系,由于等价关系的局限性,许多人提出了不同的约简关系,T. Y. Lin等人提出了领域和相容关系,S. Greco等人提出了优势关系,D. Dubois等人提出了模糊等价关系等。事实上条件属性和决策属性之间往往还存在量的单调依赖关系。例如在生化反应中,条件成分和成品之间在一定范围内有单调递增或者递减依赖关系,一般情况下越多的成品需要越多的条件成分,而是否凡是包含成品成分的条件成分都与成品之间有这样的单调递增关系。显然不是,有些条件成分虽然包含成品中的成分,但它们并不参与生成成品,当然在某些情况下可以通过确定的生化反应方程较精确的计算出来,但大多数情况下,生化反应处于一个复杂的环境中,受到很多物理、化学和生物等不确定因素的影响,可以采用模糊粗糙的方法,先计算出条件成分与成品之间的单调递增或者递减关系,从而精简掉冗余的条件成分,然后再进行相应的分析, 也就是挖掘出哪些条件属性的增加或减少会影响到决策属性的量的变化,并且挖掘出哪些量影响程度大,得出主要控制哪些条件属性的量会影响决策属性量增加或者减少,从而达到控制目的。1997年和1998年C. J. ffu, Te-Shun Chou分别介绍和讨论了模糊单调函数及在逻辑控制中的应用,某些文献讨论了 Mamdani-Assilians模型和T-S推断方法中与模糊单调相关的理论,近年来许多人讨论了决策表属性约简的不少算法等,在决策表中,假设决策属性量的增加与减少依赖于某些条件属性量的增加与减少,那么需要挖掘出对决策属性量的变化产生重要影响的条件属性,称这样的决策属性和条件属性之间有重要的单调依赖关系,而这种单调依赖关系在决策表中并非一定严格单调,也就是说在相邻两点的条件属性值单调性并不一定能一一映射到决策属性相应两点的单调性,因为实际数据中存在各种干扰因素和误差,但是现有技术中还没有能有效的挖掘出对决策属性变化产生重要影响的条件属性,并可以通过控制这些条件属性去影响决策属性。现有的技术模型主要是围绕着等价关系进行一些拓展和改变,因此在采用这些技术模型进行知识约简和数据挖掘时都存在一些问题,具体归纳如下(I)面对众多的输入与输出属性和复杂庞大的数据,如何在属性数据之间构建等价关系及其现有的一些拓展关系是比较难的问题;(2)复杂数据构成的决策表一般都是不一致的决策表,而现有属性约简算法一般是建立在一致的决策表上;(3)复杂环境的数据一般都是连续性的数据,而现有的属性约简算法一般都要对连续性的数据离散化处理,而对于不规则的复杂、多变和大量的数据,这是一个难题;(4)对于现有的启发式知识约简方法,多数以核属性作为出发点,每步把相对重要的最大属性优先加入要求约简结果中,而因为(I)所提的问题,所以核属性不容易求出,相对重要性在的复杂环境中也比较难获取,因为在众多的属性中,属性的重要性不容易观察出来,而且输入和输出数据很复杂,很难通过人为统计而得出属性的相对重要性或者通过现有的分析方法得到;(5)由于复杂环境中的数据基本都是不完备的, 而这对现有的属性约简方法来说一个难题;(6)现有的属性约简算法一般针对有限的数据值集,不适用大量不规则的数据值集,而在复杂环境中所测出的数据往往是大量不规则的数据集。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提出了。为了实现上述专利技术目的,采用的技术方案如下一种基于包含度的模糊粗糙单调依赖数据挖掘方法,包括(I)决策属性D的数据值的集合重新排序,形成有序集合D';条件属性Ci的数据值的集合重新排序,形成有序集合(V ;(2)对象集合U根据D',得到对象重新排列的有序集合UD,对象集合U根据Ci,, 得到对象重新排列的有序集合Ui ;(3)根据Ud和Ui中对象的决策属性值与条件属性值之间的关系,以及Ud和Ui之间按划分所得的包含度,设定判定规则,对决策属性和条件属性之间的关系进行判断,从而建立模糊包含单调依赖关系模型;所述模糊包含单调依赖关系具体为U经过某种区间划分后,任意两个区间U'和U"包含于U,并且U’1U” = 0 ,色 U'中对象的决策属性的值大部分大于等于U"中对象的决策属性的值时,相应的U'中对象的条件属性的值也大部分大于等于U"中对象的条件属性的值,称为决策属性和条件属性依该区间划分模糊包含单调递增依赖,相反,当U,中对象的决策属性的值大部分大于等于U"中对象的决策属性的值时,相应的U'中对象的条件属性的值也大部分小于等于U"中对象的条件属性的值,称为决策属性和条件属性依该区间划分模糊包含单调递减依赖。基于以下所提出的模糊单调关系模型,具体为对于任意两个集合A和B,其中A=(X1, X2, . . . , XnI, B = {y1; y2, . . . , yn}, η 是待定未知数,存在 A 和 B--映射 f,使得 f Aa B,对A中的元素值按从小到大排序得到新集合A' = {x' 1; x' 2, . . . , x' n},通过映射f可以得到新的集合B' = {y' 1; y' 2,…,Y' J,如果B'存在划分ω,使得B'= B' ΑΒ' 2U. . .UBi i,其中2彡I彡n,对任意的i,j,其中I彡i < j彡1,设表达式num{y | > 0.5用于表示大部分B' ^中元素值都大于等于大部分B' i中的元素值,如果该表达式成立,那么称集合B和集合A在映射f下依区间划分是模糊单调依赖递增关系。同样道理,设表达式num{y'p | num{y | > 0.5, Vyrp e B;} / \Bt 卜 0.5表示大部分B' ^中元素值都小于等于大部分B' i中的元素值,如果该表达式成立,那么称集合B和集合A在映射f下依区间划分划分是模糊单调依赖递减关系所述判断规则如下对Ud和Ui进行区间划分,并对根据划分出来的对应区间的隶属函数的值进行判断,若小于O. 5则重新对Ud和Ui进行区间划分,若大于O. 5,则求出U本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:梁瑾
申请(专利权)人:华南师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术