当前位置: 首页 > 专利查询>中南大学专利>正文

一种应用于不完备多粒度信息系统的属性约简技术方案

技术编号:19009574 阅读:24 留言:0更新日期:2018-09-22 09:23
本发明专利技术公开了一种应用于不完备多粒度信息系统的属性约简方法,属于数据挖掘与知识发现技术领域。本发明专利技术提出的属性约简算法解决了传统采用不可分辨矩阵的计算复杂度高等缺点,它结合了证据理论,将下近似约简问题转化为保持信任度计算的问题,通过信任度的启发式的方式将相对信任度最高的属性添加到约简集合中,直至满足约束条件。该方法缩短了不完备多粒度序信息系统的属性约简时间,提高了结果的准确性。

Attribute reduction applied to incomplete multi granularity information systems

The invention discloses an attribute reduction method applied to an incomplete multi-granularity information system, belonging to the technical field of data mining and knowledge discovery. The attribute reduction algorithm proposed by the invention solves the shortcoming of high computational complexity of traditional indistinguishable matrix. It combines the evidence theory, transforms the problem of lower approximation reduction into the problem of trust-preserving computation, and adds the attribute with the highest relative trust degree to the reduction set through the heuristic method of trust degree. Until the constraint condition is satisfied. This method shortens the attribute reduction time of incomplete multi-granularity order information system and improves the accuracy of the result.

【技术实现步骤摘要】
一种应用于不完备多粒度信息系统的属性约简
本专利技术涉及一种应用于不完备多粒度序信息系统的属性约简,属于数据挖掘与知识发现

技术介绍
在现实生活中,由于现实的数据日益复杂化和多样,经典粗糙集理论已无法很好的满足实际需。通常一个信息系统中每一个对象的每一个属性只能呈现一个观测值,这样的信息系统反应固定尺度下的对象信息,经典的Pawlak信息系统便是一个单尺度的信息系统.然而,在实际应用中,人们观察数据时,根据不同的尺度可以得到不同层次观测值,且不同层次间并不是独立度.例如,某班一次考试成绩用百分制时,成绩取值范围为0到100;用五级制表示成绩时,取值范围为优、良、中、及格和不及格;用二级制表示成绩时,取值范围为合格和不合格,等等.当选取不同粒度偏好的时候,往往问题的求解会变的更加容易。目前多粒度信息系统由于其本身的应用价值已经受到了广泛地关注。对于多粒度信息系统而言,其属性并不是具有相同的重要性,甚至有些属性是冗余的,不必要的。与其它数据降维的方法相比,其优势在于能够保持其数据本身的语义特征。目前关于多粒度信息系统的属性约简主要是基于传统的不可分辨矩阵展开的,这种方法由于其计算复杂性以及计算量大,导致其不能够应用于大型数据。证据理论是处理不确定性问题的重要工具,它与粗糙集具有较强的互补性。因此考虑将证据理论中的信任函数与似然函数引入到多粒度信息系统中,从而从一个新的角度构建出一个算法。
技术实现思路
本专利技术的目的是为了解决多粒度信息系统中属性约简复杂、难以计算、不可并行化以及难以应用大数据的问题,提出了一种新的基于信任结构的属性约简方法,通过信任函数判断是否达到属性约简的要求,根据相对信任度来确定属性核,并通过相对信任度来确定属性的删减。本专利技术的技术方案是:给定多粒度信息系统,根据关系来获取对该系统的抽象描述:在属性集AT下,若则有:其中k表示粒度,如果则称y优势于x或x被优势于y,记可视为U到P(U)的映射,P(U)为U的幂集。进而得到关于关系在第k粒度层的上近似和下近似,表示如下:在此基础上,获取不完备多粒度信息系统的基本概率分配函数、信任函数与似然函数:给定有不完备多粒度信息系统MGIOIS*≥=(U,ATk,fk,Vk),1≤k≤I,对于任意似然函数与信任函数分别对应于基于关系的上、下近似质量函数,具体如下:相应的基本概率分配函数如下:本专利技术是在信任函数之和的基础上得到的属性核,其信任函数之和计算如下:其中,A是属性集合,表示由属性集合A所获得的不可识别类。此外,本专利技术要通过计算属性的信任度来确定该属性是否属于属性核,计算方式如下:不完备多粒度信息系统MGIOIS*≥=(U,ATk,fk,Vk),1≤k≤I中,对于任意属性关于ATk的信任度是很明显,若则属性相对于属性集ATk的必不可少的;否则,ATk是冗余的。最后,将所有的属性组成的属性集合即为信任度约简集合。本专利技术设计了一个基于证据理论的启发式约简算法。首先对多粒度信息系统进行对系统的抽象表示,进而获得每个粒度的信任结构。通过不断地计算属性信任度,并且选择信任度大于0的属性,从而获得最终的约简集。具体实施方式为使本专利技术的目的、内容和优点更加清楚,下面结合附图对本专利技术具体实施步骤作进一步详细的说明。本专利技术设计了多粒度信息系统下的属性约简方法,通过引入信任结构,弥补了传统的基于不可分辨矩阵的约简方法,将集合计算问题转移到证据函数的定量计算中,提高了计算效率,可以有效的处理多粒度和不完备数据的信息系统。具体而言,本专利技术包含以下步骤:Step1:系统的抽象描述给定多粒度信息系统,根据关系来获取对该系统的抽象描述:在属性集AT下,若则有:其中k表示粒度,如果则称y优势于x或x被优势于y,记可视为U到P(U)的映射,P(U)为U的幂集。Step2:上、下近似空间描述关于关系在第k粒度层的上近似和下近似,表示如下:提出的属性约简主要是基于保持上、下近似不变的规则,实际上,若保持下近似不变,也就是保持信任函数之和不变的最小属性集合。Step3:证据函数的获取获取不完备序信息系统的基本概率分配函数、信任函数与似然函数:给定有不完备多粒度信息系统MGIOIS*≥=(U,ATk,fk,Vk),1≤k≤I,对于任意似然函数与信任函数分别对应于基于关系的上、下近似质量函数,具体如下:相应的基本概率分配函数如下:Step4:设置信任约简为空Step5:任意属性关于ATk的信任度计算公式如下:很明显,若则属性相对于属性集ATk的必不可少的,即并继续执行步骤Step6;否则,ATk是冗余的,并继续执行步骤Step6。Step6:令若ATk=φ,则终止约简结果,并输出Reducek。若ATk≠φ,则令并执行步骤S42。本专利技术将属性的信任度量作为启发式信息,依此选择相对信任度最大的属性加入到信任约简集合,直到满足条件为止。本专利技术将属性的下近似约简转移到信任约简中来,通过判断信任函数之和是否保持一致来判断该集合是否是一个约简。本专利技术提出的属性约简算法能够有效地处理多粒度信息系统的约简问题,将属性约简问题从定性问题转移到信任函数之和的定量问题上来,缩短了计算时间,提高了效率。附图说明图本专利技术的属性约简实现步骤图。本文档来自技高网...
一种应用于不完备多粒度信息系统的属性约简

【技术保护点】
1.一种应用于不完备多粒度信息系统的属性约简方法。其主要的特点为通过证据结构的似然函数和信任函数表示多粒度序信息系统的每一个粒度层的上、下近似;通过属性的相对重要性以及信任函数之和来获取每一个粒度层的约简集合,从而使粗粒度层的约简集合即为整个信息系统的约简集合。

【技术特征摘要】
1.一种应用于不完备多粒度信息系统的属性约简方法。其主要的特点为通过证据结构的似然函数和信任函数表示多粒度序信息系统的每一个粒度层的上、下近似;通过属性的相对重要性以及信任函数之和来获取每一个粒度层的约简集合,从而使粗粒度层的约简集合即为整个信息系统的约简集合。2.根据权利要求1所述的方法,其中,通过属性的...

【专利技术属性】
技术研发人员:帅勇王加阳
申请(专利权)人:中南大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1