当前位置: 首页 > 专利查询>王少夫专利>正文

一种基于粗糙集的数据挖掘算法制造技术

技术编号:8801151 阅读:185 留言:0更新日期:2013-06-13 05:49
为了完善异常点的检测算法,基于粗糙集理论与一定的数据挖掘技术,提出了一种针对异常点的数据挖掘的方法。利用粗糙特征选择方法,采用相似知识粒度的距离度量,研究不确定信息,在减少数据特征的同时还保留其性能。然后再对给定的特征值对对象进行排序,以提高计算复杂性。最后通过在淋巴数据集上进行了实验分析。结果表明,该数据挖掘算法可以把大部分异常点检测出来。同现有的算法相比较,此算法对异常点的检测性质提高了10%~20%左右,表现极大的优越性。

【技术实现步骤摘要】

本专利技术一种基于粗糙集的数据挖掘方法。属于计算机信息

技术介绍
随着现代的通信技术的发展,越来越多的数据被收集和整合在一起,建立一个大的社会网络成为可能。例如,可以通过电子邮件的日志来建立使用者之间的联系网络,或者通过网络日志及网络通讯录等方式将用户提交的联系人信息建立社会网络。所以,现在的社会网络规模比早期网络庞大,通常包含几千或者几万的结点,甚至有多达百万个结点的网络。面对这样庞大复杂的网络,简单的数学知识和原始的人工处理已经不可能进行有效的分析。数据挖掘是从巨量数据中发现有效的、新颖的、潜在有用的并且最终可理解的模式的非平凡过程。数据挖掘就是为了解决当今拥有大量数据,但缺乏有效分析手段的困境而出现的研究领域。目前,已经在包括生物信息学,自然语言处理等许多方面发挥了巨大的作用。为了获得最佳的数据挖掘效果,将采用一定的算法,建立模型,一种针对异常点的数据挖掘的新算法。利用粗糙特征选择方法,采用相似知识粒度的距离度量,研究不确定信息,在减少数据特征的同时还保留其性能。然后再对给定的特征值对对象进行排序,以提高计算复杂性。
技术实现思路
本专利技术提出一种基于粗糙集的数据挖掘方法,该方法主要解决异常点的数据挖掘问题,保证获得最佳的数据挖掘效果。为达到上述目的, 本专利技术采取的技术方案为:首先是该方法首先是根据用粗糙特征选择方法,采用相似知识粒度的距离度量,研究不确定信息,在减少数据特征的同时还保留其性能。然后再对给定的特征值对对象进行排序,以提高计算复杂性。最后通过在淋巴数据集上进行了实验分析。结果表明,该数据挖掘算法可以把大部分异常点检测出来本专利技术提出的技术方案具体步骤包括:粗糙集是它把知识分类嵌套到集合内,并作为集合组成的一部分。根据传统的方法来判断一个对象a是否属于集合X,通常分成3种情况:(I)对象a可能属于也可能不属于集合X ; (2)对象a肯定不属于集X ; (3)对象a肯定属于集合X ;下面给出其定义。假定U为非空的有限集合,I为U中的一个等价类关系,则二元对K= (U, I)称之为集合U的一个近似空间。假设X为集合U的一个子集,X为集合U中的一个对象,所有与X不可区分的对象所组成的一个集合设为I (X),I (χ)中的每个对象都与对象X有同样的特征属性。对于每个子集X Qt/和一个等价关系I e Ind(K),都可以定义两个子集。 集合X关于I的下近似如式本文档来自技高网...

【技术保护点】
一种基于粗糙集的数据挖掘方法,其特征在于:该方法首先是根据粗糙集理论与一定的数据挖掘技术,提出了一种针对异常点的数据挖掘的方法。利用粗糙特征选择方法,采用相似知识粒度的距离度量,研究不确定信息,在减少数据特征的同时还保留其性能。然后再对给定的特征值对对象进行排序,以提高计算复杂性。最后通过在淋巴数据集上进行了实验分析。结果表明,该数据挖掘算法可以把大部分异常点检测出来,可以很好地进行有用信息的数据挖掘。

【技术特征摘要】
1.一种基于粗糙集的数据挖掘方法,其特征在于:该方法首先是根据粗糙集理论与一定的数据挖掘技术,提出了一种针对异常点的数据挖掘的方法。利用粗糙特征选择方法,采用相似知识粒度的距离度量,研究不确定信息,在减少数据特征的同时还保留其性能。然后再对给定的特征值对对象进行排序,以提高计算复杂性。最后通过在淋巴数据集上进行了实验分析。结果表明,该数据挖掘算法可以把大部分异常点检测出来,可以很好地进行有用信息的数据挖掘。2.根据权利要求1所述的方法,其特征在于,粗糙集是把知识分类嵌套到集合内,并作为集合组成的一部分。根据传统的方法来判...

【专利技术属性】
技术研发人员:王少夫
申请(专利权)人:王少夫
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1