一种获得邻域和正域的方法和系统技术方案

技术编号:16471857 阅读:140 留言:0更新日期:2017-10-28 23:43
本发明专利技术涉及一种获得邻域和正域的方法和系统,包括:将哈希分桶后的数据集作为算法的输入,遍历每个数据桶中的样本,通过正域标志判断当前样本是否已被标记为非正域样本,若是则对其他样本进行正域判断,否则查找当前样本的邻域样本;判断当前样本和邻域样本的决策属性值是否相同,若是则舍弃邻域样本,检索其它邻域样本,否则判断当前样本和邻域样本是否互为邻域,若是则通过正域标志将当前样本和邻域样本标记为非正域样本,否则舍弃邻域样本,检索当前样本的其它邻域样本。本发明专利技术利用邻域关系的对称性、哈希映射函数的局部敏感性和决策属性过滤策略优化了计算邻域和正域的计算效率。

A method and system for obtaining neighborhood and positive domain

The invention relates to a method and system, a neighborhood and positive region include: the Hashi barrel data set as the input of the algorithm, each data bucket traversal sample, through the positive domain marker to judge whether the sample current has been marked as non positive field samples, if the other samples are domain judgment otherwise, find the current sample of neighborhood sample; decision attribute of the current sample and the neighborhood sample value is the same, if you abandon the neighborhood sample, search other neighborhood samples, or determine the current sample and the neighborhood sample is mutual neighborhood, if through the positive domain mark will be the current sample and the sample is marked as non neighborhood domain sample otherwise, abandon the neighborhood sample, other neighborhood sample current sample retrieval. The efficiency of computing neighborhood and positive domain is optimized by symmetry of neighborhood relation, local sensitivity of hash mapping function and decision attribute filtering strategy.

【技术实现步骤摘要】
一种获得邻域和正域的方法和系统
本专利技术涉及机器学习领域,特别涉及一种获得邻域和正域的方法和系统。
技术介绍
随着计算机与信息技术的发展,数据量呈指数形式增长,对这些错综复杂的数据进行抽象与粒化有助于人们更好的理解和利用隐藏在其中的有效信息。邻域和正域都是“邻域粗糙集”里面的概念,邻域粗糙集可以用来进行属性约简,挑选重要的特征,计算邻域和正域是基于邻域粗糙集的属性约简方法中的必要步骤,但是目前已有的方法在计算邻域和正域时效率较低,本专利技术主要是针对这一问题提出的改进方法。信息粒化和粒度计算由Zadeh教授首次提出,他解释了为什么要研究粒度计算和如何进行粒度计算的基本框架。作为一种模拟人类智能的新型计算模式,粒度计算一经提出就受到人工智能、应用数学等多个领域研究人员的关注。Lin于1988年提出了邻域模型的概念,该模型通过样本点的邻域实现论域的粒化,并将邻域理解为基本的信息粒子,借助于这些信息粒子可以描述空间中的其他概念。Yao和Wu分别于1998年和2002年对邻域信息系统的基本性质进行了研究。在这些研究的基础上,胡清华将邻域模型与粗糙集结合,提出了邻域粗糙集,并设计出可以同时处本文档来自技高网...
一种获得邻域和正域的方法和系统

【技术保护点】
一种获得邻域和正域的方法,其特征在于,包括:步骤1:将哈希分桶后的数据集作为算法的输入,其中该数据集包括多个数据桶,每个该数据桶由多个样本组成,遍历每个该数据桶中的样本,将当前遍历到的样本作为当前样本,并为每一个该样本设置一个正域标志,并将该正域标志的集合作为正域标志集合;步骤2:通过正域标志集合判断该当前样本是否已被标记为非正域样本,若是则终止对该当前样本的正域判断流程,对其他样本进行正域判断,否则在该数据集中查找该当前样本的邻域样本;步骤3:判断该当前样本和该邻域样本的决策属性值是否相同,若是则舍弃该邻域样本,检索该当前样本的其它邻域样本,否则判断该当前样本和该邻域样本是否互为邻域,若是则...

【技术特征摘要】
1.一种获得邻域和正域的方法,其特征在于,包括:步骤1:将哈希分桶后的数据集作为算法的输入,其中该数据集包括多个数据桶,每个该数据桶由多个样本组成,遍历每个该数据桶中的样本,将当前遍历到的样本作为当前样本,并为每一个该样本设置一个正域标志,并将该正域标志的集合作为正域标志集合;步骤2:通过正域标志集合判断该当前样本是否已被标记为非正域样本,若是则终止对该当前样本的正域判断流程,对其他样本进行正域判断,否则在该数据集中查找该当前样本的邻域样本;步骤3:判断该当前样本和该邻域样本的决策属性值是否相同,若是则舍弃该邻域样本,检索该当前样本的其它邻域样本,否则判断该当前样本和该邻域样本是否互为邻域,若是则判定该当前样本属于非正域样本,并通过正域标志将该当前样本和该邻域样本标记为非正域样本,否则舍弃该邻域样本,检索该当前样本的其它邻域样本;步骤4:完成所有样本的正域判断后,输出该正域标志集合。2.如权利要求1所述的获得邻域和正域的方法,其特征在于,该步骤1中还包括,该正域标志置为0代表该当前样本为正域元素,该正域标志置为1代表该当前样本为非正域元素,所有的正域标志组成正域标志集合。3.如权利要求1所述的获得邻域和正域的方法,其特征在于,该步骤2包括,步骤21:根据哈希映射函数的局部敏感特性,先遍历该当前样本所在的桶,然后再遍历相邻的两个桶的顺序查找该当前样本的邻域样本。4.如权利要求2所述的获得邻域和正域的方法,其特征在于,该正域标志集合的长度等于该数据集中样本的总数。5.如权利要求1所述的获得邻域和正域的方法,其特征在于,该步骤3中互为邻域的判断方法为,计算该当前样本和该邻域样本之间的距离,并判该距离与邻域半径的大小关系,若该距离小于等于邻域半径,则该当前样本和该邻域样本互为邻域。6.一种获得...

【专利技术属性】
技术研发人员:彭政红崔莉赵泽
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1