基于遗传算法从大规模高维数据中检测离群数据的方法技术

技术编号:11130014 阅读:96 留言:0更新日期:2015-03-11 23:02
本发明专利技术公开了一种基于遗传算法从大规模高维数据中检测离群数据的方法,属于离群数据挖掘技术领域,包括如下步骤:(1)样本离散化及编码:将高维数据进行编码,每一个个体对应一个字符串;选择稀疏系数作为适应度函数,由该系数作为判定个体优劣的标准;(2)循环迭代:维护一个群体,群体包括若干个体;通过交叉、变异、选择按照优胜劣汰的原则不断的更新这个群体;(3)译码得到离群数据:将最终获得的群体进行译码对应相应的样本数据,进而发现隐藏在其中的离群数据。本发明专利技术可以高效快速的从大规模高维数据中发现隐藏在其中的离群数据。

【技术实现步骤摘要】

本专利技术涉及一种离群数据挖掘
,具体地说是一种基于遗传算法从大规模 高维数据中检测离群数据的方法。
技术介绍
离群数据是指在大量数据存在的一些与数据的一般行为或模型不一致的数据。离 群数据的产生一般认为有两种原因: (1)、度量或执行错误所导致:对这类型离群数据的筛选,可以从大量数据中筛选出杂 质或存在问题的数据,进而提高数据的总体质量。 (2)、固有的数据变异性的结果:这类型数据的客观存在决定了对该类型离群数据 筛选的重要性。例如在科研数据发现客观存在的一些未知的离群数据,可以很好的提高相 关理论的研究。 利用离群数据检测,不仅可以用来在分类、聚类及回归等其它应用中排除样本中 的杂质数据,而且可以发现在大样本数据中存在的一些分布比较少的特殊样本数据。 随着数据的不断积累及数据的规模不断的增大,传统离群数据挖掘算法利用现有 计算条件在其中筛选离群数据越发地困难。
技术实现思路
本专利技术的技术任务是提供一种结可以高效快速的从大规模高维数据中发现隐藏 在其中的离群数据的。 本专利技术的技术任务是按以下方式实现的: ,包括如下步骤: (1) 、样本离散化及编码:将高维数据进行编码,每一个个体对应一个字符串;选择稀 疏系数作为适应度函数,由该系数作为判定个体优劣的标准; (2) 、循环迭代:维护一个群体,群体包括若干个体;通过交叉、变异、选择按照优胜劣 汰的原则不断的更新这个群体; (3) 、译码得到离群数据:将最终获得的群体进行译码对应相应的样本数据,进而发现 隐藏在其中的离群数据。 编码及译码:遗传算法中的一个群体是由经过基因编码的一定数目的个体组成; 每个个体是染色体带有特征的实体,染色体用字符串的形式来表示,变量与个体之间的映 像通过编码实现;对于一个》维数据集,第个属性的取值为穸或者*,*表示 对该属性的取值不关心;对于原始数据中的第时*^?)个属性的取值按照数值的大小投影 到-个分组中,即数据映像到一维空间上后;每一区间包含相等数量的数据点,将转变为为 1?史之间的某个值。例如对一个四维数据集的二维子空间它的一个可能的二维子空间模 式为*3*9,这个模式中,第二维和第四维的取值是确定的,而第一维和第三维的取值是不 关心的;而该字符串对应的原始数据是第二维和第四维的取值分别是3和9的数据,而第一 维和第三维不予考虑。 适应度函数是评价所有个体的目标函数;通过编码,将数据的每一维分成个等 深度区间;即数据映像到一维空间上后,每一区间包含相等数量的数据点,占总数据点的 /= i/妒:在一个数据集k维子空间中的每一维上各取一个深度区间,组成一个k维立方 体D,引人稀疏系数S (D)来表示它的稀疏程度(D)对应的k个属性及取值相当于数据集的 一个模式;S(D)越小表示D所包含的数据点越少,稀疏系数很小的D对应的模式即为异常 模式;稀疏系数S(D)的定义如下:本文档来自技高网...

【技术保护点】
基于遗传算法从大规模高维数据中检测离群数据的方法,其特征在于包括如下步骤:(1)、样本离散化及编码:将高维数据进行编码,每一个个体对应一个字符串;选择稀疏系数作为适应度函数,由该系数作为判定个体优劣的标准;(2)、循环迭代:维护一个群体,群体包括若干个体;通过交叉、变异、选择按照优胜劣汰的原则不断的更新这个群体;(3)、译码得到离群数据:将最终获得的群体进行译码对应相应的样本数据,进而发现隐藏在其中的离群数据。

【技术特征摘要】
1. 基于遗传算法从大规模高维数据中检测离群数据的方法,其特征在于包括如下步 骤: (1) 、样本离散化及编码:将高维数据进行编码,每一个个体对应一个字符串;选择稀 疏系数作为适应度函数,由该系数作为判定个体优劣的标准; (2) 、循环迭代:维护一个群体,群体包括若干个体;通过交叉、变异、选择按照优胜劣 汰的原则不断的更新这个群体; (3)、译码得到离群数据:将最终获得的群体进行译码对应相应的样本数据,进而发现 隐藏在其中的离群数据。2. 根据权利要求1所述的基于遗传算法从大规模高维数据中检测离群数据的方法,其 特征在于编码及译码:遗传算法中的一个群体是由经过基因编码的一定数目的个体组成; 每个个体是染色体带有特征的实体,染色体用字符串的形式来表示,变量与个体之间的映 像通过编码实现;对于一个I*维数据集,第个属性的取值为1?P或者*,*表示对 该属性的取值不关心;对于原始数据中的第个属性的取值按照数值的大小投影到 -个分组中,即数据映像到一维空间上后;每一区间包含相等数量的数据点,将转变为为 1?铲之间的某个值。3. 根据权利要求1所述的基于遗传算法从大规模高维数据中检测离群数据的方法, 其特征在于适应度函数是评价所有个体的目标函数;通过编码,将数据的每一维分成-个 等深度区间;即数据映像到一维空间上后,每一区间包含相等数量的数据点,占总数据点的 /=V史;在一个数据集k维子空间中的每一维上各取一个深度区间,组成一个k维立方体 D,引人...

【专利技术属性】
技术研发人员:韦鹏付兴旺吴楠
申请(专利权)人:浪潮电子信息产业股份有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1