基于遗传算法从大规模高维数据中检测离群数据的方法技术

技术编号：11130014 阅读：96 留言：0更新日期：2015-03-11 23:02

本发明专利技术公开了一种基于遗传算法从大规模高维数据中检测离群数据的方法，属于离群数据挖掘技术领域，包括如下步骤：（1）样本离散化及编码：将高维数据进行编码，每一个个体对应一个字符串；选择稀疏系数作为适应度函数，由该系数作为判定个体优劣的标准；（2）循环迭代：维护一个群体，群体包括若干个体；通过交叉、变异、选择按照优胜劣汰的原则不断的更新这个群体；（3）译码得到离群数据：将最终获得的群体进行译码对应相应的样本数据，进而发现隐藏在其中的离群数据。本发明专利技术可以高效快速的从大规模高维数据中发现隐藏在其中的离群数据。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种离群数据挖掘
，具体地说是一种基于遗传算法从大规模高维数据中检测离群数据的方法。
技术介绍
离群数据是指在大量数据存在的一些与数据的一般行为或模型不一致的数据。离群数据的产生一般认为有两种原因： (1)、度量或执行错误所导致：对这类型离群数据的筛选，可以从大量数据中筛选出杂质或存在问题的数据，进而提高数据的总体质量。 (2)、固有的数据变异性的结果：这类型数据的客观存在决定了对该类型离群数据筛选的重要性。例如在科研数据发现客观存在的一些未知的离群数据，可以很好的提高相关理论的研究。利用离群数据检测，不仅可以用来在分类、聚类及回归等其它应用中排除样本中的杂质数据，而且可以发现在大样本数据中存在的一些分布比较少的特殊样本数据。随着数据的不断积累及数据的规模不断的增大，传统离群数据挖掘算法利用现有计算条件在其中筛选离群数据越发地困难。
技术实现思路
本专利技术的技术任务是提供一种结可以高效快速的从大规模高维数据中发现隐藏在其中的离群数据的。本专利技术的技术任务是按以下方式实现的：，包括如下步骤： (1) 、样本离散化及编码：将高维数据进行编码，每一个个体对应一个字符串；选择稀疏系数作为适应度函数，由该系数作为判定个体优劣的标准； (2) 、循环迭代：维护一个群体，群体包括若干个体；通过交叉、变异、选择按照优胜劣汰的原则不断的更新这个群体； (3) 、译码得到离群数据：将最终获得的群体进行译码对应相应的样本数据，进而发现隐藏在其中的离群数据。编码...

【技术保护点】
基于遗传算法从大规模高维数据中检测离群数据的方法，其特征在于包括如下步骤：（1）、样本离散化及编码：将高维数据进行编码，每一个个体对应一个字符串；选择稀疏系数作为适应度函数，由该系数作为判定个体优劣的标准；（2）、循环迭代：维护一个群体，群体包括若干个体；通过交叉、变异、选择按照优胜劣汰的原则不断的更新这个群体；（3）、译码得到离群数据：将最终获得的群体进行译码对应相应的样本数据，进而发现隐藏在其中的离群数据。

【技术特征摘要】
1. 基于遗传算法从大规模高维数据中检测离群数据的方法，其特征在于包括如下步骤： (1) 、样本离散化及编码：将高维数据进行编码，每一个个体对应一个字符串；选择稀疏系数作为适应度函数，由该系数作为判定个体优劣的标准； (2) 、循环迭代：维护一个群体，群体包括若干个体；通过交叉、变异、选择按照优胜劣汰的原则不断的更新这个群体； (3)、译码得到离群数据：将最终获得的群体进行译码对应相应的样本数据，进而发现隐藏在其中的离群数据。2. 根据权利要求1所述的基于遗传算法从大规模高维数据中检测离群数据的方法，其特征在于编码及译码：遗传算法中的一个群体是由经过基因编码的一定数目的个体组成；每个个体是染色体带有特征的实体，染色体用字符串的形式来表示，变量与个体之间的映像通过编码实现；对于一个I*维数据集，第个属性的取值为1?P或者*，*表示对该属性的取值不关心；对于原始数据中的第个属性的取值按照数值的大小投影到 -个分组中，即数据映像到一维空间上后；每一区间包含相等数量的数据点，将转变为为 1?铲之间的某个值。3. 根据权利要求1所述的基于遗传算法从大规模高维数据中检测离群数据的方法，其特征在于适应度函数是评价所有个体的目标函数；通过编码，将数据的每一维分成-个等深度区间；即数据映像到一维空间上后，每一区间包含相等数量的数据点，占总数据点的 /=V史；在一个数据集k维子空间中的每一维上各取一个深度区间，组成一个k维立方体 D，引人...

【专利技术属性】
技术研发人员：韦鹏，付兴旺，吴楠，
申请(专利权)人：浪潮电子信息产业股份有限公司，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人