一种基于双参数离群因子的离群点检测方法技术

技术编号：19859023 阅读：19 留言：0更新日期：2018-12-22 12:02

本发明专利技术公开了一种基于双参数离群因子的离群点检测方法，具体按照以下步骤实施：步骤1，给定一个空间分布数据集χ＝{X1,X2,...XN}，计算数据集中每一个数据点Xi的局部密度，并将每个数据点Xi的局部密度按大小降序排列，形成一个密度集合；步骤2，根据步骤1的密度集合计算数据集中每一个数据点Xi的全局距离；步骤3，求取密度距离双参数离群因子DDPOS(Xi)；步骤4，判断是否为离群点，若DDPOS(Xi)的值等于1或者收敛于1那么点Xi就是一个正常的数据点，否则判断其为离群点。本发明专利技术的目的是提供一种基于双参数离群因子的离群点检测方法，提出了一种新的离群因子且应用提出的离群因子对离群点进行检测时检测精度高。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于双参数离群因子的离群点检测方法
本专利技术属于数据挖掘方法
，涉及一种基于双参数离群因子的离群点检测方法。
技术介绍
信息数据在社会的发展起到越来越重要的作用，离群点检测方法研究在数据挖掘领域中已成逐渐成为与分类方法、聚类方法同等重要的一项课题。在一些特定的领域中，对于离群数据的挖掘价值要高于正常数据挖掘的价值，其目的是有效的将数据集中的异常数据识别出来，并且挖掘出数据集中有意义的潜在信息。离群数据挖掘是一种无监督的分类，保证发掘出那些与正常数据明显不同的数据点，即离群点。在其他一些文献中，离群点也称为异常点(anomaly)、冲突点(discordantobservation)或者是噪声(noise)等，不同术语称谓代表着不同领域的用户看待数据角度的差异。现有的离群点挖掘方法一般分为基于统计学习的方法、基于密度的方法、基于距离的方法和基于聚类的方法。此外，现在大部分研究的数据对象都是空间分布数据，将其他的数据转换为符合空间模型的数据同样也能够处理。基于统计学习的方法主要是根据数据集的知识背景，应用统计技术对整体数据建立统计分析模型，主要步骤是对于输入的数据点，验证该点是否符合建立的模型，进而判断该点是否是离群点，目前该方法应用的已经很少了，因为遵循数据集的规律建立检测模型，不符合随机检测的核心内容，从未知数据集中检测出离群点才是现阶段离群点检测方法的核心任务。基于密度的方法考察的是数据集中对象和它近邻的密度，如果一个对象的密度相对于它自己的近邻低得多，那么该对象被认为是一个离群点，基于密度的方法分为全局密度和局部密度两种，随着研究的深入，局...

【技术保护点】
1.一种基于双参数离群因子的离群点检测方法，其特征在于，具体按照以下步骤实施：步骤1，给定一个空间分布数据集χ＝{X1,X2,...XN}，其中Xi∈R

【技术特征摘要】
1.一种基于双参数离群因子的离群点检测方法，其特征在于，具体按照以下步骤实施：步骤1，给定一个空间分布数据集χ＝{X1,X2,...XN}，其中Xi∈Rd，i＝1,2,...N，计算数据集中每一个数据点Xi的局部密度ρ(Xi)，并将每个数据点Xi的局部密度按大小降序排列，形成一个密度集合步骤2，根据步骤1的密度集合计算数据集中每一个数据点Xi的全局距离d(Xi)；步骤3，求取密度距离双参数离群因子步骤4，判断是否为离群点，若DDPOS(Xi)的值等于1或者收敛于1那么点Xi就是一个正常的数据点，否则判断其为离群点。2.根据权利要求1所述的一种基于双参数离群因子的离群点检测方法，其特征在于，所述步骤1中数据集中每一个数据点Xi的局部密度ρ(Xi)的计算方法为：其中为核函数，dc为数据点Xi的截断距离，||Xi-Xj||是Xi与Xj之...

【专利技术属性】
技术研发人员：周红芳，刘虹江，张英杰，张尧，刘艺彬，奚冰彦，
申请(专利权)人：西安理工大学，
类型：发明
国别省市：陕西,61

全部详细技术资料下载我是这个专利的主人