一种基于模糊距离的不确定离群点检测方法技术

技术编号：13059614 阅读：61 留言：0更新日期：2016-03-23 23:57

本发明专利技术公开了一种基于模糊距离的不确定离群点检测方法，包括：计算不确定数据集中，各数据点到其对应邻域中的每一数据点的模糊距离；对所述各数据点到其邻域中的每一数据点的模糊距离进行加权计算，得到各数据点的邻域平均距离；根据所述邻域平均距离计算得到各数据点的可达距离；根据所述可达距离计算各个数据点的离群度，并选择离群度大于预设阈值的数据点为离群点。本发明专利技术可以有效地从不确定数据集中发现隐藏在其中的离群数据，确定每个数据的离群度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据挖掘
，尤其涉及一种基于模糊距离的不确定离群点检测方法。
技术介绍
离群数据挖掘技术是目前数据挖掘领域的研究热点之一，目前已有的离群数据挖掘主要基于距离或最近邻概念进行的确定离群挖掘，随着互联网和移动互联网的广泛普及，大量的不确定数据在金融和经济分析、电子通信、现代物流等不同领域广泛应用，数据本身的不确定性，难以准确判断数据是否异常，导致难以给出确切的离群数据。在不确定的数据集，即使一个数据点本身并不像是一个离群点，但如果它的不确定程度非常高，这个数据也很可能会被怀疑是异常的。因此基于不确定数据集的离群检测，需要确定每个数据的不确定程度即离群度。
技术实现思路
本专利技术所要解决的技术问题在于，提供一种基于模糊距离的不确定离群点检测方法，可以有效地从不确定数据集中发现隐藏在其中的离群数据，确定每个数据的离群度，可以广泛应用于金融和经济分析、电子通信、现代物流等领域。为了解决上述技术问题，本专利技术提供了一种基于模糊距离的不确定离群点检测方法，包括：计算不确定数据集中，各数据点到其对应邻域中的每一数据点的模糊距离；对所述各数据点到其邻域中的每一数据点的模糊距离进行加权计算，得到各数据点的邻域平均距离；根据所述邻域平均距离计算得到各数据点的可达距离；根据所述可达距离计算各个数据点的离群度，并选择离群度大于预设阈值的数据点为离群点。进一步的，所述计算不确定数据集中，各数据点到其对应邻域中的每一数据点的模糊距离，具体包括：将不确定数据集形式化；其中，形式化后的不确定数据集为D= {Xi...

【技术保护点】
一种基于模糊距离的不确定离群点检测方法，其特征在于，包括：计算不确定数据集中，各数据点到其对应邻域中的每一数据点的模糊距离；对所述各数据点到其邻域中的每一数据点的模糊距离进行加权计算，得到各数据点的邻域平均距离；根据所述邻域平均距离计算得到各数据点的可达距离；根据所述可达距离计算各个数据点的离群度，并选择离群度大于预设阈值的数据点为离群点。

【技术特征摘要】

【专利技术属性】
技术研发人员：刘文婷，
申请(专利权)人：河海大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人