The invention discloses a method, device and computer equipment for optimizing the proportion of abnormal points based on spectral clustering. The method includes: receiving the set of data points to be classified, clustering the set of data points to be classified by spectral clustering to get multiple clustering clusters; acquiring the corresponding data points of each clustering cluster, building an isolated forest model corresponding to each clustering cluster one by one according to the preset proportion of current outliers and clustering clusters; adjusting the proportion of current outliers until the average Euclidean distance. The ratio of current outliers plus step size is taken as the optimal proportion of outliers. The selected clustering clusters are classified according to the optimal proportion of outliers, and the optimal classification results are obtained. The method uses spectral clustering to classify massive data, and then detects outliers simultaneously and automatically obtains the optimal outlier proportion for each clustering cluster. According to the optimal outlier proportion, outlier detection is carried out for the data of each clustering cluster, and the accuracy is improved.
【技术实现步骤摘要】
基于谱聚类的异常点比例优化方法、装置及计算机设备
本专利技术涉及智能决策
,尤其涉及一种基于谱聚类的异常点比例优化方法、装置及计算机设备。
技术介绍
异常值分析是检验数据是否有录入错误以及含有不合常理的数据的过程,忽视异常值的存在是十分危险的,不加剔除地把异常值包括进数据的计算分析过程中,对结果会产生不良影响。目前,当云服务器接收了海量的数据并需对其进行异常点检测是,若仅将海量数据视为只有一个中心的数据集,会导致用于异常点检测的无监督模型的区分效果较差,无法准确的检测出异常点。而且无监督模型在检测前的异常点比例的设置依赖用户经验,导致设置难度较大。
技术实现思路
本专利技术实施例提供了一种基于谱聚类的异常点比例优化方法、装置及计算机设备,旨在解决现有技术中海量数据视为只有一个中心的数据集,会导致用于异常点检测的无监督模型的区分效果较差,无法准确的检测出异常点的问题。第一方面,本专利技术实施例提供了一种基于谱聚类的异常点比例优化方法,其包括:接收待分类数据点集合,通过谱聚类将所述待分类数据点集合对应的节点划分为多个子图,并得到与各子图对应的聚类簇;获取多个聚类簇中 ...
【技术保护点】
1.一种基于谱聚类的异常点比例优化方法,其特征在于,包括:接收待分类数据点集合,通过谱聚类将所述待分类数据点集合对应的节点划分为多个子图,并得到与各子图对应的聚类簇;获取多个聚类簇中所包括每一聚类簇对应的数据点,根据预设的当前异常点比例及每一聚类簇,构建与每一聚类簇一一对应的用于异常点检测的孤立森林模型;将所选定的聚类簇根据所述孤立森林模型及所述当前异常点比例进行分类,得到分类结果中正常类别的正常点中心;获取所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离,以作为当前状态平均欧式距离;通过所述当前异常点比例减去预设的步长,以更新当前异常点比例;将所选定的聚类 ...
【技术特征摘要】
1.一种基于谱聚类的异常点比例优化方法,其特征在于,包括:接收待分类数据点集合,通过谱聚类将所述待分类数据点集合对应的节点划分为多个子图,并得到与各子图对应的聚类簇;获取多个聚类簇中所包括每一聚类簇对应的数据点,根据预设的当前异常点比例及每一聚类簇,构建与每一聚类簇一一对应的用于异常点检测的孤立森林模型;将所选定的聚类簇根据所述孤立森林模型及所述当前异常点比例进行分类,得到分类结果中正常类别的正常点中心;获取所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离,以作为当前状态平均欧式距离;通过所述当前异常点比例减去预设的步长,以更新当前异常点比例;将所选定的聚类簇根据所述孤立森林模型及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离;通过下一状态平均欧式距离与当前状态平均欧式距离之差除以所述步长,得到平均欧式距离变动幅度;判断所述平均欧式距离变动幅度超出预设的变动幅度阈值;若所述平均欧式距离变动幅度超出所述变动幅度阈值,将当前异常点比例加上步长作为最优异常点比例;以及将所选定的聚类簇根据所述孤立森林模型及最优异常点比例进行分类,得到最优分类结果。2.根据权利要求1所述的基于谱聚类的异常点比例优化方法,其特征在于,所述通过谱聚类将所述待分类数据点集合对应的节点划分为多个子图,并得到与各子图对应的聚类簇,包括:获取所输入的相似度矩阵和目标聚类数目;根据所述相似度矩阵构建与所述待分类数据点集合对应的节点相应的相似矩阵;根据所述相似矩阵构建邻接矩阵和对角矩阵,由所述对角矩阵与所述邻接矩阵之差得到拉普拉斯矩阵;获取所述拉普拉斯矩阵中的多个特征值的排名,若判断特征值的排名位于预设排名阈值之前,获取对应的特征向量以组成目标特征向量集;将目标特征向量集合中每一特征向量转置为列向量并依次组合,以得到目标向量矩阵;通过k-means算法将目标向量矩阵中各行向量进行聚类,得到与所述目标聚类数目相同的子图,并得到与各子图对应的聚类簇。3.根据权利要求1所述的基于谱聚类的异常点比例优化方法,其特征在于,所述判断所述平均欧式距离变动幅度超出预设的变动幅度阈值之后,还包括:若所述平均欧式距离变动幅度未超出所述变动幅度阈值,将当前异常点比例减去步长以更新当前异常点比例,通过下一状态平均欧式距离以更新当前状态平均欧式距离,返回执行将所选定的聚类簇根据所述孤立森林模型及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离的步骤。4.根据权利要求1所述的基于谱聚类的异常点比例优化方法,其特征在于,所述根据预设的当前异常点比例及每一聚类簇,构建与每一聚类簇一一对应的用于异常点检测的孤立森林模型,包括:从各聚类簇中均随机获取一个数据属性,及由各聚类簇中所选定的数据属性和当前异常点比例所确定的分裂值;根据所述数据属性及所述分裂值将各聚类聚分别进行划分,得到各聚类聚分别对应的多个孤立树,以组合得到与各聚类簇对应的用于异常点检测的孤立森林模型。5.根据权利要求1所述的基于谱聚类的异常点比例优化方法,其特征在于,所述将所选定的聚类簇根据所述孤立森林模型及所述当前异常点比例进行分类,得到分类结果中正常类别的正常点中心,包括:将所选定的聚类簇根据所述孤立森林模型及当前异常点比例进行分类,得到与所选定的聚类簇对应的分类结果;其中,所述分类结果中包括正常类别的数据点和异常类别的数据点;获取所述分类结果中正常类别的数据点所对应的平均...
【专利技术属性】
技术研发人员:杨志鸿,徐亮,阮晓雯,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。