The embodiment of the present invention relates to the field of data processing technology. Specifically, it relates to a two-dimensional density clustering method and device. The method connects several two-dimensional coordinate points selected by random selection of the first sample and realizes parallel clustering calculation for each two-dimensional coordinate point. The traditional full traversal is modified to parallel traversal, thus realizing multi-class clustering. Thread multi-process concurrent execution can effectively reduce computing time and improve computing efficiency.
【技术实现步骤摘要】
二维密度聚类方法及装置
本专利技术实施例涉及数据处理
,具体而言,涉及一种二维密度聚类方法及装置。
技术介绍
聚类分析算法在数据分析中扮演着重要的角色,它是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。随着信息技术的发展,各类数据也变的越来越繁杂,当数据量增大时,现有的聚类分析算法计算时间长且计算效率低。
技术实现思路
有鉴于此,本专利技术提供了一种二维密度聚类方法及装置。本专利技术实施例提供了一种二维密度聚类方法,包括:获取多个样本数据中每个样本数据对应的二维坐标点;基于获取得到的多个二维坐标点确定第一样本选取数,从获取得到的多个二维坐标点中随机选取所述第一样本选取数个二维坐标点;对随机选取得到的所述第一样本选取数个二维坐标点进行笛卡尔积连接,基于第一设定规则对完成笛卡尔积连接的所述第一样本选取数个二维坐标点进行筛选;针对筛选得到的多个二维坐标点中的每个二维坐标点,统计以该二维坐标点为圆心,设定距离为半径所形成的外切正方形区域内的二维坐标点的第一数量,判断所述第一数量是否达到设定值,若所述第一数量达到所述设定值,基于第二设定规则对所述外切正方形区域内的二维坐标点进行剔除,统计所述外切正方形区域内没有被剔除的二维坐标点的第二数量,判断所述第二数量是否达到所述设定值,若所述第二数量达到所述第二设定值,将所述第二数量个二维坐标点作为一个类簇;将获得的多个类簇合并作为第一类簇,针对所述第一类簇中的每个二维坐标点,查找是否存在以该二维坐标点为圆心,所述设定距离为半径所形成的第一圆形区域内的除所述第一类簇中的二维坐标点以外的二维坐标 ...
【技术保护点】
1.一种二维密度聚类方法,其特征在于,包括:获取多个样本数据中每个样本数据对应的二维坐标点;基于获取得到的多个二维坐标点确定第一样本选取数,从获取得到的多个二维坐标点中随机选取所述第一样本选取数个二维坐标点;对随机选取得到的所述第一样本选取数个二维坐标点进行笛卡尔积连接,基于第一设定规则对完成笛卡尔积连接的所述第一样本选取数个二维坐标点进行筛选;针对筛选得到的多个二维坐标点中的每个二维坐标点,统计以该二维坐标点为圆心,设定距离为半径所形成的外切正方形区域内的二维坐标点的第一数量,判断所述第一数量是否达到设定值,若所述第一数量达到所述设定值,基于第二设定规则对所述外切正方形区域内的二维坐标点进行剔除,统计所述外切正方形区域内没有被剔除的二维坐标点的第二数量,判断所述第二数量是否达到所述设定值,若所述第二数量达到所述第二设定值,将所述第二数量个二维坐标点作为一个类簇;将获得的多个类簇合并作为第一类簇,针对所述第一类簇中的每个二维坐标点,查找是否存在以该二维坐标点为圆心,所述设定距离为半径所形成的第一圆形区域内的除所述第一类簇中的二维坐标点以外的二维坐标点,若存在,将所述第一圆形区域内除所述 ...
【技术特征摘要】
1.一种二维密度聚类方法,其特征在于,包括:获取多个样本数据中每个样本数据对应的二维坐标点;基于获取得到的多个二维坐标点确定第一样本选取数,从获取得到的多个二维坐标点中随机选取所述第一样本选取数个二维坐标点;对随机选取得到的所述第一样本选取数个二维坐标点进行笛卡尔积连接,基于第一设定规则对完成笛卡尔积连接的所述第一样本选取数个二维坐标点进行筛选;针对筛选得到的多个二维坐标点中的每个二维坐标点,统计以该二维坐标点为圆心,设定距离为半径所形成的外切正方形区域内的二维坐标点的第一数量,判断所述第一数量是否达到设定值,若所述第一数量达到所述设定值,基于第二设定规则对所述外切正方形区域内的二维坐标点进行剔除,统计所述外切正方形区域内没有被剔除的二维坐标点的第二数量,判断所述第二数量是否达到所述设定值,若所述第二数量达到所述第二设定值,将所述第二数量个二维坐标点作为一个类簇;将获得的多个类簇合并作为第一类簇,针对所述第一类簇中的每个二维坐标点,查找是否存在以该二维坐标点为圆心,所述设定距离为半径所形成的第一圆形区域内的除所述第一类簇中的二维坐标点以外的二维坐标点,若存在,将所述第一圆形区域内除所述第一类簇中的二维坐标点以外的二维坐标点划分到所述第一类簇中。2.根据权利要求1所述的二维密度聚类方法,其特征在于,所述方法还包括:从获取得到的多个二维坐标点中剔除属于所述第一类簇的二维坐标点;基于剩余的多个二维坐标点确定第二样本选取数,从剩余的多个二维坐标点中随机选取所述第二样本选取数个二维坐标点;对随机选取得到的所述第二样本选取数个二维坐标点进行笛卡尔积连接,基于所述第一设定规则对完成笛卡尔积连接的所述第二样本选取数个二维坐标点进行筛选;判断从完成笛卡尔积连接的所述第二样本选取数个二维坐标点中筛选得到的二维坐标点的数量是否零,若为零,将完成笛卡尔积连接的所述第二样本选取数个二维坐标点作为噪音样本坐标点。3.根据权利要求1所述的二维密度聚类方法,其特征在于,所述第一样本选取数通过以下公式计算得到:其中,n为第一样本选取数,Xmax为获取得到的多个二维坐标点中的最大横坐标,Xmin为获取得到的多个二维坐标点中的最小横坐标,Ymax为获取得到的多个二维坐标点中的最大纵坐标,Ymin为获取得到的多个二维坐标点中的最小纵坐标;若n<2,取n=2。4.根据权利要求1所述的二维密度聚类方法,其特征在于,基于第一设定规则对完成笛卡尔积连接的所述第一样本选取数个二维坐标点进行筛选的步骤,包括:计算所述第一样本选取数个二维坐标点中每两个二维坐标点之间的距离,针对计算得到的每个距离,判断该距离是否小于所述设定距离的两倍,若小于,该距离对应的两个二维坐标点中的其中一个二维坐标点剔除。5.根据权利要求1所述的二维密度聚类方法,其特征在于,基于第二设定规则对所述外切正方形区域内的二维坐标点进行剔除的步骤,包括:针对筛选得到的多个二维坐标点中的每个二维坐标点,以该二维坐标点为圆心,所述设定距离半径生成第二圆形区域;将位于所述外切正方形区域以内且位于所述第二圆形区域以外的二维坐标点剔除。6.一种二维密度聚类装置,其特征在于,包括:样本获取模块,用于获取多个样本数据中每...
【专利技术属性】
技术研发人员:潘小东,王纯斌,赵神州,覃进学,王伟才,
申请(专利权)人:成都四方伟业软件股份有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。