二维密度聚类方法及装置制造方法及图纸

技术编号:20992604 阅读:26 留言:0更新日期:2019-04-29 22:34
本发明专利技术实施例涉及数据处理技术领域,具体而言,涉及一种二维密度聚类方法及装置,该方法对随机选取得到的第一样本选取数个二维坐标点进行笛卡尔积连接,进而实现对每个二维坐标点的并行聚类计算,将传统的全量遍历修改为并行遍历,实现了类簇划分的多线程多进程并发执行,能够有效减少计算时间,提高计算效率。

2-D Density Clustering Method and Device

The embodiment of the present invention relates to the field of data processing technology. Specifically, it relates to a two-dimensional density clustering method and device. The method connects several two-dimensional coordinate points selected by random selection of the first sample and realizes parallel clustering calculation for each two-dimensional coordinate point. The traditional full traversal is modified to parallel traversal, thus realizing multi-class clustering. Thread multi-process concurrent execution can effectively reduce computing time and improve computing efficiency.

【技术实现步骤摘要】
二维密度聚类方法及装置
本专利技术实施例涉及数据处理
,具体而言,涉及一种二维密度聚类方法及装置。
技术介绍
聚类分析算法在数据分析中扮演着重要的角色,它是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。随着信息技术的发展,各类数据也变的越来越繁杂,当数据量增大时,现有的聚类分析算法计算时间长且计算效率低。
技术实现思路
有鉴于此,本专利技术提供了一种二维密度聚类方法及装置。本专利技术实施例提供了一种二维密度聚类方法,包括:获取多个样本数据中每个样本数据对应的二维坐标点;基于获取得到的多个二维坐标点确定第一样本选取数,从获取得到的多个二维坐标点中随机选取所述第一样本选取数个二维坐标点;对随机选取得到的所述第一样本选取数个二维坐标点进行笛卡尔积连接,基于第一设定规则对完成笛卡尔积连接的所述第一样本选取数个二维坐标点进行筛选;针对筛选得到的多个二维坐标点中的每个二维坐标点,统计以该二维坐标点为圆心,设定距离为半径所形成的外切正方形区域内的二维坐标点的第一数量,判断所述第一数量是否达到设定值,若所述第一数量达到所述设定值,基于第二设定规则对所述外切正方形区域内的二维坐标点进行剔除,统计所述外切正方形区域内没有被剔除的二维坐标点的第二数量,判断所述第二数量是否达到所述设定值,若所述第二数量达到所述第二设定值,将所述第二数量个二维坐标点作为一个类簇;将获得的多个类簇合并作为第一类簇,针对所述第一类簇中的每个二维坐标点,查找是否存在以该二维坐标点为圆心,所述设定距离为半径所形成的第一圆形区域内的除所述第一类簇中的二维坐标点以外的二维坐标点,若存在,将所述第一圆形区域内除所述第一类簇中的二维坐标点以外的二维坐标点划分到所述第一类簇中。可选地,所述方法还包括:从获取得到的多个二维坐标点中剔除属于所述第一类簇的二维坐标点;基于剩余的多个二维坐标点确定第二样本选取数,从剩余的多个二维坐标点中随机选取所述第二样本选取数个二维坐标点;对随机选取得到的所述第二样本选取数个二维坐标点进行笛卡尔积连接,基于所述第一设定规则对完成笛卡尔积连接的所述第二样本选取数个二维坐标点进行筛选;判断从完成笛卡尔积连接的所述第二样本选取数个二维坐标点中筛选得到的二维坐标点的数量是否零,若为零,将完成笛卡尔积连接的所述第二样本选取数个二维坐标点作为噪音样本坐标点。可选地,所述第一样本选取数通过以下公式计算得到:其中,n为第一样本选取数,Xmax为获取得到的多个二维坐标点中的最大横坐标,Xmin为获取得到的多个二维坐标点中的最小横坐标,Ymax为获取得到的多个二维坐标点中的最大纵坐标,Ymin为获取得到的多个二维坐标点中的最小纵坐标;若n<2,取n=2。可选地,基于第一设定规则对完成笛卡尔积连接的所述第一样本选取数个二维坐标点进行筛选的步骤,包括:计算所述第一样本选取数个二维坐标点中每两个二维坐标点之间的距离,针对计算得到的每个距离,判断该距离是否小于所述设定距离的两倍,若小于,该距离对应的两个二维坐标点中的其中一个二维坐标点剔除。可选地,基于第二设定规则对所述外切正方形区域内的二维坐标点进行剔除的步骤,包括:针对筛选得到的多个二维坐标点中的每个二维坐标点,以该二维坐标点为圆心,所述设定距离半径生成第二圆形区域;将位于所述外切正方形区域以内且位于所述第二圆形区域以外的二维坐标点剔除。本专利技术实施例还提供了一种二维密度聚类装置,包括:样本获取模块,用于获取多个样本数据中每个样本数据对应的二维坐标点;样本选取模块,用于基于获取得到的多个二维坐标点确定第一样本选取数,从获取得到的多个二维坐标点中随机选取所述第一样本选取数个二维坐标点;样本筛选模块,用于对随机选取得到的所述第一样本选取数个二维坐标点进行笛卡尔积连接,基于第一设定规则对完成笛卡尔积连接的所述第一样本选取数个二维坐标点进行筛选;类簇生成模块,用于针对筛选得到的多个二维坐标点中的每个二维坐标点,统计以该二维坐标点为圆心,设定距离为半径所形成的外切正方形区域内的二维坐标点的第一数量,判断所述第一数量是否达到设定值,若所述第一数量达到所述设定值,基于第二设定规则对所述外切正方形区域内的二维坐标点进行剔除,统计所述外切正方形区域内没有被剔除的二维坐标点的第二数量,判断所述第二数量是否达到所述设定值,若所述第二数量达到所述第二设定值,将所述第二数量个二维坐标点作为一个类簇;聚类模块,用于将获得的多个类簇合并作为第一类簇,针对所述第一类簇中的每个二维坐标点,查找是否存在以该二维坐标点为圆心,所述设定距离为半径所形成的第一圆形区域内的除所述第一类簇中的二维坐标点以外的二维坐标点,若存在,将所述第一圆形区域内除所述第一类簇中的二维坐标点以外的二维坐标点划分到所述第一类簇中。可选地,所述聚类模块还用于从获取得到的多个二维坐标点中剔除属于所述第一类簇的二维坐标点;所述样本选取模块还用于基于剩余的多个二维坐标点确定第二样本选取数,从剩余的多个二维坐标点中随机选取所述第二样本选取数个二维坐标点;所述样本筛选模块还用于对随机选取得到的所述第二样本选取数个二维坐标点进行笛卡尔积连接,基于所述第一设定规则对完成笛卡尔积连接的所述第二样本选取数个二维坐标点进行筛选;判断从完成笛卡尔积连接的所述第二样本选取数个二维坐标点中筛选得到的二维坐标点的数量是否零,若为零,将完成笛卡尔积连接的所述第二样本选取数个二维坐标点作为噪音样本坐标点。可选地,所述第一样本选取数通过以下公式计算得到:其中,n为第一样本选取数,Xmax为获取得到的多个二维坐标点中的最大横坐标,Xmin为获取得到的多个二维坐标点中的最小横坐标,Ymax为获取得到的多个二维坐标点中的最大纵坐标,Ymin为获取得到的多个二维坐标点中的最小纵坐标;若n<2,取n=2。可选地,所述样本筛选模块通过以下方式基于第一设定规则对完成笛卡尔积连接的所述第一样本选取数个二维坐标点进行筛选:计算所述第一样本选取数个二维坐标点中每两个二维坐标点之间的距离,针对计算得到的每个距离,判断该距离是否小于所述设定距离的两倍,若小于,该距离对应的两个二维坐标点中的其中一个二维坐标点剔除。可选地,所述类簇生成模块通过以下方式基于第二设定规则对所述外切正方形区域内的二维坐标点进行剔除:针对筛选得到的多个二维坐标点中的每个二维坐标点,以该二维坐标点为圆心,所述设定距离半径生成第二圆形区域;将位于所述外切正方形区域以内且位于所述第二圆形区域以外的二维坐标点剔除本专利技术实施例还提供了一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的二维密度聚类方法。本专利技术实施例还提供了一种计算机可读存储介质,所述可读存储介质包括计算机程序,所述计算机程序运行时控制所述可读存储介质所在电子设备执行上述的二维密度聚类方法。有益效果本专利技术实施例提供的二维密度聚类方法及装置,对随机选取得到的第一样本选取数个二维坐标点进行笛卡尔积连接,进而实现对每个二维坐标点的并行聚类计算,将传统的全量遍历修改为并行遍历,实现了类簇划分的多线程多进程并发执行,能够有效减少计算时间,提高计算效率。附图说明为了更清楚地说明本专利技术实施例的技术方案本文档来自技高网...

【技术保护点】
1.一种二维密度聚类方法,其特征在于,包括:获取多个样本数据中每个样本数据对应的二维坐标点;基于获取得到的多个二维坐标点确定第一样本选取数,从获取得到的多个二维坐标点中随机选取所述第一样本选取数个二维坐标点;对随机选取得到的所述第一样本选取数个二维坐标点进行笛卡尔积连接,基于第一设定规则对完成笛卡尔积连接的所述第一样本选取数个二维坐标点进行筛选;针对筛选得到的多个二维坐标点中的每个二维坐标点,统计以该二维坐标点为圆心,设定距离为半径所形成的外切正方形区域内的二维坐标点的第一数量,判断所述第一数量是否达到设定值,若所述第一数量达到所述设定值,基于第二设定规则对所述外切正方形区域内的二维坐标点进行剔除,统计所述外切正方形区域内没有被剔除的二维坐标点的第二数量,判断所述第二数量是否达到所述设定值,若所述第二数量达到所述第二设定值,将所述第二数量个二维坐标点作为一个类簇;将获得的多个类簇合并作为第一类簇,针对所述第一类簇中的每个二维坐标点,查找是否存在以该二维坐标点为圆心,所述设定距离为半径所形成的第一圆形区域内的除所述第一类簇中的二维坐标点以外的二维坐标点,若存在,将所述第一圆形区域内除所述第一类簇中的二维坐标点以外的二维坐标点划分到所述第一类簇中。...

【技术特征摘要】
1.一种二维密度聚类方法,其特征在于,包括:获取多个样本数据中每个样本数据对应的二维坐标点;基于获取得到的多个二维坐标点确定第一样本选取数,从获取得到的多个二维坐标点中随机选取所述第一样本选取数个二维坐标点;对随机选取得到的所述第一样本选取数个二维坐标点进行笛卡尔积连接,基于第一设定规则对完成笛卡尔积连接的所述第一样本选取数个二维坐标点进行筛选;针对筛选得到的多个二维坐标点中的每个二维坐标点,统计以该二维坐标点为圆心,设定距离为半径所形成的外切正方形区域内的二维坐标点的第一数量,判断所述第一数量是否达到设定值,若所述第一数量达到所述设定值,基于第二设定规则对所述外切正方形区域内的二维坐标点进行剔除,统计所述外切正方形区域内没有被剔除的二维坐标点的第二数量,判断所述第二数量是否达到所述设定值,若所述第二数量达到所述第二设定值,将所述第二数量个二维坐标点作为一个类簇;将获得的多个类簇合并作为第一类簇,针对所述第一类簇中的每个二维坐标点,查找是否存在以该二维坐标点为圆心,所述设定距离为半径所形成的第一圆形区域内的除所述第一类簇中的二维坐标点以外的二维坐标点,若存在,将所述第一圆形区域内除所述第一类簇中的二维坐标点以外的二维坐标点划分到所述第一类簇中。2.根据权利要求1所述的二维密度聚类方法,其特征在于,所述方法还包括:从获取得到的多个二维坐标点中剔除属于所述第一类簇的二维坐标点;基于剩余的多个二维坐标点确定第二样本选取数,从剩余的多个二维坐标点中随机选取所述第二样本选取数个二维坐标点;对随机选取得到的所述第二样本选取数个二维坐标点进行笛卡尔积连接,基于所述第一设定规则对完成笛卡尔积连接的所述第二样本选取数个二维坐标点进行筛选;判断从完成笛卡尔积连接的所述第二样本选取数个二维坐标点中筛选得到的二维坐标点的数量是否零,若为零,将完成笛卡尔积连接的所述第二样本选取数个二维坐标点作为噪音样本坐标点。3.根据权利要求1所述的二维密度聚类方法,其特征在于,所述第一样本选取数通过以下公式计算得到:其中,n为第一样本选取数,Xmax为获取得到的多个二维坐标点中的最大横坐标,Xmin为获取得到的多个二维坐标点中的最小横坐标,Ymax为获取得到的多个二维坐标点中的最大纵坐标,Ymin为获取得到的多个二维坐标点中的最小纵坐标;若n<2,取n=2。4.根据权利要求1所述的二维密度聚类方法,其特征在于,基于第一设定规则对完成笛卡尔积连接的所述第一样本选取数个二维坐标点进行筛选的步骤,包括:计算所述第一样本选取数个二维坐标点中每两个二维坐标点之间的距离,针对计算得到的每个距离,判断该距离是否小于所述设定距离的两倍,若小于,该距离对应的两个二维坐标点中的其中一个二维坐标点剔除。5.根据权利要求1所述的二维密度聚类方法,其特征在于,基于第二设定规则对所述外切正方形区域内的二维坐标点进行剔除的步骤,包括:针对筛选得到的多个二维坐标点中的每个二维坐标点,以该二维坐标点为圆心,所述设定距离半径生成第二圆形区域;将位于所述外切正方形区域以内且位于所述第二圆形区域以外的二维坐标点剔除。6.一种二维密度聚类装置,其特征在于,包括:样本获取模块,用于获取多个样本数据中每...

【专利技术属性】
技术研发人员:潘小东王纯斌赵神州覃进学王伟才
申请(专利权)人:成都四方伟业软件股份有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1