一种大数据密集支撑点快速选取方法技术

技术编号：17467960 阅读：30 留言：0更新日期：2018-03-15 05:19

本发明专利技术公开了一种大数据密集支撑点快速选取方法，包括以下步骤：数据集规模判断步骤；截断距离dc计算步骤；密集支撑点p0获取步骤。本发明专利技术首先通过对数据集D的规模进行判断，对大规模的数据集D进行缩减有效减少后续的运算次数；其中本发明专利技术在整个运算过程中，完全是基于对象间的距离，实际设计时实现难度低，通用性强，能从数据集中密集的区域获取密集支撑点。本发明专利技术用于从数据集中获取密集支撑点。

全部详细技术资料下载

【技术实现步骤摘要】
一种大数据密集支撑点快速选取方法
本专利技术涉及数据挖掘领域，更具体地说涉及一种大数据的密集支撑点选取方法。
技术介绍
现有的很多数据处理技术，都是面向多维空间的，仅适用于多维数据，难以应用于图像、音频视频、蛋白质等复杂的数据类型，这正是大数据时代常见的多样性挑战。度量空间算法是一种面向于上述复杂数据类型的数据处理算法，其中所述度量空间算法又包括密集支撑点选取步骤，良好的密集支撑点有利于建立更高效的索引，加快搜索过程，更有效地排除非目标对象或者非离群点等。常用的密集支撑点选取方法有两种，第一种是近似密集区域支撑点选取算法，该算法随机选取临时参考点，搜索数据集中与其距离最远的对象，以该对象为基点，计算数据集中各个对象与参考点的距离，按照从小到大的顺序排序，采用“等距划分+数量中点”的方法，取各段中位点加入支撑点候选集。计算每个段的对象数量，再对对象数量按从大到小的顺序排序。对于对象数量相等的分段，比较获得这些分段之中与参考点距离最近的分段，取其数量中点作为第一个支撑点，但是这种算法具体选取过程决定了其选取结果不够准确，可能把密集程度不高的支撑点也作为密集支撑点选取；第二种是暴力精确计算方法，即在确定密集的标准，或称密度值(例如以某给定距离值的范围内近邻数量多者为密集)之后，计算数据集里每个对象的密度值，最终得出最密集的对象(即给定距离值的范围内近邻数量最多者)。这种方法显然最为精确，但是时间开销也是最大的。
技术实现思路
本专利技术要解决的技术问题是：提供一种时间开销小的大数据密集支撑点精确选取方法。本专利技术解决其技术问题的解决方案是：一种大数据密集支撑点快速...
一种大数据密集支撑点快速选取方法

【技术保护点】
一种大数据密集支撑点快速选取方法，其特征在于，包括以下步骤：数据集规模判断步骤：读取数据集D，新建数据集D’，判断数据集D的规模大小，若数据集D为小规模数据集，将数据集D中所有的对象添加到数据集D’中，若数据集D为大规模数据，将从数据集D中抽取若干个对象添加到数据集D’中；截断距离dc计算步骤：在数据集D’中随机选取对象作为基准点pr，计算数据集D’所有对象与基准点pr的距离，根据所有对象与基准点pr的距离，计算截断距离dc；密集支撑点p0获取步骤：计算数据集D’所有对象的dc近邻对象数量，所述dc近邻对象数量最大的对象，即为数据集D的密集支撑点p0，输出所述密集支撑点p0。

【技术特征摘要】
1.一种大数据密集支撑点快速选取方法，其特征在于，包括以下步骤：数据集规模判断步骤：读取数据集D，新建数据集D’，判断数据集D的规模大小，若数据集D为小规模数据集，将数据集D中所有的对象添加到数据集D’中，若数据集D为大规模数据，将从数据集D中抽取若干个对象添加到数据集D’中；截断距离dc计算步骤：在数据集D’中随机选取对象作为基准点pr，计算数据集D’所有对象与基准点pr的距离，根据所有对象与基准点pr的距离，计算截断距离dc；密集支撑点p0获取步骤：计算数据集D’所有对象的dc近邻对象数量，所述dc近邻对象数量最大的对象，即为数据集D的密集支撑点p0，输出所述密集支撑点p0。2.根据权利要求1所述的一种大数据密集支撑点快速选取方法，其特征在于，所述数据集规模判断步骤包括以下步骤：步骤A1：读取数据集D，新建数据集D’；步骤A2：设定规模界限，若数据集D中对象数量大于规模界限，则将数据集D定义为大规模数据集，否则将数据集D定义为小规模数据集；步骤A3：若数据集D为小规模数据集，则将数据集D中所有的对象添加到数据集D’中，若数据集D为大规模数据集，则通过均匀抽样或者随机抽样的方式，从数据集D中抽取对象添加到数据集D’中，抽取对象的数量与规模界限数值一致。3.根据权利要求2所述的一种大数据密集支撑点快速选取方法，其特征在于，所述截断距离dc计算步骤包括以下步骤：步骤B1：设定截断距离参数u，所述截断距离参数u数值范围为0.1至0.2之间；步骤B2：在数据集D’中随机选取一对象作为基准点pr，计算数据集D’所有对象与基准点pr的距离，记为第一距离；步骤B3：设定参数r，取数据集D’所有对象的第一距离中的最大值赋给参数r，所述截断距离参数dc＝ur。4.根据权利要求3所述的一种大数据密集支撑点快速选取方法，其特征在于，所述密集支撑点p0获取步骤包括以下步骤：步骤C1：逐一获取数据集D’的各个对象O，定义对象O的dc近邻对象数量为M，并初始化为0；步骤C2：逐一读取数据集D’的其他对象X，计算对象O第一距离与对象X第一距离的差的绝对值；步骤C3：若所述对象O第一距离与对象X...

【专利技术属性】
技术研发人员：许红龙，
申请(专利权)人：佛山科学技术学院，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人