一种大数据密集支撑点快速选取方法技术

技术编号:17467960 阅读:30 留言:0更新日期:2018-03-15 05:19
本发明专利技术公开了一种大数据密集支撑点快速选取方法,包括以下步骤:数据集规模判断步骤;截断距离dc计算步骤;密集支撑点p0获取步骤。本发明专利技术首先通过对数据集D的规模进行判断,对大规模的数据集D进行缩减有效减少后续的运算次数;其中本发明专利技术在整个运算过程中,完全是基于对象间的距离,实际设计时实现难度低,通用性强,能从数据集中密集的区域获取密集支撑点。本发明专利技术用于从数据集中获取密集支撑点。

【技术实现步骤摘要】
一种大数据密集支撑点快速选取方法
本专利技术涉及数据挖掘领域,更具体地说涉及一种大数据的密集支撑点选取方法。
技术介绍
现有的很多数据处理技术,都是面向多维空间的,仅适用于多维数据,难以应用于图像、音频视频、蛋白质等复杂的数据类型,这正是大数据时代常见的多样性挑战。度量空间算法是一种面向于上述复杂数据类型的数据处理算法,其中所述度量空间算法又包括密集支撑点选取步骤,良好的密集支撑点有利于建立更高效的索引,加快搜索过程,更有效地排除非目标对象或者非离群点等。常用的密集支撑点选取方法有两种,第一种是近似密集区域支撑点选取算法,该算法随机选取临时参考点,搜索数据集中与其距离最远的对象,以该对象为基点,计算数据集中各个对象与参考点的距离,按照从小到大的顺序排序,采用“等距划分+数量中点”的方法,取各段中位点加入支撑点候选集。计算每个段的对象数量,再对对象数量按从大到小的顺序排序。对于对象数量相等的分段,比较获得这些分段之中与参考点距离最近的分段,取其数量中点作为第一个支撑点,但是这种算法具体选取过程决定了其选取结果不够准确,可能把密集程度不高的支撑点也作为密集支撑点选取;第二种是暴力精确计算方法,即在确定密集的标准,或称密度值(例如以某给定距离值的范围内近邻数量多者为密集)之后,计算数据集里每个对象的密度值,最终得出最密集的对象(即给定距离值的范围内近邻数量最多者)。这种方法显然最为精确,但是时间开销也是最大的。
技术实现思路
本专利技术要解决的技术问题是:提供一种时间开销小的大数据密集支撑点精确选取方法。本专利技术解决其技术问题的解决方案是:一种大数据密集支撑点快速选取方法,包括以下步骤:数据集规模判断步骤:读取数据集D,新建数据集D’,判断数据集D的规模大小,若数据集D为小规模数据集,将数据集D中所有的对象添加到数据集D’中,若数据集D为大规模数据,将从数据集D中抽取若干个对象添加到数据集D’中;截断距离dc计算步骤:在数据集D’中随机选取对象作为基准点pr,计算数据集D’所有对象与基准点pr的距离,根据所有对象与基准点pr的距离,计算截断距离dc;密集支撑点p0获取步骤:计算数据集D’所有对象的dc近邻对象数量,所述dc近邻对象数量最大的对象,即为数据集D的密集支撑点p0,输出所述密集支撑点p0。作为上述技术方案的进一步改进,所述数据集规模判断步骤包括以下步骤:步骤A1:读取数据集D,新建数据集D’;步骤A2:设定规模界限,若数据集D中对象数量大于规模界限,则将数据集D定义为大规模数据集,否则将数据集D定义为小规模数据集;步骤A3:若数据集D为小规模数据集,则将数据集D中所有的对象添加到数据集D’中,若数据集D为大规模数据集,则通过均匀抽样或者随机抽样的方式,从数据集D中抽取对象添加到数据集D’中,抽取对象的数量与规模界限数值一致。作为上述技术方案的进一步改进,所述截断距离dc计算步骤的第一实施方式,包括以下步骤:步骤B1:设定截断距离参数u,所述截断距离参数u数值范围为0.1至0.2之间;步骤B2:在数据集D’中随机选取一对象作为基准点pr,计算数据集D’所有对象与基准点pr的距离,记为第一距离;步骤B3:设定参数r,取数据集D’所有对象的第一距离中的最大值赋给参数r,所述截断距离参数dc=ur。基于上述实施方式,所述密集支撑点p0获取步骤包括以下步骤:步骤C1:逐一获取数据集D’的各个对象O,定义对象O的dc近邻对象数量为M,并初始化为0;步骤C2:逐一读取数据集D’的其他对象X,计算对象O第一距离与对象X第一距离的差的绝对值;步骤C3:若所述对象O第一距离与对象X第一距离的差的绝对值小于截断距离dc,计算对象O与对象X间的距离,记为第二距离,若大于截断距离dc,则认为对象X不可能是对象O的dc近邻对象,无需计算对象O与对象X间的距离,跳转到步骤C5;步骤C4:若第二距离小于截断距离dc,对象O的dc近邻对象数量自加1;步骤C5:获取下一个对象X,返回步骤C2,直到数据集D’全部对象读取完毕;步骤C6:获取下一个对象O,返回步骤C1;步骤C7:输出dc近邻对象数量最多的对象O,即为数据集D的密集支撑点p0。作为上述技术方案的进一步改进,所述截断距离dc计算步骤的第二实施方式,包括以下步骤:步骤b1:设定截断距离参数u,所述截断距离参数u数值范围为0.1至0.2之间;步骤b2:在数据集D’中随机选取多个对象作为基准点pr1、基准点pr2……基准点prn,建立第一数组,计算各个基准点与数据集D’所有对象的距离,记为第三距离,将各个基准点的第三距离的最大值存入第一数组中;步骤b3:设定参数r,取第一数组的最小值赋给参数r,所述截断距离参数dc=ur。基于上述实施方式,所述密集支撑点p0获取步骤包括以下步骤:步骤c1:逐一获取数据集D’的各个对象O,定义对象O的dc近邻对象数量为M,并初始化为0;步骤c2:逐一读取数据集D’的其他对象X,对于同一个基准点,计算对象O第三距离与对象X第三距离的差的绝对值;步骤c3:对于所有的基准点,若所述对象O第三距离与对象X第三距离的差的绝对值均小于截断距离dc,计算对象O与对象X间的距离,记为第四距离,若对于某个基准点,所述对象O第三距离与对象X第三距离的差的绝对值大于截断距离dc,则认为对象X不可能是对象O的dc近邻对象,无需计算对象O与对象X间的距离,跳转到步骤c5;步骤c4:若第四距离小于截断距离dc,对象O的dc近邻对象数量自加1;步骤c5:获取下一个对象X,返回步骤c2,直到数据集D’全部对象读取完毕;步骤c6:获取下一个对象O,返回步骤c1;步骤c7:输出dc近邻对象数量最多的对象O,即为数据集D的密集支撑点p0。在步骤c2和步骤c3中,计算对象O第三距离与对象X第三距离的差时,对象O的第三距离与对象X的第三距离,是基于同一个基准点(如基准点pr1)计算的。本专利技术的有益效果是:本专利技术首先通过对数据集D的规模进行判断,对大规模的数据集D进行缩减有效减少后续的运算次数;其中本专利技术在整个运算过程中,完全是基于对象间的距离,实际设计时实现难度低,通用性强,能从数据集中密集的区域获取密集支撑点。本专利技术用于从数据集中获取密集支撑点。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单说明。显然,所描述的附图只是本专利技术的一部分实施例,而不是全部实施例,本领域的技术人员在不付出创造性劳动的前提下,还可以根据这些附图获得其他设计方案和附图。图1是本专利技术的步骤流程图;图2是本专利技术的数据集规模判断步骤实施例流程图;图3是本专利技术的截断距离dc计算步骤以及密集支撑点p0获取步骤的第一实施方式流程图;图4是本专利技术的截断距离dc计算步骤以及密集支撑点p0获取步骤的第二实施方式流程图。具体实施方式以下将结合实施例和附图对本专利技术的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本专利技术的目的、特征和效果。显然,所描述的实施例只是本专利技术的一部分实施例,而不是全部实施例,基于本专利技术的实施例,本领域的技术人员在不付出创造性劳动的前提下所获得的其他实施例,均属于本专利技术保护的范围。参照图1~图4,本专利技术创造公开了一种大数据密集支撑点快速选取方法,包括以本文档来自技高网...
一种大数据密集支撑点快速选取方法

【技术保护点】
一种大数据密集支撑点快速选取方法,其特征在于,包括以下步骤:数据集规模判断步骤:读取数据集D,新建数据集D’,判断数据集D的规模大小,若数据集D为小规模数据集,将数据集D中所有的对象添加到数据集D’中,若数据集D为大规模数据,将从数据集D中抽取若干个对象添加到数据集D’中;截断距离dc计算步骤:在数据集D’中随机选取对象作为基准点pr,计算数据集D’所有对象与基准点pr的距离,根据所有对象与基准点pr的距离,计算截断距离dc;密集支撑点p0获取步骤:计算数据集D’所有对象的dc近邻对象数量,所述dc近邻对象数量最大的对象,即为数据集D的密集支撑点p0,输出所述密集支撑点p0。

【技术特征摘要】
1.一种大数据密集支撑点快速选取方法,其特征在于,包括以下步骤:数据集规模判断步骤:读取数据集D,新建数据集D’,判断数据集D的规模大小,若数据集D为小规模数据集,将数据集D中所有的对象添加到数据集D’中,若数据集D为大规模数据,将从数据集D中抽取若干个对象添加到数据集D’中;截断距离dc计算步骤:在数据集D’中随机选取对象作为基准点pr,计算数据集D’所有对象与基准点pr的距离,根据所有对象与基准点pr的距离,计算截断距离dc;密集支撑点p0获取步骤:计算数据集D’所有对象的dc近邻对象数量,所述dc近邻对象数量最大的对象,即为数据集D的密集支撑点p0,输出所述密集支撑点p0。2.根据权利要求1所述的一种大数据密集支撑点快速选取方法,其特征在于,所述数据集规模判断步骤包括以下步骤:步骤A1:读取数据集D,新建数据集D’;步骤A2:设定规模界限,若数据集D中对象数量大于规模界限,则将数据集D定义为大规模数据集,否则将数据集D定义为小规模数据集;步骤A3:若数据集D为小规模数据集,则将数据集D中所有的对象添加到数据集D’中,若数据集D为大规模数据集,则通过均匀抽样或者随机抽样的方式,从数据集D中抽取对象添加到数据集D’中,抽取对象的数量与规模界限数值一致。3.根据权利要求2所述的一种大数据密集支撑点快速选取方法,其特征在于,所述截断距离dc计算步骤包括以下步骤:步骤B1:设定截断距离参数u,所述截断距离参数u数值范围为0.1至0.2之间;步骤B2:在数据集D’中随机选取一对象作为基准点pr,计算数据集D’所有对象与基准点pr的距离,记为第一距离;步骤B3:设定参数r,取数据集D’所有对象的第一距离中的最大值赋给参数r,所述截断距离参数dc=ur。4.根据权利要求3所述的一种大数据密集支撑点快速选取方法,其特征在于,所述密集支撑点p0获取步骤包括以下步骤:步骤C1:逐一获取数据集D’的各个对象O,定义对象O的dc近邻对象数量为M,并初始化为0;步骤C2:逐一读取数据集D’的其他对象X,计算对象O第一距离与对象X第一距离的差的绝对值;步骤C3:若所述对象O第一距离与对象X...

【专利技术属性】
技术研发人员:许红龙
申请(专利权)人:佛山科学技术学院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1