一种内存索引结构-距离树的构建及基于距离树的相似性连接算法制造技术

技术编号：13877791 阅读：57 留言：0更新日期：2016-10-22 16:26

本发明专利技术属于数据挖掘技术领域，具体为一种内存索引结构‑距离树构建及基于距离树的相似性连接算法。本发明专利技术针对海量高维数据的相似性连接问题，提出了一种新型内存索引结构‑距离树。基于距离树的相似性连接算法是一种高效的分区‑过滤两阶段算法：第一阶段，距离树可以根据数据的潜在分布对数据进行有效的分区，同时在每个分区内部保存分区过程中产生的计算；第二阶段，在每个分区内部，距离树可以利用保存的计算剪枝精算阶段大量不必要的计算。实验证明，距离树比已有的相似性连接算法具有更高的效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数据挖掘
，具体涉及海量高维数据相似性连接方法，此外，还涉及内存索引结构的设计。
技术介绍
相似性连接就是在给定的数据集中，找到在相似性函数度量下，所有相似性值大于用户给定阈值的数据对。相似性连接问题在很多应用当中都是基本问题。随着物理硬件性能的不断提高，人们能获取的数据量越来越大，数据复杂性也越来越高。然而，在无序的并且没有索引的数据集上进行相似性连接的计算成本非常大。现在数据规模增长的非常快，因此在很多科学应用中，相似性连接是一个瓶颈，这将阻止它们发展到更大的规模。除了数据量的快速增长，现实世界的应用中的数据模型变得越来越复杂和密集，数据维度越来越高，也因此增大了计算的复杂性。目前的研究主要关注的是基于磁盘的相似性连接算法，因此在内存连接计算方面缺乏有效性和可扩展性。暴力算法，也就是对数据集中任意两条数据记录进行比较，计算成本会随着数据个数指数性增长，问题的关键是暴力算法对于现实数据是不可行的。例如，使用皮尔森相关系数作为度量函数，对长为1000的105条时间序列数据集用暴力算法计算任意两条序列的相似度，要花费超过2个小时的时间。在过去的二十几年的相关研究中，实验证明在相似性连接过程中采用一些剪枝策略是一个可行的办法。其中数据分区-精算是一种典型的两阶段剪枝计算模型。然而，已有的技术TOUCH、PBSM等主要关注于如何对数据分区然后在各自的分区中进行进一步的精确计算。也就是说，数据分区和数据精确计算是两个独立的阶段。事实上，可以利用数据分区阶段的计算来剪掉精算阶段很多不必要的计算。本专利技术提出了一种新型索引结构，名为距离树。基于...

【技术保护点】
一种索引结构‑距离树的构建方法，其特征在于，所述距离树是一种分层次的树形结构，它包含两种结点：内部结点和叶结点；叶结点用于存储数据，内部结点用于存储指向其子结点的指针；距离树每个结点包含如下信息：（1）结点在树中的层次L，根结点的层次是0，根节点的子节点的层次是1，依此类推；（2）以当前结点为根结点的记录个数C；（3）位置信息pos，节点N的pos取值表示结点N中的记录和N的层次所对应的参照点的距离与的倍数关系；pos的计算方法如下，对于第i层的节点N，其包含的任意记录x和参照点rL的距离满足如下关系：其中，d(x,rL)表示x和rL的距离，是相似度阈值；构建距离树需要设置三个参数：第一个是参照点的队列，记为，距离树从根结点开始每增加一层高度，需要从R中取出一个点当作该层的中心点；第二个是叶结点能容纳的记录条数的最大数据量，记为Ψ；第三个是用户指定的相似度阈值；距离树的构建分为两个阶段：初始化阶段，数据插入阶段：（一）初始化阶段：选取一组合适的参考点，把给定的数据集划分成几个交互尽可能少的分区；参照点的选取使用主成分分析（PCA）算法，通过主成分分析算法对于原先提出的所有变量，将重复的...

【技术特征摘要】
1.一种索引结构-距离树的构建方法，其特征在于，所述距离树是一种分层次的树形结构，它包含两种结点：内部结点和叶结点；叶结点用于存储数据，内部结点用于存储指向其子结点的指针；距离树每个结点包含如下信息：（1）结点在树中的层次L，根结点的层次是0，根节点的子节点的层次是1，依此类推；（2）以当前结点为根结点的记录个数C；（3）位置信息pos，节点N的pos取值表示结点N中的记录和N的层次所对应的参照点的距离与的倍数关系；pos的计算方法如下，对于第i层的节点N，其包含的任意记录x和参照点rL的距离满足如下关系：其中，d(x,rL)表示x和rL的距离，是相似度阈值；构建距离树需要设置三个参数：第一个是参照点的队列，记为，距离树从根结点开始每增加一层高度，需要从R中取出一个点当作该层的中心点；第二个是叶结点能容纳的记录条数的最大数据量，记为Ψ；第三个是用户指定的相似度阈值；距离树的构建分为两个阶段：初始化阶段，数据插入阶段：（一）初始化阶段：选取一组合适的参考点，把给定的数据集划分成几个交互尽可能少的分区；参照点的选取使用主成分分析（PCA）算法，通过主成分分析算法对于原先提出的所有变量，将重复的变量删去多余，建立尽可能少的新变量，使得这些新变量是两两不相关的，而且这些新变量在反映的信息方面尽可能保持原有的信息；参照点选取好之后，开始初始化距离树，即只构建树的根节点，记新建树的根结点NR,并设置层次L=0,位置pos=-1,记录个数C=0；（二）数据插入阶段：通过逐条插入方式构建距离树，插入数据的过程就是...

【专利技术属性】
技术研发人员：王鹏，汪洋，汪卫，董明秀，
申请(专利权)人：复旦大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人