一种连续域上的大数据索引和相似性检索方法及介质技术

技术编号：41233569 阅读：2 留言：0更新日期：2024-05-09 23:48

本发明专利技术涉及大数据处理领域，公开了连续域上大数据索引和相似性检索方法及介质，包括步骤S1，根据连续域数据特点，确定离散规则；步骤S2，依据离散规则，对数据对象进行处理，生成数据对象的(分割，数据对象集合)键值对；步骤S3，依据数据对象生成(数据对象，数据对象序列)键值对；步骤S4，在存储系统中储存(分割，数据对象集合)键值对和(数据对象，数据对象序列)键值对；步骤S5，输入查询数据对象，对数据对象集合进行相似性查询，并依据相似性大小，对查询结果排序后，返回排序结果。本发明专利技术能够对连续域上的大数据建立高效的索引，对连续域上的大数据进行快速的相似性查询，为实时连续域上的大数据分析提供核心基础支撑。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及大数据处理，特别是涉及一种连续域上的大数据索引和相似性检索方法及介质。

技术介绍

1、谷歌公司在2003至2006期间发表的大文件系统gfs、大数据库系统bigtable和mapreduce计算模型，奠定了大数据技术的基础。大文件系统gfs是一个可扩展的分布式文件系统，能在普通商用硬件上运行，具有容错功能，用于大型的、分布式的、对大量数据进行访问的应用。大数据库系统bigtable具有高可靠性、高性能、可伸缩等特性，能够部署在千台机器上，可对pb级的海量数据进行处理，为用户提供了简单的数据模型，但不支持完整的关系数据模型，使客户可以动态控制数据的分布和格式。mapreduce计算模型是一种编程模型，用于大规模数据集的并行运算，主要由"map(映射)"和"reduce(归约)"组成。谷歌搜索引擎通过这些技术，对整个互联网的内容生成关键词形式的倒排索引结构。这种mapreduce分布式计算索引的方式，以及所产生的索引结构，为用户能够达到毫秒级的检索延迟，提供了强大的技术支撑。

2、谷歌公司提供的这些技术，实现了以关键词为核心的搜索。这些关键词通常是自然语言中的字词，是离散的，本质上是人类记录自然现象和进行沟通的一种符号。而对于连续域上(如空间、时间、以及其他数值域等)数据对象，如何实现连续域上大规模甚至超大规模数据对象的快速相似性匹配查询，对于相关行业的研究和数据分析领域，仍然是是亟需解决的核心基础问题。

3、对于连续域，以空间域为例，空间域上为了提高空间对象的快速查询能力，设计了空间索引。空间

技术实现思路

1、本专利技术解决的技术问题是：克服现有技术的不足，提供一种连续域上的大数据索引和相似性检索方法。本专利技术的主要思想是，为了对由连续域上的数据序列组成的数据对象进行快速相似性检索，首先，将连续域进行离散化，即按照一定的规则对连续域进行分割，用离散化的分割代表数据对象对应数据序列的各个元素，从而可采取大数据的分析方法，生成以分割为基础的(分割，数据对象)对；其次，我们摒弃树形结构的索引方式，支持通过映射方式计算得到分割的地址，获取数据对象，从而大大加快数据对象的获取速度；再次，通过近似相似性计算方法，大大提高相似性的计算速度，从而，能够进行非常快速的相似性检索。

2、本专利技术的技术解决方案是：

3、为了解决上述技术问题，本专利技术提供了一种连续域上的大数据索引和相似性检索方法，包括以下步骤：

4、步骤s1，根据连续域数据的特点，确定连续域的离散规则；

5、步骤s2，依据离散规则，对数据对象进行处理，生成数据对象的(分割，数据对象集合)键值对；

6、步骤s3，依据数据对象生成(数据对象，数据对象序列)键值对；

7、步骤s4，在存储系统中分别储存(分割，数据对象集合)键值对和(数据对象，数据对象序列)键值对；

8、步骤s5，输入查询数据对象，对数据对象集合进行相似性查询，并依据相似性大小，对查询结果进行排序后，将排序结果返回。

9、上述连续域上大数据索引和相似性检索方法中，所述离散规则为，将连续域分成若干个小分割，所有小分割组成完整的连续域。

10、上述连续域上大数据索引和相似性检索方法中，所述步骤s2包括，

11、步骤s21，按照离散规则，对n维实数空间进行离散化处理，生成分割的集合；

12、步骤s22，对数据对象的数据对象序列，依据离散规则，计算数据对象的分割序列；

13、步骤s23，对数据对象集合中的所有数据对象，按照步骤s22计算数据对象的分割序列；

14、步骤s24，对步骤s23的计算结果，对于覆盖同一分割的数据对象进行收集，并以分割为键，数据对象集合为值，生成(分割，数据对象集合)键值对，对于没有数据对象的分割，直接忽略。

15、上述连续域上大数据索引和相似性检索方法中，所述步骤s3包括，

16、步骤s31，对数据对象的序列，生成(数据对象，数据对象序列)键值对；

17、步骤s32，对数据对象集合中所有数据对象生成(数据对象，数据对象序列)键值对。

18、上述连续域上大数据索引和相似性检索方法中，所述步骤s5包括，

19、步骤s51，依据离散规则计算查询数据对象的分割序列，获取查询数据对象的分割；

20、步骤s52，依据查询数据对象的分割，从存储系统中存储的(分割，数据对象集合)键值对中获取查询数据对象的数据对象集合；

21、步骤s53，依据步骤s52所获取的查询数据对象的数据对象集合中的数据对象，按照相同数据对象的个数由多到少进行排序，形成数据对象检索序列；

22、步骤s54，依据数据对象检索序列中全部或部分数据对象，从存储系统中的存储的(数据对象，数据对象序列)键值对中，快速获取对象检索序列相应的数据对象序列；

23、步骤s55，计算查询数据对象与步骤s54中获取的数据对象检索序列相应的数据序列之间的相似性，依据相似性排序后，将排序结果返回。

24、上述连续域上大数据索引和相似性检索方法中，所述相似性查询为，计算查询数据对象和数据对象的所有覆盖分割之间的距离。

25、上述连续域上大数据索引和相似性检索方法中，计算查询数据对象和数据对象的所有覆盖分割之间的距离为，计算查询数据对象的所有割与数据对象的所有分割之间相距的最小分割个数的和后，依据查询数据对象和数据对象的分割的数量进行加权。

26、上述连续域上大数据索引和相似性检索方法中，所述存储系统设置为，支持通过地址直接获取数据、以及从键到值快速映射。

27、上述连续域上大数据索引和相似性检索方法中，通过地址直接获取数据为，采用相应维度的数组，数组元素存放数据对象集合，将分割映射为数据对象的存储地址，并通过数据对象的存储地址直接获取数据对象。

28、本专利技术还涉及一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序实现上述的连续域上大数据索引和相似性检索方法。

29、本专利技术能够对连续域上的大数据建本文档来自技高网...

【技术保护点】

1.一种连续域上大数据索引和相似性检索方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的连续域上大数据索引和相似性检索方法，其特征在于，所述离散规则为，将连续域分成若干个小分割，所有小分割组成完整的连续域。

3.根据权利要求1所述的连续域上大数据索引和相似性检索方法，其特征在于，所述步骤S2包括，

4.根据权利要求3所述的连续域上大数据索引和相似性检索方法，其特征在于，所述步骤S3包括，

5.根据权利要求4所述的连续域上大数据索引和相似性检索方法，其特征在于，所述步骤S5包括，

6.根据权利要求1所述的连续域上大数据索引和相似性检索方法，其特征在于，所述相似性计算为，计算查询数据对象和数据对象的所有覆盖分割之间的距离。

7.根据权利要求6所述的连续域上大数据索引和相似性检索方法，其特征在于，计算查询数据对象和数据对象的所有覆盖分割之间的距离为，计算查询数据对象的所有分割与数据对象的所有分割之间相距的最小分割个数的和后，依据查询数据对象和数据对象的分割的数量进行加权。

8.根据权利要求1所述

9.根据权利要求8所述的连续域上大数据索引和相似性检索方法，其特征在于，其特征在于，通过地址直接获取数据为，采用相应维度的数组，数组元素存放数据对象集合，将分割映射为数据对象的存储地址，并通过数据对象的存储地址直接获取数据对象。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序实现如权利要求1-9中任一项所述的连续域上大数据索引和相似性检索方法。

...

【技术特征摘要】

1.一种连续域上大数据索引和相似性检索方法，其特征在于，包括以下步骤：

3.根据权利要求1所述的连续域上大数据索引和相似性检索方法，其特征在于，所述步骤s2包括，

4.根据权利要求3所述的连续域上大数据索引和相似性检索方法，其特征在于，所述步骤s3包括，

5.根据权利要求4所述的连续域上大数据索引和相似性检索方法，其特征在于，所述步骤s5包括，

7.根据权利要求6所述的连续域上大数据索引和相似性检索方法，其...

【专利技术属性】
技术研发人员：朱桂明，
申请(专利权)人：朱桂明，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人