一种数据搜索处理方法、装置及设备制造方法及图纸

技术编号:36651247 阅读:12 留言:0更新日期:2023-02-18 13:13
本发明专利技术公开了一种数据搜索处理方法、装置及设备,该方法包括:根据文件系统的数据集获得并行计算框架算法的第一抽象弹性数据集;对所述第一抽象弹性数据集进行转换处理,得到第二抽象弹性数据集;根据随机投影树的随机投影种子与所述第二抽象弹性数据集,形成第三抽象弹性数据集;对所述第三抽象弹性数据集进行计算处理,得到第四抽象弹性数据集;根据所述第四抽象弹性数据集,判断所述随机投影树的叶子节点达到条件时,得到优化的随机投影树;根据所述优化的随机投影树对待搜索数据进行搜索,得到目标数据。通过上述方式,本发明专利技术实现了在高维度空间上,快速地进行目标数据的检索。快速地进行目标数据的检索。快速地进行目标数据的检索。

【技术实现步骤摘要】
一种数据搜索处理方法、装置及设备


[0001]本专利技术涉及数据搜索处理
,具体涉及一种数据搜索处理方法、装置及设备。

技术介绍

[0002]目前搜索技术中,有随机投影树搜索算法、并行计算框架Spark搜索算法、伪随机数搜索算法等;现有技术存在以下缺点:
[0003]无法在高维度空间进行有效的实现快速文本的搜索,且当数据量庞大时索引数据单机消耗大量的存储资源,限制大规模数据的扩展。

技术实现思路

[0004]鉴于上述问题,提出了本专利技术实施例以便提供一种克服上述问题或者至少部分地解决上述问题的数据搜索处理方法、装置及设备。
[0005]根据本专利技术实施例的一个方面,提供了一种数据搜索处理方法,所述方法包括:
[0006]根据文件系统的数据集获得并行计算框架算法的第一抽象弹性数据集;
[0007]对所述第一抽象弹性数据集进行转换处理,得到第二抽象弹性数据集;
[0008]根据随机投影树的随机投影种子与所述第二抽象弹性数据集,形成第三抽象弹性数据集;
[0009]对所述第三抽象弹性数据集进行计算处理,得到第四抽象弹性数据集;
[0010]根据所述第四抽象弹性数据集,判断所述随机投影树的叶子节点达到条件时,得到优化的随机投影树;
[0011]根据所述优化的随机投影树对待搜索数据进行搜索,得到目标数据。
[0012]根据本专利技术实施例的另一方面,提供了一种数据搜索处理装置,所述装置包括:
[0013]第一获得模块,用于根据文件系统的数据集获得并行计算框架算法的第一抽象弹性数据集;
[0014]第二获得模块,用于对所述第一抽象弹性数据集进行转换处理,得到第二抽象弹性数据集;
[0015]第三获得模块,用于根据随机投影树的随机投影种子与所述第二抽象弹性数据集,形成第三抽象弹性数据集;
[0016]第四获得模块,用于对所述第三抽象弹性数据集进行计算处理,得到第四抽象弹性数据集;
[0017]处理模块,用于根据所述第四抽象弹性数据集,判断所述随机投影树的叶子节点达到条件时,得到优化的随机投影树;
[0018]搜索模块,用于根据所述优化的随机投影树对待搜索数据进行搜索,得到目标数据。
[0019]根据本专利技术实施例的又一方面,提供了一种计算设备,包括:处理器、存储器、通信
接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
[0020]所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述的数据搜索处理方法对应的操作。
[0021]根据本专利技术实施例的再一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述的数据搜索处理方法对应的操作。
[0022]根据本专利技术上述实施例提供的方案,可以实现在高维度空间上,快速地进行目标数据的检索,由此解决了现有技术中无法在高维度空间进行有效的搜索的问题;取得了在高维度空间上,快速的实现目标数据的检索的有益效果。
[0023]上述说明仅是本专利技术实施例技术方案的概述,为了能够更清楚了解本专利技术实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术实施例的具体实施方式。
附图说明
[0024]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术实施例的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0025]图1示出了本专利技术实施例提供的数据搜索处理方法流程图;
[0026]图2示出了本专利技术实施例中的并行计算框架Spark算法的架构示意图;
[0027]图3示出了本专利技术实施例的并行计算框架Spark算法的RDD与工作节点之间的关系示意图;
[0028]图4示出了本专利技术实施例的数据搜索处理方法的流程示意图;
[0029]图5示出了本专利技术实施例中的一种误分类示意图;
[0030]图6示出了本专利技术实施例中的另一种误分类示意图;
[0031]图7示出了本专利技术实施例提供的数据搜索处理装置的结构示意图;
[0032]图8示出了本专利技术实施例提供的计算设备的结构示意图。
具体实施方式
[0033]下面将参照附图更详细地描述本专利技术的示例性实施例。虽然附图中显示了本专利技术的示例性实施例,然而应当理解,可以以各种形式实现本专利技术而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本专利技术,并且能够将本专利技术的范围完整的传达给本领域的技术人员。
[0034]图1示出了本专利技术实施例提供的数据搜索处理方法的流程图。如图1所示,该方法包括以下步骤:
[0035]步骤11,根据文件系统的数据集获得并行计算框架算法的第一抽象弹性数据集;这里,具体实现时,可以包括:获取文件系统的数据集后,按照并行计算框架算法Spark对所述数据集进行初始化处理,得到第一抽象弹性数据集,可以记为RDD0。
[0036]步骤12,对所述第一抽象弹性数据集进行转换处理,得到第二抽象弹性数据集;具
体实现时,这里的第二抽象弹性数据集可以记为RDD1;
[0037]步骤13,根据随机投影树的随机投影种子与所述第二抽象弹性数据集,形成第三抽象弹性数据集;具体实现时,这里的第三抽象弹性数据集可以记为RDD2;
[0038]步骤14,对所述第三抽象弹性数据集进行计算处理,得到第四抽象弹性数据集;具体实现时,这里的第三抽象弹性数据集可以记为RDD3;
[0039]步骤15,根据所述第四抽象弹性数据集,判断所述随机投影树的叶子节点达到条件时,得到优化的随机投影树;
[0040]步骤16,根据所述优化的随机投影树对待搜索数据进行搜索。
[0041]本专利技术的该实施例,通过将并行计算框架算法与随机投影树结合,生成优化的随机投影树,从而通过优化的随机投影树对待搜索数据进行搜索,从而可以实现在高维度空间上,快速的实现目标数据的检索。
[0042]本专利技术的实施例中,Spark是建立在统一的抽象弹性分布式数据集(Resiliennt Distributed Datasets,RDD)之上的,这使得Spark的各个组件可以无缝地进行集成,能够在同一个应用程序中完成大数据处理;RDD是一种有容错机制的特殊数据集合,可以分布在集群的节点上,以函数式操作集合的方式进行各种并行操作。RDD为一个分布式对象集合,本质上是一个只读的分区记录集合。每个RDD可以分成多个分区,每个分区就是一个数据集片段。一个RDD的不同分区可以保存到集群中的不同结点上,从而可以在集群中的不同结点上进行并行计算。
[0043]如图2所示,为Spark的架构示意图,Cluster Manager(簇管理器)用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据搜索处理方法,其特征在于,所述方法包括:根据文件系统的数据集获得并行计算框架算法的第一抽象弹性数据集;对所述第一抽象弹性数据集进行转换处理,得到第二抽象弹性数据集;根据随机投影树的随机投影种子与所述第二抽象弹性数据集,形成第三抽象弹性数据集;对所述第三抽象弹性数据集进行计算处理,得到第四抽象弹性数据集;根据所述第四抽象弹性数据集,判断所述随机投影树的叶子节点达到条件时,得到优化的随机投影树;根据所述优化的随机投影树对待搜索数据进行搜索,得到目标数据。2.根据权利要求1所述的数据搜索处理方法,其特征在于,对所述第一抽象弹性数据集进行转换处理,得到第二抽象弹性数据集,包括:根据所述并行计算框架算法的映射map算子,对所述第一抽象弹性数据集进行转换处理,得到第二抽象弹性数据集。3.根据权利要求1所述的数据搜索处理方法,其特征在于,根据随机投影树的随机投影种子与所述第二抽象弹性数据集,形成第三抽象弹性数据集,包括:构建随机投影树;产生所述随机投影树的随机种子;根据所述随机种子产生随机向量;获得所述第二抽象弹性数据集中的各个数据点与所述随机向量的点积,其中,随机向量与从所述数据点出发的向量垂直;根据所述点积,形成所述第三抽象弹性数据集。4.根据权利要求3所述的数据搜索处理方法,其特征在于,根据所述点积,形成所述第三抽象弹性数据集,包括:当点积大于一预设值时,关键字key为第一随机向量的哈希值连接,表示该数据点属于随机投影树的右子树;当数据点积小于所述预设值,关键字key为第二随机向量的哈希值连接,表示该数据点属于随机投影树的左子树;将(key,数据点坐标)形式的键值对作为所述第三抽象弹性数据集。5.根据权利要求4所述的数据搜索处理方法,其特征在于,对所述第三抽象弹性数据集进行计算处理,得到第四抽象弹性数据集,包括:根据所述并行计算框架算法的reduce算子,对所述第三抽象弹性数据...

【专利技术属性】
技术研发人员:徐杨
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1