当前位置: 首页 > 专利查询>东北大学专利>正文

一种海量数据多维排序搜索方法技术

技术编号:16216578 阅读:52 留言:0更新日期:2017-09-15 22:47
本发明专利技术公开了一种海量数据多维排序搜索方法,包括:根据数据库中文档的领域相关度,将文档进行聚类,得到聚类组织相似查询树;将不同的领域的聚类组织进行聚类,形成相似查询树;获取用户提交的查询向量,将查询向量表示为查询超球体;根据查询超球体与相似查询树中节点所代表的超球体的位置关系,获取与查询超球体交集最多的超球体,并对该超球体向下一层节点寻找,直到叶子节点,并查询其左右邻居节点,按照相关比例返回节点中k个最相关的文档列表以及文档向量。在大数据的环境下DIK‑MEDOIDS算法具有明显的优势,提高了数据的查询速度已经准确度。

Multidimensional sorting search method for mass data

The invention discloses a massive data sort multidimensional search method, including: according to the database documents related to the field of document clustering, cluster organization similarity query tree; clustering different field clustering, form a similarity query tree; obtain query vector submitted by the user, the query vector representation for the query hyper sphere; according to the query hypersphere and similar query hypersphere position represented by tree nodes, access and query the hyper sphere intersection most super sphere, and the super ball down a layer of node searching, until a leaf node, and query about its neighbor nodes, in accordance with the relevant K in the proportion of the return node the list of documents and document vector. Has obvious advantages in the DIK MEDOIDS algorithm for large data environment, improve the speed of query has accuracy.

【技术实现步骤摘要】
一种海量数据多维排序搜索方法
本专利技术涉及数据搜索
,尤其涉及一种海量数据多维排序搜索方法。
技术介绍
无线体域网的信息隐私包括用户的各项生理参数,大量的隐私数据被存储在云服务器中,密文检索技术是解决云环境隐私安全问题的有效方法。当前的数据保护技术中,加密算法能够较好地保护数据,但加解密计算会对系统效率产生极大的影响;数据拆分重装策略的效率较高,但其对云平台的结构和物理层次依赖性过大。因此,找到数据的实用性与安全性的平衡点是云存储平台应用中最为关键的问题。CLEARM提出基于多身份、多密钥的层次全同态加密方案,满足多用户共享,不同身份密文计算。QIANH提出了适用于多机构系统的访问控制方案。CLEARM提出基于身份的纯全同态加密方案,满足多用户共享和不同身份、不同属性密文计算。SongDX提出了一种加密方式和密文顺序检索架构,该方法证明,在只知道密文的情况下,云存储服务提供商不能截取任何明文的信息。但是,该方案的加密和查询算法的时间复杂度为o(n),其中n表示文档长度。GohEJ形式化的定义了安全索引结构-Z索引,该索引模型通过伪随机函数和布隆过滤器(BloomFilter)实现,可以抵抗适应性选择关键字攻击,然而,Z索引并不提供查询排序机制,若查询词出现在大量文档中,用户需要从大量的结果集中筛选所需文档。通过在倒排表中加入相关度分数,WangC实现了支持结果集排序的密文检索方法。在查询阶段,云服务器仅需返回与查询条件匹配的前k个相关文档,而不是所有满足条件的文档,这不但减少了带宽的消耗,还改善了用户体验。然而,上述工作仅能解决单关键词密文检索的问题,即用户在一次查询中仅能提交一个查询检索词。为了更全面的表达用户的查询意图,多关键字检索技术应运而生。SunW提出一种新的密文检索框架MRSE以解决多关键字密文检索问题。在索引建立阶段,每个文档被表示成一个二进制向量,其中每一位的值代表当前文档是否包含该关键字。查询向量以同样的方式被表示成一个二进制向量。云服务器通过执行矩阵运算和安全k近邻算法获取排序的结果集并返回给用户。然而,MRSE框架的查询响应时间随着文档集的增长而增长,难以适应大数据时代数据迅速增长的需求。为了加快查询的速度,树形结构普遍应用于索引的构建,比如在数据库领域,LeslieH使用B树来加快查询速度,CiacciaP通过构造M树加快了对度量空间的索引过程。田雪等人将密文检索框架MRSE进行优化,提出一种新型的密文索引结构:MRSE-SS,将相似查询树结构引入密文索引框架用于提升多关键字排序检索的效率,并且提出一种动态聚类算法DK-MEDOIDS,聚类过程随文档量增加而动态变化,适用于云计算环境下的密文检索场景,但是在该方法中在构建超球体时最坏的时间复杂度会达到o(n2),并且若在查询算法传递回文档时,若最相关的超球体中文档数少于所查询的k个,则该方法不能解决这个问题。
技术实现思路
针对上述问题,本专利技术的目的在于提供一种快速的海量数据多维排序搜索方法。为了解决
技术介绍
中所存在的问题,本专利技术的技术方案为:一种海量数据多维排序搜索方法,包括以下步骤:1)根据数据库中文档的领域相关度,将文档进行聚类,得到聚类组织相似查询树;2)将不同的领域的聚类组织进行聚类,形成相似查询树;3)获取用户提交的查询向量,将查询向量表示为查询超球体;4)根据查询超球体与相似查询树中节点所代表的超球体的位置关系,获取与查询超球体交集最多的超球体,并对该超球体向下一层节点寻找,直到叶子节点,并查询其左右邻居节点,按照相关比例返回节点中k个最相关的文档列表以及文档向量。所述步骤1)具体为:1.1、根据数据库中文档的领域相关度,对相同领域的文档生成一个多维的文档向量DC;1.2、设置单个槽中元素的门限值T;1.3、初始化文档向量DC中选择向量值最大和最小的对象,分别做所有槽的上下界;1.4、确定初始k值,将文档向量DC化为等大小区间槽,利用公式(1)将所有文档集放入对应槽中,选取其中与槽中心点最近的对象作为该聚类中心,所述公式(1):其中,p为文档集中的点,Omax为文档集中向量最大的对象,Omin为文档集中向量最小的对象;1.5、检测所有槽中成员元素是否超过门限值T,若存在超过门限值T,则对该槽继续进行聚类,生成子槽。所述步骤1.3与1.4之间还包括步骤:对于新加入文档向量DC的文档对象,检测与各个槽之间的距离,决定加入槽,并与当前中心点比较,若其与槽中心点向量差小于当前中心点,则将该对象替换为中心点,若超出原聚类的上下界则以该对象作为中心点,按比例建立新槽。所述步骤2)包括将聚类组织相似查询树中叶子节点加入指向其左右兄弟节点指针。所述步骤4)具体包括:4.1、服务器首先计算查询超球体和根节点各个超球体之间的关系,得到交集最多的某个超球体;4.2、根据得到的超球体,继续向下一层节点寻找交集最多的超球体;4.3、重复步骤4.2,直到叶子节点,计算叶子节点和查询超球体球心OQw之间的距离,获得与查询超球体交集最大的叶子节点;4.4、查找所述相交的叶子节点的左右邻居节点,按比例范围最近的k个文档及列表。与现有技术相比较,本专利技术的有益效果为:本专利技术提供了一种海量数据多维排序搜索方法,以MRSE-SS基础算法结构进行算法实现提出了动态的DIK-MEDOIDS算法,在实际部署中通过对文档数量、关键词个数、槽个数三个影响初始化执行时间的变量取不同的值,使DIK-MEDOIDS算法在初始化效率较传统的DK-MEDOIDS算法在初始构建的时间消耗上有了较大的提升,在大数据的环境下DIK-MEDOIDS算法具有明显的优势,提高了数据的查询速度已经准确度。附图说明图1是本专利技术海量数据多维排序搜索方法流程图;图2是本专利技术相似查询树的结构图;图3是本专利技术实验数据图,图中(a)为文档个数变化实验图,(b)为关键词个数变化实验图,(c)为簇个数变化实验图。具体实施方式下面结合附图对本专利技术做详细描述。本专利技术提供了一种海量数据多维排序搜索方法,在云存储的环境下提出动态区间聚类算法DIK-MEDOIDS,该方法在初始化文档集时,取文档集中最大和最小文档的向量差,等量的划分为k个槽,槽的大小为超球体的直径,把最接近槽中间向量的文档设置为超球体的中心,每个文档槽的大小视文档集的多少而定,随着文档数量的增加,对槽进行动态划分。同时使用新型的相似查询树将不同的领域的聚类组织起来,通过控制上级超球体中子节点超球体的数量,动态调整结构以达到新增体积最小的目标,直至生成根节点,与MRSE-SS在查询阶段相同,将用户提交的查询向量表示为一个超球体,云服务器通过判断查询向量所代表的超球体与相似查询树中节点所代表的超球体之间的位置关系进行判定,仅当查询向量与某领域构成的超球体有交集时才将该领域纳入结果集评价范围,递归执行这一步骤直至叶子节点,但在叶子节点本文算法不仅查询当前节点,并查询其左右邻居节点,按照相关比例返回节点中k个最相关的文档列表。因此聚类过程随文档量增加而动态变化,并且初始化时间复杂度为o(1),适用于大数据环境下的密文检索场景.通过实验证明该方法随着文档的线性增加,消耗的时间呈线性变化,且在很低的范围之内,表明DIK-MEDOIDS算法在初始化本文档来自技高网
...
一种海量数据多维排序搜索方法

【技术保护点】
一种海量数据多维排序搜索方法,其特征在于,包括以下步骤:1)根据数据库中文档的领域相关度,将文档进行聚类,得到聚类组织相似查询树;2)将不同的领域的聚类组织进行聚类,形成相似查询树;3)获取用户提交的查询向量,将查询向量表示为查询超球体;4)根据查询超球体与相似查询树中节点所代表的超球体的位置关系,获取与查询超球体交集最多的超球体,并对该超球体向下一层节点寻找,直到叶子节点,并查询其左右邻居节点,按照相关比例返回节点中k个最相关的文档列表以及文档向量。

【技术特征摘要】
1.一种海量数据多维排序搜索方法,其特征在于,包括以下步骤:1)根据数据库中文档的领域相关度,将文档进行聚类,得到聚类组织相似查询树;2)将不同的领域的聚类组织进行聚类,形成相似查询树;3)获取用户提交的查询向量,将查询向量表示为查询超球体;4)根据查询超球体与相似查询树中节点所代表的超球体的位置关系,获取与查询超球体交集最多的超球体,并对该超球体向下一层节点寻找,直到叶子节点,并查询其左右邻居节点,按照相关比例返回节点中k个最相关的文档列表以及文档向量。2.根据权利要求1所述的海量数据多维排序搜索方法,其特征在于,所述步骤1)具体为:1.1、根据数据库中文档的领域相关度,对相同领域的文档生成一个多维的文档向量DC;1.2、设置单个槽中元素的门限值T;1.3、初始化文档向量DC中选择向量值最大和最小的对象,分别做所有槽的上下界;1.4、确定初始k值,将文档向量DC化为等大小区间槽,利用公式(1)将所有文档集放入对应槽中,选取其中与槽中心点最近的对象作为该聚类中心,所述公式(1):其中,p为文档集中的点,Omax...

【专利技术属性】
技术研发人员:赵志滨顾佳良姚兰高福祥
申请(专利权)人:东北大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1