一种海量数据多维排序搜索方法技术

技术编号：16216578 阅读：52 留言：0更新日期：2017-09-15 22:47

本发明专利技术公开了一种海量数据多维排序搜索方法，包括：根据数据库中文档的领域相关度，将文档进行聚类，得到聚类组织相似查询树；将不同的领域的聚类组织进行聚类，形成相似查询树；获取用户提交的查询向量，将查询向量表示为查询超球体；根据查询超球体与相似查询树中节点所代表的超球体的位置关系，获取与查询超球体交集最多的超球体，并对该超球体向下一层节点寻找，直到叶子节点，并查询其左右邻居节点，按照相关比例返回节点中k个最相关的文档列表以及文档向量。在大数据的环境下DIK‑MEDOIDS算法具有明显的优势，提高了数据的查询速度已经准确度。

Multidimensional sorting search method for mass data

The invention discloses a massive data sort multidimensional search method, including: according to the database documents related to the field of document clustering, cluster organization similarity query tree; clustering different field clustering, form a similarity query tree; obtain query vector submitted by the user, the query vector representation for the query hyper sphere; according to the query hypersphere and similar query hypersphere position represented by tree nodes, access and query the hyper sphere intersection most super sphere, and the super ball down a layer of node searching, until a leaf node, and query about its neighbor nodes, in accordance with the relevant K in the proportion of the return node the list of documents and document vector. Has obvious advantages in the DIK MEDOIDS algorithm for large data environment, improve the speed of query has accuracy.

全部详细技术资料下载

【技术实现步骤摘要】
一种海量数据多维排序搜索方法
本专利技术涉及数据搜索
，尤其涉及一种海量数据多维排序搜索方法。
技术介绍
无线体域网的信息隐私包括用户的各项生理参数，大量的隐私数据被存储在云服务器中，密文检索技术是解决云环境隐私安全问题的有效方法。当前的数据保护技术中，加密算法能够较好地保护数据，但加解密计算会对系统效率产生极大的影响；数据拆分重装策略的效率较高，但其对云平台的结构和物理层次依赖性过大。因此，找到数据的实用性与安全性的平衡点是云存储平台应用中最为关键的问题。CLEARM提出基于多身份、多密钥的层次全同态加密方案，满足多用户共享，不同身份密文计算。QIANH提出了适用于多机构系统的访问控制方案。CLEARM提出基于身份的纯全同态加密方案，满足多用户共享和不同身份、不同属性密文计算。SongDX提出了一种加密方式和密文顺序检索架构，该方法证明，在只知道密文的情况下，云存储服务提供商不能截取任何明文的信息。但是，该方案的加密和查询算法的时间复杂度为o(n)，其中n表示文档长度。GohEJ形式化的定义了安全索引结构-Z索引，该索引模型通过伪随机函数和布隆过滤器(BloomFilter)实现，可以抵抗适应性选择关键字攻击，然而，Z索引并不提供查询排序机制，若查询词出现在大量文档中，用户需要从大量的结果集中筛选所需文档。通过在倒排表中加入相关度分数，WangC实现了支持结果集排序的密文检索方法。在查询阶段，云服务器仅需返回与查询条件匹配的前k个相关文档，而不是所有满足条件的文档，这不但减少了带宽的消耗，还改善了用户体验。然而，上述工作仅能解决单关键词密文检索的问...
一种海量数据多维排序搜索方法

【技术保护点】
一种海量数据多维排序搜索方法，其特征在于，包括以下步骤：1)根据数据库中文档的领域相关度，将文档进行聚类，得到聚类组织相似查询树；2)将不同的领域的聚类组织进行聚类，形成相似查询树；3)获取用户提交的查询向量，将查询向量表示为查询超球体；4)根据查询超球体与相似查询树中节点所代表的超球体的位置关系，获取与查询超球体交集最多的超球体，并对该超球体向下一层节点寻找，直到叶子节点，并查询其左右邻居节点，按照相关比例返回节点中k个最相关的文档列表以及文档向量。

【技术特征摘要】
1.一种海量数据多维排序搜索方法，其特征在于，包括以下步骤：1)根据数据库中文档的领域相关度，将文档进行聚类，得到聚类组织相似查询树；2)将不同的领域的聚类组织进行聚类，形成相似查询树；3)获取用户提交的查询向量，将查询向量表示为查询超球体；4)根据查询超球体与相似查询树中节点所代表的超球体的位置关系，获取与查询超球体交集最多的超球体，并对该超球体向下一层节点寻找，直到叶子节点，并查询其左右邻居节点，按照相关比例返回节点中k个最相关的文档列表以及文档向量。2.根据权利要求1所述的海量数据多维排序搜索方法，其特征在于，所述步骤1)具体为：1.1、根据数据库中文档的领域相关度，对相同领域的文档生成一个多维的文档向量DC；1.2、设置单个槽中元素的门限值T；1.3、初始化文档向量DC中选择向量值最大和最小的对象，分别做所有槽的上下界；1.4、确定初始k值，将文档向量DC化为等大小区间槽，利用公式(1)将所有文档集放入对应槽中，选取其中与槽中心点最近的对象作为该聚类中心，所述公式(1)：其中，p为文档集中的点，Omax...

【专利技术属性】
技术研发人员：赵志滨，顾佳良，姚兰，高福祥，
申请(专利权)人：东北大学，
类型：发明
国别省市：辽宁,21

全部详细技术资料下载我是这个专利的主人