当前位置: 首页 > 专利查询>河海大学专利>正文

一种面向任意段数据的Top-k查询方法技术

技术编号:8022484 阅读:203 留言:0更新日期:2012-11-29 04:43
本发明专利技术公开一种面向任意段数据的Top-k查询方法,首先进行采集数据;然后分析数据特点,根据数据特点建立索引结构:若数据量较小,DG索引已经建好,则进入基于DG索引的任意段数据Top-k查询;若数据量较大,DG索引上的结点较为稀疏时,则进入基于双层支配图DDG索引结构的Top-k查询;若当任意段确定比较困难时,则进入基于DG和GS的混合索引查询。该方法具有能够适合全局Top-k查询和任意段数据的部分Top-k查询的索引,提高Top-k查询应用的自由性和任意性。

【技术实现步骤摘要】

本专利技术涉及,属于信息检索

技术介绍
随着信息技术的不断发展,人们对信息检索的要求不断提高,而Top-k查询在信息检索、多媒体相似性搜索、文本和数据集成、商业分析、产品目录和基于互联网的建议来源的偏好查询、分布式网络聚集和传感器数据记录和其他一些应用领域中得到了广泛的应用。 目前,针对偏好Top-k查询的算法主要有四大类1)sort-list方法;2)层次式方法;3)视图方法;4)概要方法。Sort-Iist 方法中最经典的为 TA 算法(H. Bast, D. Majumdar, R. Schenkel, M.Theobald, andG.ffeikum. 10—Top-k:Index—accessoptimizedtop-kquerypr ocessing.InVLDB, pages475 - 486, 2006. FaginR, LotemA, NaorM. Optimal aggregation algorithmsfor middleware. Journal of Computerand System Sciences 66,2003,pp. 614-656. X 算法为每个计算维独立地排序后建成多个排序列表。找出所有大于给定阈值所有元组,而不是直接查找所有元组。计算过程中顺序地扫描每个列表,在顺序访问时,如遇到元组指示器,立即随机访问其他列表来计算Top-k分值。已访问的元组通过排序得到Top-k结果,该方法最主要的难点是决定阈值大小,如果阈值过松将导致返回结果过多,如果阈值过紧将导致返回结果过少。在层次式方法中,将数据集中元组按给定层次规则分层。任意函数F的Top-k查询都可以从前k层中得到查询结果。现有多种分层方法DG (Zou L, Chen L. Dominantgraph:An efficient indexing struture to answer top-k queries//Proc ofthe IEEE 24th Int Conf on Data Engineering. Washington, DC: IEEE ComputerSociety, 2008:536-545. )、AppRI (Xin D, Chen C, Han J. Towards robust indexingfor rankedqueries //Proc of the 32nd Int Conf on Very Large Data Bases.Trondheim, Norwary:VLDB Endowment, 2006:235-246.)和 Onion (C hang Y C, BergmanL D, Castelli V, et al.The onion technique: Indexing for linear optimizationqueries . ACM SIGMOD Record, 2000,29 (4) : 391-402. )。Onion 方法以凸包为分层规则。给定一个线性查询函数,感兴趣的元组只存在于凸包中。Onion方法构建过程是计算元组的凸包,首先计算第I个凸包,然后计算剩余元组的第2个凸包,以此类推,直到所有元组计算完毕。AppRI方法中定义的层次规则为元组t放入I层,当且仅当满足两个条件1)给定的任何线性查询使t不在Top-(I-I)结果中;2)至少有一个查询使t属于top-1层。DG方法定义的层次规则为每个层为前一个skyline。将skyline引入,首先计算第I个skyline,然后计算剩余元组的第2个skyline,直到所有元组计算完毕。与上面两种方法不同,由于DG中加入数据点间的支配关系,使得不需访问并计算所有k层以前元组的查询函数值。基于视图的方法是在已经按给定函数预先排序的视图中匹配结果,典型的方法有PREFER (Hristidis V,Koudas N,Papakonstantinou Y. Prefer:A system forthe efficient execution of multi-parametric ranked queries. ACM SIGMODRecord, 2001, 30(2) : 259-270.)和 LPTA (Das G, Gunopulos D, Koudas N, et al. Answeringtop-k queries using views//Proc of the32nd Int Conf on Very Large DataBases. Trondheim, Norway:VLDB Endowment, 2006:451-462.)。此类算法中,如果查询函数与预排序视图的函数越接近查询速度越快。PREFER算法使用视图序列Rv,将记录元组按偏好函数排序。当要查询偏好函数时,计算Rv中的水印,保证查询获得是第I个值.重复上述过程得到Top-k值。LPTA算法维护一些偏好函数排序的元组ID列表。在这些元组ID列表中检索,直到找到Top-k值。基于概要的方法是一般使用网格划分(等深或等宽)数据集,并记录网格单元中数据点。在查询时通过网格概要信息计算数据集中数据点的近似函数分值,以剪枝非查询结果的数据点。在满足条件的网格单元中,通过进一步访问数据点得到准确函数分值并排序,得到查询结果。RankCube在历史数据集中多维选择查询采用了概要方法。该方法构建网格较快但计算过程较粗略,适用于需要快速建立索引的数据流查询中。国内研究者也在Top-k 计算领域做出大量研究,如数据流Top-k频繁项集挖掘方法(杨蓓,黄厚宽.挖掘数据流界标窗口 Top-K频繁项集.计算机研究与发展,2010,47 (3) :463-473).、数据流Top-k异常点发现方法等。以上有关Top-k查询的方法,着重获得全局最优的Top-k结果集,很少针对任意段内数据的Top-k查询进行研究,从而减少了 Top-k查询应用的自由性和任意性。因此,有必要研究构建既能适合全局Top-k查询又能任意段数据的部分Top-k查询的索引。
技术实现思路
专利技术目的针对现有技术中存在的问题,本专利技术提供,该方法具有能够适合全局Top-k查询和任意段数据的部分Top-k查询的索弓丨,提高Top-k查询应用的自由性和任意性。技术方案,包括如下步骤步骤A :读取数据;步骤B :分析数据特点,根据数据特点建立索引结构若数据量较小,DG索引已经建好进入步骤B-I ;若数据量较大,数据集对应DG索引上的结点较为“稀疏”(需添加50%以上“伪结点”才能还原为DG索引中层连续的子图),进入步骤B-2;若当任意段确定比较困难时,进入步骤B-3 ;步骤B-I :基于DG索引的任意段数据Top-k查询方法,包括如下步骤;步骤B-1-1 :添加部分伪结点,还原DG索引;步骤B-1-2 :进行基于DG的Traveler处理,具体包含如下步骤步骤B-1-2-1 :扫描待查询的数据段的层号,将最小层minlayer的结点按照非递减顺序加入候选集RS,将RS中的最大值R加入结果集;步骤B-1-2-2 :判断结果集的大小与K的关系,若结果集大小小于K,转入步骤B-1-2-本文档来自技高网
...

【技术保护点】
一种面向任意段数据的Top?k查询方法,其特征在于,包括如下步骤:步骤A:读取数据;步骤B:分析数据特点,根据数据特点建立索引结构:若数据量较小,DG索引已经建好,则进入基于DG索引的任意段数据Top?k查询;若数据量较大,数据集对应DG索引上的结点较为稀疏时,则进入基于双层支配图DDG索引结构的Top?k查询;若当任意段确定比较困难时,则进入基于DG和GS的混合索引查询;所述结点较为稀疏是指需添加50%以上伪结点才能还原为DG索引中层连续的子图。

【技术特征摘要】

【专利技术属性】
技术研发人员:冯钧唐志贤邱男印玉兰徐黎明盛震宇任锋朱祖会付言章王祥忠史涯晴
申请(专利权)人:河海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1