一种偏序域上的skyline查询方法技术

技术编号:22308350 阅读:74 留言:0更新日期:2019-10-16 08:26
本发明专利技术提供一种偏序域上的skyline查询方法,包括:对待测数据集进行分组;根据用户的偏好哈斯图按映射规则映射到所述全序维度上;对除分组维度外的每个所述分组内的数据建立倒排索引;根据循环扫描策略和临时表更新策略对分组的数据集进行扫描,并将扫描结果存放到临时结果集中,直到扫描到扫描结束点根据分组计算结束条件结束相应分组的计算;当所有分组的计算都结束时,结束算法,将所有临时结果集中的结果取并集输出,所述并集即为需要返回给用户的skyline。本发明专利技术解决了现有偏序域上skyline计算方法的效率瓶颈问题,通过将倒排索引引入skyline查询领域,利用提前对数据进行分组并建立倒排索引的方式提高了skyline计算效率。

A skyline query method on partial order field

【技术实现步骤摘要】
一种偏序域上的skyline查询方法
本专利技术涉及数据查询
,具体而言,尤其涉及一种偏序域上的skyline查询方法。
技术介绍
Skyline查询是一种典型的多目标优化问题。高效地处理偏序域上的skyline查询是一个极具现实意义的问题。近年来,由于互联网技术的发展以及信息获取设备的进步,数据库收集处理的数据量增多,进一步,数据库中存储的数据量也急剧增加。但是,人们却很难从这些海量、庞杂的信息中挖掘出自己最想要的有价值的信息。因此,如何快速高效地从海量数据中返回给用户最为关心的数据越来越成为学术界关心的研究热点。偏序域上的skyline问题由于包括了用户的个性化偏好,在现实生活中更具有实际意义,但目前虽然在全序域上的skyline查询已经取得了丰硕的成果,但在处理偏序域上的数据时主要采用将所有偏序域直接映射到全序域,之后套用全序域上的计算方法进行计算,缺少一种针对偏序域上的数据有效率的计算方法。因此,提出一种高效的偏序域上的Skyline查询方法来解决上述问题很有必要。
技术实现思路
根据上述提出的技术问题,而提供一种偏序域上的skyline查询方法。本专利技术主要利用一种偏序域上的skyline查询方法,其特征在于,包括以下步骤:步骤S1:对待测数据集进行分组,选择所述待测数据集分组前属性个数最少的偏序维度作为分组维度;步骤S2:将所述偏序维度映射到两个全序维度,对于每个除所述分组维度外的偏序维度,根据用户的偏好哈斯图按映射规则映射到所述全序维度上;所述用户的偏好哈斯图为去除传递的有向无环图;步骤S3:对除分组维度外的每个所述分组内的数据建立倒排索引;步骤S4:对除分组维度外的每个维度i建立临时表Ti和结果集Ri,临时表Ti存放每个分组在维度i上表现最好的元组,结果集Ri里存放维度i上扫描到的skyline元组;步骤S5:根据循环扫描策略和临时表更新策略对分组的数据集进行扫描,并将扫描结果存放到临时结果集中,直到扫描到扫描结束点根据分组计算结束条件结束相应分组的计算;步骤S6:当所有分组的计算都结束时,结束算法,将所有临时结果集中的结果取并集输出,所述并集即为需要返回给用户的skyline。进一步地,所述对待测数据集进行分组即在给定d维空间上的数据集P,根据数据集P的偏序维度,当有多个偏序维度则选择属性值最少的一个偏序维度,进行分组,将在该维度上拥有相同属性值的元组分到一组。更进一步地,所述映射规则首先采用将偏序域属性映射到两个全序域的方式处理;所述偏序域属性是对于每个偏序维度,对对应的用户偏好哈斯图进行深度优先遍历,并用间隔[x,y]进行标记,其中,x表示节点在深度优先遍历时第一次被扫描到的时刻,y表示节点结束扫描的时刻,即该点的子节点全部遍历结束;通过间隔间的覆盖表示偏序域上的偏好关系,对于没有头节点的哈斯图,则事先在所述哈斯图的顶端加一个虚拟头节点。进一步地,所述步骤S5还包括以下步骤:步骤S51:对每个维度i上的临时表维护一个变量times′i,记录在所述临时表Ti中扫描过的元组的个数,每次扫描时选择times′i值最小的临时表进行扫描;步骤S52:每次扫描选定临时表后,选择所述临时表中最优值的元组pi与其所在维度的临时结果集Ri中的元组进行比较,若不被结果集中的点支配则加入临时结果集的并集;步骤S53:将扫描到的所述元组pi从所述元组pi所在是Ti中删除,将维度i的分组中再选择最优元组加入Ti;步骤S54:将步骤S52扫描的所述元组pi,将记录该数据点的扫描次数值加一;当所述元组pi的扫描次数值与|Dtotal|-1,即除分组维度外所有维度总数相等时,则进一步判断所述元组pi在偏序维度POm对应间隔的数量;若pi在偏序维度POm对应多个间隔,则进一步判断pi在POm上扫描到的值是否来自同一间隔;若来自同一间隔,则所述元组pi作为扫描结束点,结束计算;若不自同一间隔,则继续循环执行步骤S4,直到计算结束。较现有技术相比,本专利技术具有以下优点:本专利技术是一种高效的偏序域上的skyline查询方法,解决了现有偏序域上skyline计算方法的效率瓶颈问题,通过将倒排索引引入skyline查询领域,利用提前对数据进行分组并建立倒排索引的方式提高了skyline计算效率:首先,对给定数据集进行分组,在之后的计算中可以通过分组过滤策略对整组数据进行过滤来达到提高过滤效率的目的;其次,将偏序维度映射到全序维度,方便利用传统的skyline计算方法进行比较计算;最后,通过建立临时表和循环扫描策略快速找到扫描结束点,减少冗余计算,最终达到提高计算效率的目的。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施方式的整体流程示意图。图2为本专利技术实施方式的图书数据信息举例示意图。图3为本专利技术实施方式的带有偏序维度属性数据举例示意图。图4为本专利技术实施方式的偏序维度对skyline查询结果影响示意图。图5为本专利技术实施方式中数据按选择维度分组举例示意图。图6为本专利技术实施方式中偏序维度向全序维度映射举例示意图。图7为本专利技术实施方式中临时表Ti示意图。图8为本专利技术实施方式中临时结果集Ri举例示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。如图1-8所示为本专利技术一种偏序域上的skyline查询方法,包括以下步骤:步骤S1:对待测数据集进行分组,选择所述待测数据集分组前属性个数最少的偏序维度作为分组维度。步骤S2:将所述偏序维度映射到两个全序维度,对于每个除所述分组维度外的偏序维度,根据用户的偏好哈斯图按映射规则映射到所述全序维度上;所述用户的偏好哈斯图为去除传递的有向无环图。步骤S3:对除分组维度外的每个所述分组内的数据建立倒排索引。作为一种优选的实施方式,本申请在数据的建立上,对于所有的偏序维度按映射规则映射到全序域上,然后,针对每一维的数据,都按照从优到劣的顺序。步骤S4:对除分组维度外的每个维度i建立临时表Ti和结果集Ri,临时表Ti存放每个分组在维度i上表现最好的元组,结果集Ri里存放维度i上扫描到的skyline本文档来自技高网
...

【技术保护点】
1.一种偏序域上的skyline查询方法,其特征在于,包括以下步骤:S1:对待测数据集进行分组,选择所述待测数据集分组前属性个数最少的偏序维度作为分组维度;S2:将所述偏序维度映射到两个全序维度,对于每个除所述分组维度外的偏序维度,根据用户的偏好哈斯图按映射规则映射到所述全序维度上;所述用户的偏好哈斯图为去除传递的有向无环图;S3:对除分组维度外的每个所述分组内的数据建立倒排索引;S4:对除分组维度外的每个维度i建立临时表T

【技术特征摘要】
1.一种偏序域上的skyline查询方法,其特征在于,包括以下步骤:S1:对待测数据集进行分组,选择所述待测数据集分组前属性个数最少的偏序维度作为分组维度;S2:将所述偏序维度映射到两个全序维度,对于每个除所述分组维度外的偏序维度,根据用户的偏好哈斯图按映射规则映射到所述全序维度上;所述用户的偏好哈斯图为去除传递的有向无环图;S3:对除分组维度外的每个所述分组内的数据建立倒排索引;S4:对除分组维度外的每个维度i建立临时表Ti和结果集Ri,临时表Ti存放每个分组在维度i上表现最好的元组,结果集Ri里存放维度i上扫描到的skyline元组;S5:根据循环扫描策略和临时表更新策略对分组的数据集进行扫描,并将扫描结果存放到临时结果集中,直到扫描到扫描结束点根据分组计算结束条件结束相应分组的计算;S6:当所有分组的计算都结束时,结束算法,将所有临时结果集中的结果取并集输出,所述并集即为需要返回给用户的skyline。2.根据权利要求1所述的一种偏序域上的skyline查询方法,其特征还在于:所述对待测数据集进行分组即在给定d维空间上的数据集P,根据数据集P的偏序维度,当有多个偏序维度则选择属性值最少的一个偏序维度,进行分组,将在该维度上拥有相同属性值的元组分到一组。3.根据权利要求1所述的一种偏序域上的skyline查询方法,其特征还在于:所述映射规则首先采用将偏序域属性映射到两个全序域的方式处理;所述偏序域属性...

【专利技术属性】
技术研发人员:白梅王京徽王习特李冠宇朱斌宁博
申请(专利权)人:大连海事大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1