一种不完整数据的Top-K查询方法和系统技术方案

技术编号:30541349 阅读:11 留言:0更新日期:2021-10-30 13:18
本发明专利技术公开一种不完整数据的Top

【技术实现步骤摘要】
一种不完整数据的Top

K查询方法和系统


[0001]本专利技术属于数据查询
,更具体地,涉及一种不完整数据的Top

K查询方法和系统。

技术介绍

[0002]随着信息技术的不断普及和飞速发展,各行各业的发展日新月异。通过对大规模数据进行分析,人们深入探索行业的本质和发展规律,获取信息、知识和过去不可企及的商机,从而创造庞大的经济效益和社会效益。
[0003]海量数据在创造价值的同时,也带来了数据质量问题等挑战。数据质量的评估标准主要有:精确性、完整性、一致性、时效性、可靠性和有效性,其中,数据完整性占据重要地位。不完整数据会导致分析和处理的结果不正确。不完整数据处理已经在数据挖掘、机器学习等领域中得到广泛的研究。
[0004]在海量数据中Top

K查询可以通过设置权重系数,在庞大的数据集中找出用户感兴趣的k个最好的结果,即k个评分最高或最低的元组。现有的Top

K查询研究主要面向完整数据或不完整的流数据。现有的不完整数据Top

K查询研究基于众包模式。完整数据与不完整数据、静态数据与动态数据(流数据)的本质均存在较大差异,并且众包技术的适用范围非常有限。因此,不完整数据的Top

K查询不能直接使用以前的技术。

技术实现思路

[0005]针对现有不完整数据Top

K查询方法不具备一般性,导致适用范围有限的技术的缺陷和改进需求,本专利技术提供了一种不完整数据的Top

K查询方法和系统,其目的在于确保不完整数据Top

K查询结果正确性的同时有效提高了查询效率。
[0006]为实现上述目的,按照本专利技术的第一方面,提供了一种不完整数据的Top

K查询方法,包括:
[0007]S1.统计出不完整数据集中每种属性的最小值和最大值,保存该数据集中各对象的主键、非主键属性值到元组列表中;
[0008]S2.遍历元组列表,计算每个对象的最低可能分数和最高可能分数,并存入元组列表,同时定位所有对象的最低可能分数位于第K大的值,将其作为判断阈值;
[0009]S3.遍历元组列表,若当前对象的最高可能分数不小于判断阈值,将其加入第一候选集中;
[0010]S4.遍历第一候选集,对对象的缺失属性值进行填补,计算填补后对象的分数,将分数不小于判断阈值的对象加入第二候选集中;
[0011]S5.采用完整数据Top

K查询方法查询第二候选集,返回分数最大的前K个对象作为查询结果。
[0012]优选地,步骤S1中包括:
[0013]S11.打开不完整数据集所在文件,读取主键不为空的所有记录;
[0014]S12.假定所有属性值为非负数,用

1标记缺失值,用Min数组保存所有非主键属性的最小值,用Max数组保存所有非主键属性的最大值;
[0015]S13.每读取一行记录,将该对象的主键、非主键属性值以对象形式存入元祖列表中,同时动态更新Min数组和Max数组。
[0016]优选地,步骤S2包括:
[0017]S21.遍历元组列表,计算并保存每个对象的所有非主键属性值组成的向量与权重向量的内积;
[0018]S22.用Min数组对应的值替换缺失的属性值,对应的内积是对象的最低可能分数;
[0019]S23.用Max数组对应的值替换缺失的属性值,对应的内积是对象的最高可能分数;
[0020]S24.计算所有对象的最低可能分数中第K大的值,并将该值作为候选对象的判断阈值。
[0021]优选地,步骤S4包括:
[0022]S41.采用填补策略估算缺失值的填补值,将估算值与缺失值对应的属性最小值和最大值比较得出最终填补值以保证填补值在属性的最小值和最大值的范围内;
[0023]S42.计算填补后完整对象的属性值向量与权重向量的内积,将内积作为对象的分数;
[0024]S43.将分数不小于判断阈值的对象加入到第二候选集中。
[0025]优选地,所述填补策略为回归填补法或者多重填补法。
[0026]有益效果:当缺失率σ相同时,多重填补法的MAPE和SMAPE略低于回归填补法,回归填补法的MAPE和SMAPE低于其他填补策略。当缺失率σ大于20%时,回归填补法和多重填补法MAE和RMSE始终小于其他策略。综上,多重填补法、回归填补法表现最好、最稳定。
[0027]优选地,所述完整数据Top

K查询方法为基于层的方法、基于视图的方法或者基于有序列表的方法。
[0028]为实现上述目的,按照本专利技术的第二方面,提供了一种不完整数据的Top

K查询系统,包括:计算机可读存储介质和处理器;
[0029]所述计算机可读存储介质用于存储可执行指令;
[0030]所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行第一方面所述的不完整数据的Top

K查询方法。
[0031]总体而言,通过本专利技术所构思的以上技术方案,能够取得以下有益效果:
[0032]本专利技术通过比较对象的最高可能得分与阈值的大小,提前修剪不可能是查询结果的对象,得到第一候选集,从而缩小搜索区间和填补范围;通过填补策略估算缺失值,并保证缺失值不小于属性最小值。在填补的同时,通过比较完整对象的得分和剪枝阈值的大小,对第一候选集进行进一步剪枝。本专利技术经过两次修剪和一次填补,使用针对完整数据的Top

K查询算法对不包含缺失值的第二候选集进行查询,充分考虑了缺失值的各种可能的估算值,在保证查询结果准确性的同时,大大缩小了搜索区间和填补区间,具有更高的查询准确率和效率。
附图说明
[0033]图1为本专利技术提供的一种不完整数据的Top

K查询方法流程图。
具体实施方式
[0034]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。此外,下面所描述的本专利技术各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
[0035]本专利技术的专利技术构思为:首先根据支配关系对数据集进行剪枝,得到包含缺失值的候选集,然后在填补候选集的同时进一步剪枝,最后对填补后的完整数据集进行Top

K查询得到查询结果。
[0036]首先,对本专利技术涉及的术语进行解释如下。
[0037]完整数据的Top

K查询:给定一个有n个对象的d(d>1)维完整数据集P(记为),则这个数据集可以表示成每个具有d个属性值的对象都可以表示成d维数据空间中的点假设所有的属性值都是确定的数值,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种不完整数据的Top

K查询方法,其特征在于,包括:S1.统计出不完整数据集中每种属性的最小值和最大值,保存该数据集中各对象的主键、非主键属性值到元组列表中;S2.遍历元组列表,计算每个对象的最低可能分数和最高可能分数,并存入元组列表,同时定位所有对象的最低可能分数位于第K大的值,将其作为判断阈值;S3.遍历元组列表,若当前对象的最高可能分数不小于判断阈值,将其加入第一候选集中;S4.遍历第一候选集,对对象的缺失属性值进行填补,计算填补后对象的分数,将分数不小于判断阈值的对象加入第二候选集中;S5.采用完整数据Top

K查询方法查询第二候选集,返回分数最大的前K个对象作为查询结果。2.如权利要求1所述的方法,其特征在于,步骤S1中包括:S11.打开不完整数据集所在文件,读取主键不为空的所有记录;S12.假定所有属性值为非负数,用

1标记缺失值,用Min数组保存所有非主键属性的最小值,用Max数组保存所有非主键属性的最大值;S13.每读取一行记录,将该对象的主键、非主键属性值以对象形式存入元祖列表中,同时动态更新Min数组和Max数组。3.如权利要求1所述的方法,其特征在于,步骤S2包括:S21.遍历元组列表,计算并保存每个对象的所有非主键属...

【专利技术属性】
技术研发人员:李国徽梁彩梅袁凌杨泳熊云飞
申请(专利权)人:武汉烽火技术服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1