一种不完整数据的Top-K查询方法和系统技术方案

技术编号：30541349 阅读：11 留言：0更新日期：2021-10-30 13:18

本发明专利技术公开一种不完整数据的Top

全部详细技术资料下载

【技术实现步骤摘要】
一种不完整数据的Top
‑
K查询方法和系统

[0001]本专利技术属于数据查询
，更具体地，涉及一种不完整数据的Top
‑
K查询方法和系统。

技术介绍

[0002]随着信息技术的不断普及和飞速发展，各行各业的发展日新月异。通过对大规模数据进行分析，人们深入探索行业的本质和发展规律，获取信息、知识和过去不可企及的商机，从而创造庞大的经济效益和社会效益。
[0003]海量数据在创造价值的同时，也带来了数据质量问题等挑战。数据质量的评估标准主要有：精确性、完整性、一致性、时效性、可靠性和有效性，其中，数据完整性占据重要地位。不完整数据会导致分析和处理的结果不正确。不完整数据处理已经在数据挖掘、机器学习等领域中得到广泛的研究。
[0004]在海量数据中Top
‑
K查询可以通过设置权重系数，在庞大的数据集中找出用户感兴趣的k个最好的结果，即k个评分最高或最低的元组。现有的Top
‑
K查询研究主要面向完整数据或不完整的流数据。现有的不完整数据Top
‑
K查询研究基于众包模式。完整数据与不完整数据、静态数据与动态数据(流数据)的本质均存在较大差异，并且众包技术的适用范围非常有限。因此，不完整数据的Top
‑
K查询不能直接使用以前的技术。

技术实现思路

[0005]针对现有不完整数据Top
‑
K查询方法不具备一般性，导致适用范围有限的技术的缺陷和改进需求，本专利技术提供了...

【技术保护点】

【技术特征摘要】
1.一种不完整数据的Top
‑
K查询方法，其特征在于，包括：S1.统计出不完整数据集中每种属性的最小值和最大值，保存该数据集中各对象的主键、非主键属性值到元组列表中；S2.遍历元组列表，计算每个对象的最低可能分数和最高可能分数，并存入元组列表，同时定位所有对象的最低可能分数位于第K大的值，将其作为判断阈值；S3.遍历元组列表，若当前对象的最高可能分数不小于判断阈值，将其加入第一候选集中；S4.遍历第一候选集，对对象的缺失属性值进行填补，计算填补后对象的分数，将分数不小于判断阈值的对象加入第二候选集中；S5.采用完整数据Top
‑
K查询方法查询第二候选集，返回分数最大的前K个对象作为查询结果。2.如权利要求1所述的方法，其特征在于，步骤S1中包括：S11.打开不完整数据集所在文件，读取主键不为空的所有记录；S12.假定所有属性值为非负数，用
‑
1标记缺失值，用Min数组保存所有非主键属性的最小值，用Max数组保存所有非主键属性的最大值；S13.每读取一行记录，将该对象的主键、非主键属性值以对象形式存入元祖列表中，同时动态更新Min数组和Max数组。3.如权利要求1所述的方法，其特征在于，步骤S2包括：S21.遍历元组列表，计算并保存每个对象的所有非主键属...

【专利技术属性】
技术研发人员：李国徽，梁彩梅，袁凌，杨泳，熊云飞，
申请(专利权)人：武汉烽火技术服务有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人