【技术实现步骤摘要】
一种基于海量不完备数据集的skyline偏好查询方法
本专利技术涉及一种基于海量不完备数据集的skyline偏好查询方法,属于物联网和大数据处理
技术介绍
物联网(Internetofthings,loT)是新一代信息技术的重要组成部分,也是信息化时的重要发展阶段。目前物联网领域中主要使用传感器和监测设备来获取数据,由于传感器和监测设备故障、误差和存在着的实际数据获取限制,数据理解有误或数据漏读等多种情况,使得数据集的不完备性普遍存在。这种有缺失数据的数据集,称为不完备数据集。随着物联网应用的发展与普及,以满足用户需求为目标的个性化推荐成为物联网数据处理的热点。例如,根据智能手环、智能手表等可穿戴设备中获取的用户信息,不同的厂商可以针对不同的用户推荐其产品。skyline查询作为一种典型的多目标优化问题的处理方法,在决策制定、市场分析、环境监视、数据挖掘、数据库可视化和计量经济学等应用中发挥着重要作用。因此,对物联网海量不完备数据进行skyline偏好查询处理是解决个性化推荐问题新的视角和切入点。以往对不完备数据的skyline查询是先将数据集进行清洗、修复等预处理,然后再进行skyline查询。但预处理消耗系统资源过多,修复后的数据存在一定的误差,导致查询结果不准确。并且对于一些时效性问题,如流感时期的数据,对这些强实效性数据进行预处理可能会导致数据失效。
技术实现思路
本专利技术针对现有技术的不足,摒弃了传统方法中的预处理阶段,提出了根据用户偏好将维度按重要程度分成两部分分别进行查询处理的策略:基于海量不完备数据集的skyline偏好查询(sky ...
【技术保护点】
一种基于海量不完备数据集的skyline偏好查询方法,其特征在于:包括以下步骤:(1)根据数据集中各属性重要程度将不完备数据集IS进行投影,得到重要属性投影后的数据集IS’和不重要属性投影后的数据集IS”;(2)针对数据集IS’和数据集IS”分别进行元组编码;(3)针对数据集IS’进行严格聚类,所述的严格聚类包括根据聚类编码的定义进行严格聚类和聚类后每个类中被支配的数据元组被剔除两个流程;(4)针对数据集IS”进行松散聚类;所述的松散聚类包括根据元组编码和每个聚类的编码的包含关系的定义进行松散聚类和聚类后每个类中被支配的数据元组被剔除两个流程;(5)将步骤(3)中,严格聚类并完成数据剔除的数据集,执行基于属性值排序的skyline偏好查询算法,得到基于严格聚类的skyline查询结果集SSRS;(6)将步骤(4)中,松散聚类并完成数据剔除的数据集,执行基于支配程度计算的skyline偏好查询算法,得到基于松散聚类的skyline查询结果集RSRS;(7)将步骤(5)、步骤(6)得到的SSRS与RSRS取交集,如果交集不为空集,那么交集中的元组就是最终的skyline查询结果;(8)如果 ...
【技术特征摘要】
1.一种基于海量不完备数据集的skyline偏好查询方法,其特征在于:包括以下步骤:(1)根据数据集中各属性重要程度将不完备数据集IS进行投影,得到重要属性投影后的数据集IS’和不重要属性投影后的数据集IS”;(2)针对数据集IS’和数据集IS”分别进行元组编码;(3)针对数据集IS’进行严格聚类,所述的严格聚类包括根据聚类编码的定义进行严格聚类和聚类后每个类中被支配的数据元组被剔除两个流程;(4)针对数据集IS”进行松散聚类;所述的松散聚类包括根据元组编码和每个聚类的编码的包含关系的定义进行松散聚类和聚类后每个类中被支配的数据元组被剔除两个流程;(5)将步骤(3)中,严格聚类并完成数据剔除的数据集,执行基于属性值排序的skyline偏好查询算法,得到基于严格聚类的skyline查询结果集SSRS;(6)将步骤(4)中,松散聚类并完成数据剔除的数据集,执行基于支配程度计算的skyline偏好查询算法,得到基于松散聚类的skyline查询结果集RSRS;(7)将步骤(5)、步骤(6)得到的SSRS与RSRS取交集,如果交集不为空集,那么交集中的元组就是最终的skyline查询结果;(8)如果步骤(7)的交集为空集,分别计算SSRS与RSRS中元组的信息熵,将SSRS和RSRS中的元组进行信息熵的计算后得出最终的skyline查询结果反馈给用户。2.根据权利要求1所述的一种基于海量不完备数据集的skyline偏好查询方法,其特征在于:所述(2)针对数据集IS’和数据集IS”进行元组编码的过程如下:p′i·tuple_code(p″i·tuple_code)=Mi,Mi=(m1,m,…,mk);若p′i·vk(p″i·vk)=*,Mi·mik=0;若p′i·vk(p″i·vk)≠*,Mi·mik=1,其中k∈[1,λ]([λ+1,d])其中,IS’和IS”分别是IS在前λ维上的投影和后d-λ维上的投影,d是不完备数据集IS的维数,pi′和pi″分别是元组pi前λ维上的投影和后d-λ维上的投影,Mi是元组pi的编码,λ是维度的分割常数,λ∈[1,d]。3.根据权利要求1所述的一种基于海量不完备数据集的skyline偏好查询方法,其特征在于:所述步骤(3)严格聚类中的聚类编码过程如下:_对于如果存在ccj≠p′i·tuple_code,那么CS′=CS′U{pi′·tuple_code}其中,CS’是严格聚类编码集合,ccj是聚类编码。4.根据权利要求1所述的一种基于海量不完备数据集的skyline偏好查询方法,其特征在于:所述步骤(5)中执行基于属性值排序的skyline偏好查询过程,得到严格聚类结果集SSRS的具体过程如下:(5.1):对数据集IS’中的各维度按照元组属性值非降序排序,使得更有可能支配其他元组的元组优先被处理;每维经过排序后都会生成一个数组Di,i∈[1,λ],对于每个数组Di都有Di[j]>=Di[j+1],j∈[1,|IS′|),其中|IS′|代表IS’中的元组个数;对于在第i维上存在缺失属性值的元组是不会加入数组Di中的,为了节省存储空间,数组Di中存储的只是元组id,而不是真正的元组;设立一个指向数组Di的指针ptri,经过严格聚类后没有被支配的元组都纳入候选集Candidate_Set;随机选择一个数组Di,处理数组Di中指针ptri指向的元组;每个在候选集中的元组都会维护两个值,一个是元组被处理的次数,记为processedCount,一个是元组编码中1的个数即非缺失属性维数,记为dimCount;(5.2):对于当前被选中的元组p,有以下几种情况:①,如果元组p′没有被处理过且元组p′还在候选集Candidate_Set中,就将它与除自己以外没有跟它比较过的元组pj′进行比较,即使pi′已经被之前处理过的元组所支配;若候选集中存在元组支配p′,元组p′就被移出候选集;②:如果元组p′没有被处理过但是被之前处理过的元组支配,即已不在候选集Candidate_Set中,p′就只与还在候选集Candidat...
【专利技术属性】
技术研发人员:王妍,石展,王俊陆,李玉诺,宋宝燕,
申请(专利权)人:辽宁大学,
类型:发明
国别省市:辽宁,21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。