一种众包TOP‑k查询中的降低成本方法,该方法包括以下步骤:首先将问题分成若干个小任务,通过众包平台发布给用户进行评分,得到用户判断的偏好;再根据所获得偏好包对项目进行选择分区排序;最后得到最终的top‑k结果。该方法减少了比较工作量,从而达到降低成本的目的。
A Cost Reduction Method in Crowdsourcing TOP-k Query
A cost reduction method in crowdsourcing TOP K query includes the following steps: firstly, the problem is divided into several small tasks, which are published to users through crowdsourcing platform for scoring, and then the preferences of users are obtained; secondly, the items are selected and sorted according to the preference packages obtained; finally, the final top k result is obtained. This method reduces the comparative workload and achieves the goal of reducing the cost.
【技术实现步骤摘要】
一种众包TOP-k查询中的降低成本方法
本专利技术涉及一种众包TOP-k查询中的降低成本方法。
技术介绍
近期,众包被用于多种数据库查询,包括最大值查询、连接查询和Top-k查询。在本文中,主要收集众包Top-k查询。其中,人们对项目集的排序结果产生决定性作用。Top-k查询已经应用于很多方面如,在线翻译,药品不良反映评估,排行榜等等。众包Top-k查询对计算机不擅长,但是人们可以给出更好的回答的事情。这些大多都需要一定的知识或者自然感情来判别。这些都是计算机无法给出判断但对拥有响应能力的人们来说是一件极其简单的事情。它主要分为两大部分内容,首先通过众包平台将若干小任务分发给用户,用户根据任务作出判断并反馈;其次再通过本文专利技术方法对反馈答案进行排序得出Top-k。现有几种方法被用于判断,比较简单的方法是,让用户对所有项进行判断,然后通过收集判断进行排名,最后返回最好的k个项目的排序。这个方法需要复杂的用户界面,并且从用户的角度讲不是十分便利。另一种方法是,让用户对所有项进行分级,然后和平均等级相比,返回最好的k项。然而,分级判断规模不同,众包只会让结果更加难以获得,分级判断则很难校准(每个用户的分数公平化)。所以,近期的众包top-k查询处理主要被用于两两判断,两两偏好判断只需比较两项之间的偏好值,可以降低人为误差。这些方法都存在一定问题使得比较工作量大,成本更高。因此一种可以降低成本的方法的出现是很有意义的。
技术实现思路
本专利技术其目的就在于提供一种众包TOP-k查询中的降低成本方法,解决了现有技术方法存在使得比较工作量大,成本更高的问题。为实现上述目的而采取的技术方案是,一种众包TOP-k查询中的降低成本方法,该方法包括以下步骤:(1)首先将问题分成若干个小任务,通过众包平台发布给用户进行评分,得到用户判断的偏好:将问题分成若干个小任务,通过众包平台发布给用户进行评分,每个项目采用分级判断评分规则,即每个用户可以给每个项目打分,分值必须在一个评分区间V(G*i,G*j)∈[-1,1],分值代表了该用户在这两项中判断的偏好;显然,假如每个用户给出的评分机制不同,那所得评分相差太大,得出的结果是不符合实际的,其绝对值表明其偏爱程度,对G*i,G*j所有的比较完成后,产生了Wi,j的工作量,相应产生一个偏好值包Vi,j={V1(Gi,Gj),……,VWi,j(Gi,Gj);(2)再根据所获得偏好包对项目进行选择分区排序:选择分区排序的大致步骤为:(a)在所有候选项中选择出一个参考项r;(b)候选项基于r项做比较,将所有候选项分区;(c)将最后需要的所分区进行排序;(3)最后得到最终的top-k结果。所述的步骤(2)中,在选择了参考项r之后,利用选择分区排序算法,将所有候选项依次和r比较,得到的结果将分成三组:优于r的Wr,和r相近的Lr,比r差的Tr;其中和r相近的主要是,由于比较值几乎相等,导致无法确定排名,这样的项成为相近,假设不考虑相近问题,且每两组项都可以在预计的工作量中完成比较,得出结果;在选择了一个恰当的r之后,r仍然可以修剪无结果的项。有益效果与现有技术相比本专利技术具有以下优点。本专利技术的优点是,相对于现有的大多数众包top-k方法,本专利技术具有减少了比较工作量,从而达到降低成本目的的特点。附图说明以下结合附图对本专利技术作进一步详述。图1为本专利技术选择分区排序算法处理top-k流程图;图2为本专利技术选择分区排序算法top-k处理图;图3为本专利技术TLS框架图;图4为本专利技术K对成本的影响图;图5为本专利技术N对成本的影响图;图6为本专利技术B对延迟的影响图;图7为本专利技术K对延迟的影响图;图8为本专利技术N对延迟的影响图。具体实施方式一种众包TOP-k查询中的降低成本方法,该方法包括以下步骤:(1)首先将问题分成若干个小任务,通过众包平台发布给用户进行评分,得到用户判断的偏好:将问题分成若干个小任务,通过众包平台发布给用户进行评分,每个项目采用分级判断评分规则,即每个用户可以给每个项目打分,分值必须在一个评分区间V(G*i,G*j)∈[-1,1],分值代表了该用户在这两项中判断的偏好;显然,假如每个用户给出的评分机制不同,那所得评分相差太大,得出的结果是不符合实际的,其绝对值表明其偏爱程度,对G*i,G*j所有的比较完成后,产生了Wi,j的工作量,相应产生一个偏好值包Vi,j={V1(Gi,Gj),……,VWi,j(Gi,Gj);(2)再根据所获得偏好包对项目进行选择分区排序:选择分区排序的大致步骤为:(a)在所有候选项中选择出一个参考项r;(b)候选项基于r项做比较,将所有候选项分区;(c)将最后需要的所分区进行排序;(3)最后得到最终的top-k结果。所述的步骤(2)中,在选择了参考项r之后,利用选择分区排序算法,将所有候选项依次和r比较,得到的结果将分成三组:优于r的Wr,和r相近的Lr,比r差的Tr;其中和r相近的主要是,由于比较值几乎相等,导致无法确定排名,这样的项成为相近,假设不考虑相近问题,且每两组项都可以在预计的工作量中完成比较,得出结果;在选择了一个恰当的r之后,r仍然可以修剪无结果的项。为了减少比较工作量,从而达到降低成本的目的,本专利技术中提出了选择分区排序算法,对项目进行排序:表1给出本专利技术中重要符号定义在得到候选项目评分后,我们先算出每个项目所得评分的平均值,再将所有项目分成m个组并求出每组最大值,求出m个最大值的平均值作为参考项r,每个项目再和参考项比较得出top-k。给定一组,包含N个元素G={G1,G2,……GN},我们想通过两两比较后找到最好的k项G*={G*1,G*2,……,G*K}∈G,G*i是第i个最好的项。假设每个人完成一次比较所需的成本是相同的,找到top-k项G*所需的总成本(TMC)取决于:(1)一系列的两两比较C,(2)在C中每一个两两比较的工作量,如公式(1)所示:其中,C两两比较的总数,Wi,j为每组比较所需工作量。本专利技术在判断模型方面选择两两偏好判断将所有项进行两两分组,让用户给出对每项的喜爱程度打分。这样每一组都可以得到一对评分V(G*i,G*j)∈[-1,1]。分值代表了该用户在这两项中判断的偏好。其绝对值表明其偏爱程度。对G*i,G*j所有的比较完成后,产生了Wi,j的工作量,相应产生一个偏好值包Vi,j={V1(Gi,Gj),……,VWi,j(Gi,Gj)。由于收集判断回答的成本是固定的,而我们的目的是最小化成本,所以,我们只有尽量减少工作量来节约成本,,在众包环境中我们采取一种先进的方法:如果当前工作量是不足以做出任何比较判断,从人群中检索一个额外的反馈,,我们添加两个额外的参数:B总工作量限制预算,I克服冷启动初始工作量最小化。根据在统计中的惯例,I的值应该至少是30。偏好判断相对来说更加独立,每个用户给出评分不会受到其他候选项的影响,从而得到的回答质量也会更高。本专利技术采用两两偏好判断方法所获得的结果来进行top-k排名的获取。两两比较相对来说更好做出回答,用户错误率更低。图1展示出了本专利技术的选择分区排序算法的流程图寻找top-k项在目前的方法来说,堆排序和树形排序较好。但是,这些方法忽略了一个属性,真正的全序中(未知的),一对项目所需的工作量,应该本文档来自技高网...
【技术保护点】
1.一种众包TOP‑k查询中的降低成本方法,其特征在于,该方法包括以下步骤:(1)首先将问题分成若干个小任务,通过众包平台发布给用户进行评分,得到用户判断的偏好:将问题分成若干个小任务,通过众包平台发布给用户进行评分,每个项目采用分级判断评分规则,即每个用户可以给每个项目打分,分值必须在一个评分区间V(G*i,G*j)∈[‑1,1],分值代表了该用户在这两项中判断的偏好;显然,假如每个用户给出的评分机制不同,那所得评分相差太大,得出的结果是不符合实际的,其绝对值表明其偏爱程度,对G*i,G*j所有的比较完成后,产生了Wi,j的工作量,相应产生一个偏好值包Vi,j={V1(Gi,Gj),……,VWi,j(Gi,Gj);(2)再根据所获得偏好包对项目进行选择分区排序:选择分区排序的大致步骤为:(a)在所有候选项中选择出一个参考项r;(b)候选项基于r项做比较,将所有候选项分区;(c)将最后需要的所分区进行排序;(3)最后得到最终的top‑k结果。
【技术特征摘要】
1.一种众包TOP-k查询中的降低成本方法,其特征在于,该方法包括以下步骤:(1)首先将问题分成若干个小任务,通过众包平台发布给用户进行评分,得到用户判断的偏好:将问题分成若干个小任务,通过众包平台发布给用户进行评分,每个项目采用分级判断评分规则,即每个用户可以给每个项目打分,分值必须在一个评分区间V(G*i,G*j)∈[-1,1],分值代表了该用户在这两项中判断的偏好;显然,假如每个用户给出的评分机制不同,那所得评分相差太大,得出的结果是不符合实际的,其绝对值表明其偏爱程度,对G*i,G*j所有的比较完成后,产生了Wi,j的工作量,相应产生一个偏好值包Vi,j={V1(Gi,Gj),……,VWi,j(Gi,Gj);(2)再根据所获得偏...
【专利技术属性】
技术研发人员:崔宗敏,高宇,喻静,
申请(专利权)人:九江学院,
类型:发明
国别省市:江西,36
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。