【技术实现步骤摘要】
一种面向搜索排序的主动众包任务生成方法
本专利技术涉及主动学习方法在众包技术上的应用,尤其涉及众包系统中任务生成的技术方法。
技术介绍
在信息爆炸的当下,信息检索广泛得出现在人们的日常生活中,并且其强调的重点已逐渐从获取与检索词相关的文件转向给出按照人们对信息的关心程度进行排序的文件列表。信息检索与搜索排序的方法也从传统方法向结合机器学习的排序学习方法(LearningtoRank)转移。此类方法与其他多数机器学习方法相似,是一种需要大量训练数据集进行模型训练的监督学习方法。由于训练监督学习算法往往需要大量已标注数据,尤其是高质量的已标注数据。出于对时间、经济成本的考虑,越来越多的数据需求者选择充分利用社会资源而大大降低成本的众包模式作为得到数据集的方法。但人力资源、时间资源都非常宝贵,如何设计众包模式、选择众包任务从而用尽可能少的人力与时间尽可能多地提升模型的训练效率已成为众包过程中研究者们关注的问题。基于用更少的资源得到更高质量数据集的需求,主动学习(ActiveLearning)成为很多研究者的选择。研究表明,在大多数模型训练中,更大的数据集并不一定带来更好 ...
【技术保护点】
1.一种面向搜索排序的主动众包任务生成方法,其特征在于,步骤如下:1)利用已标注数据训练排序学习模型,得到训练好的排序模型;所述的已标注数据为已经过人工打分的查询‑文档对,打分分值反映查询词与文档的相关程度;2)利用1)中训练好的排序模型对已标注数据进行打分,并对得到的打分进行最大最小归一化,使所有已标注数据的打分结果归一化后的分数值区间与人工打分的分数值区间相同;3)将所述的分数值区间划分为若干个子区间,然后对2)中每个已标注数据归一化后的模型打分分数与人工打分的分数进行求差,计算归一化后的模型打分分数落在每个子区间中的数据集对应的分数平均差值,计算方法为:
【技术特征摘要】
1.一种面向搜索排序的主动众包任务生成方法,其特征在于,步骤如下:1)利用已标注数据训练排序学习模型,得到训练好的排序模型;所述的已标注数据为已经过人工打分的查询-文档对,打分分值反映查询词与文档的相关程度;2)利用1)中训练好的排序模型对已标注数据进行打分,并对得到的打分进行最大最小归一化,使所有已标注数据的打分结果归一化后的分数值区间与人工打分的分数值区间相同;3)将所述的分数值区间划分为若干个子区间,然后对2)中每个已标注数据归一化后的模型打分分数与人工打分的分数进行求差,计算归一化后的模型打分分数落在每个子区间中的数据集对应的分数平均差值,计算方法为:式中:xi表示第i个子区间中的数据集对应的分数平均差值,ni为归一化后的模型打分分数落在第i个子区间中的已标注数据个数;yij为落在第i个子区间中的第j个已标注数据归一化后的模型打分分数与人工打分分数差值;4)根据3)中得到的xi值,按照xi值从大到小的顺序对所有子区间进行排序,得到排序最靠前的子区间;5)获取用户进行文档检索时输入的查询词,并将查询词与文档库中的所有文档进行匹配,形成若干查询-文档对;6)利用1)中训练好的排序模型对5)中的所有查询-文档对进行打分,按...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。