一种根据注释者辅助信息程度的标签排序的方法技术

技术编号:20025683 阅读:23 留言:0更新日期:2019-01-06 04:32
本发明专利技术涉及一种根据注释者辅助信息的程度排序的方法,属于学习排序领域。首先分别通过利用Mallow模型基于置换的概率排序模型,构造出真实值标签与注释者之间的关系。通过利用P‑L模型基于分数的概率排序模型,构造出真实值标签与训练实例之间的关系,整合真实值与注释者之间的关系和真实值和训练实例之间的关系,得到新的概率排序模型。然后利用新的概率排序模型和约束函数,通过最大化对数似然学习得到最优参数集,最后通过EM算法迭代更新注释者的专业知识程度的参数集,并且得到排名函数参数。本发明专利技术使用最大化可能性优化框架,并引入新的EM程序迭代地推断和学习变量和参数,可以提供更多有益的相关应用。

【技术实现步骤摘要】
一种根据注释者辅助信息程度的标签排序的方法
本专利技术公开了一种根据注释者辅助信息的程度排序的方法,属于学习排序领域。
技术介绍
学习排序是一个相对较新的研究领域,在中国迅速崛起上个年代。它在许多应用程序中扮演着重要的角色,例如信息检索,数据挖掘,自然语言处理和语音识别(<InProceedingsofInternationalConferenceonMachineLearning(ICML)>,2007)。在与学习排名有关的问题中,一个实例是一组对象而标签是应用于对象的排名列表。特别是学习排序旨在从训练实例和排序标签构建排序功能。在传统的情况下,每个标签都假定客观可靠。这个假设运作良好,并且还用于其他常规监督设置,例如分类。许多监督学习研究最近强调,生产准确的训练标签对许多现实世界来说可能是不可思议的或者非常昂贵任务。现有的解决方法,可以提供多个(可能是主观的或嘈杂的)标签具有不同级别的专家级别的注释者。例如,亚马逊机械Turk(AMT)允许请求者聘请来自世界各地的用户标记数据。任何AMT用户可以选择用户自己选择的标签任务。在这个事件中,一个AMT请求者可以轻松并及时地雇佣多个贴标签者。但是,AMT用户分配有限的控制权,因此不能保证获得客观准确的标签。所以,必须全面探索多个注释者下的学习。之前进行了大量的研究以探索机器学习多注释器下的方法。早期的作品之一Smyth等人(<InProceedingsofNeuralInformationProcessingSystems(NIPS)>,1995)是最先提出涉及到真实值的估计,然后使用估计的真实值学习模型。2010年,Raykar等人提出了概率框架来解决分类(<J.Mach.Learn.Res>2010),回归和有序回归算法多个注释器。概率框架基于一个简单但合理的假设,即注释者观察到的标签取决于真实标签和专家的程度。他们的实验结果表明他们的框架优于Smyth等人提出的模型。Donmez和Garnonell(<InProceedingsofSIAMInternationalConferenceonDataMining(SDM)>,2010)调查了一个案例,其中注释者的专业知识是随时间变化的,并开发了一个连续的贝叶斯估计框架。Yan等人(<InProceedingsofInternationalConferenceonArtificialIntelligenceandStatistics(AISTAT)>,2010)引入了用于从人群标签学习的新的主动学习算法。Xie等人(<InProceedingsofSIAMInternationalConferenceonDataMining(SDM)>,2012)提出了一种新颖的学习框架,以评估实际情况注释者拒绝标记特定实例,并且每个注释者被赋予不同的一组实例来标记。其他相关着作的重点差异很大设置。上述研究很少关注学习如何在多注释器下排序设置。Volkovs等人(<InProceedingsofInternationalConferenceonInformationandKnowledgeManagement(CIKM)>,2012)和Matsui等人(<InProceedingsofPacific-AsiaConferenceonKnowledgeDiscoveryandDataMining(PAKDD)>,2014)进行的两项研究与目前的研究类似,但仍能观察到显着差异。特别是,目前的研究侧重于学习排序,而Volkovs等人专注于多个排序名单和Matsui等人的汇总重视对相关注释者的专业知识程度的评估。因此,目前的工作坚持以前的研究调查的算法列表学习排序涉及多个注释器。此外还有信用评分,专业成绩和历史注释记录,这些都提供了宝贵的一面关于注释者的专业知识程度的信息可能在许多注释任务中可用。例如,在Raykar等人的研究中,注释者是医生。直观地说,由专业级别较高的医生制作的标签大概比另一个低级别医生做的更准确。因此,专业成绩可作为有关专业知识的辅助信息注释者的程度。在这方面,这项研究调查时可用学习算法边信息。据研究人员所知,现有的众包学习算法无视注释者的辅助信息。
技术实现思路
本专利技术将Mallow和P-L相结合,提出了一种根据注释者辅助信息的程度排序的方法。因此,新引入的模型集成了无监督的模型秩聚合和传统学习排序,其中使用最大化可能性优化框架,并引入新的EM程序迭代地推断和学习变量和参数。在多个注释下学习排序和标注都可以被广泛使用。因此,这项工作可以提供更多有益的相关应用。本专利技术采用的技术方案是:一种根据注释者辅助信息的程度排序的方法,包括如下步骤:首先分别通过利用Mallow模型基于置换的概率排序模型构造出真实值标签与注释者之间的关系。通过利用P-L模型基于分数的概率排序模型构造出真实值标签与训练实例之间的关系,整合真实值与注释者之间的关系和真实值和训练实例之间的关系得到新的概率排序模型。然后利用新的概率排序模型和约束函数通过最大化对数似然学习得到最优参数集。最后通过EM算法迭代更新注释者的专业知识程度的参数集,并且得到排名函数参数。所述方法的具体步骤如下:Step1:分别通过利用Mallow模型基于置换的概率排序模型构造出真实值标签与注释者之间的关系,通过利用P-L模型基于分数的概率排序模型构造出真实值标签与训练实例之间的关系。Step1.1:设X为输入空间,其元素为实例,每个实例为一组对象。设Y是输出空间,其元素是X中实例的排名标签。X中的一个实例x(i)被表示为(x(i,1),...,x(i,No)),其中No表示x(i)中的对象的数量。每个对象由Nf维特征描述,然后排名标签y(i)∈Y,x(i)由(y(i,1),...,y(i,No))表示,其中y(i,j)是分配给对象x(i,j)的等级。参数集Θ({θ1,...,θG))表示了注释者的辅助信息的程度,G是注释者的数量。Step1.2:对于训练实例x(i),假设真实值标签x(i)存在(但未观察到),利用Mallow模型构造真实值标签(y(i))与第j个注释者给出的标签之间的关系,如下:式(1)中θj表示第j个注释者的辅助信息的程度,表示真实值标签(y(i))与第j个注释者给出的标签之间的差距。Step1.3:对于训练实例x(i),假设真实值标签y(i)存在(但未观察到),利用P-L模型构造真实值标签y(i)和训练实例x(i)之间的关系,如下:式(2)中w表示排序函数的参数向量,wT是w的转置,k、l就是一个数量计数字母。Step2:整合真实值与注释者之间的关系和真实值和训练实例之间的关系得到新的概率排序模型。在这个模型中,参数向量w∈RNf×1代表被学习的排序函数的参数,参数集Θ({θ1,...,θG})表示了注释者的辅助信息的程度,变量y是实例x的排序标签;变量(y1,…,yG)是来自G个注释者对于实例x的排序标签,在训练中,由所涉本文档来自技高网
...

【技术保护点】
1.一种根据注释者辅助信息的程度排序的方法,其特征在于:包括如下步骤:Step1:利用Mallow模型基于置换的概率排序模型构造出真实值标签与注释者之间的关系,利用P‑L模型基于分数的概率排序模型构造出真实值标签与训练实例之间的关系;Step2:整合真实值与注释者之间的关系和真实值和训练实例之间的关系得到新的概率排序模型;Step3:利用新的概率排序模型和约束函数通过最大化对数似然学习得到最优参数集;Step4:通过EM算法迭代更新注释者的专业知识程度的参数集,并且得到排名函数参数。

【技术特征摘要】
1.一种根据注释者辅助信息的程度排序的方法,其特征在于:包括如下步骤:Step1:利用Mallow模型基于置换的概率排序模型构造出真实值标签与注释者之间的关系,利用P-L模型基于分数的概率排序模型构造出真实值标签与训练实例之间的关系;Step2:整合真实值与注释者之间的关系和真实值和训练实例之间的关系得到新的概率排序模型;Step3:利用新的概率排序模型和约束函数通过最大化对数似然学习得到最优参数集;Step4:通过EM算法迭代更新注释者的专业知识程度的参数集,并且得到排名函数参数。2.根据权利要求1所述的一种根据注释者辅助信息的程度排序的方法,其特征在于:所述Step1的具体步骤如下:设X为输入空间,其元素为实例,每个实例为一组对象,设Y是输出空间,其元素是X中实例的排名标签,X中的一个实例x(i)被表示为(x(i,1),...,x(i,No)),其中No表示x(i)中的对象的数量,每个对象由Nf维特征描述,然后排名标签y(i)∈Y,x(i)由(y(i,1),...,y(i,No))表示,其中y(i,j)是分配给对象x(i,j)的等级,参数集Θ({θ1,...,θG})表示了注释者的辅助信息的程度,G是注释者的数量;Step1.1:对于训练实例x(i),假设真实值标签x(i)存在,利用Mallow模型构造真实值标签(y(i))与第j个注释者给出的标签之间的关系,如下:式(1)中θj表示第j个注释者的辅助信息的程度,表示真实值标签(y(i))与第j个注释者给出的标签之间的差距;Step1.2:对于训练实例x(i),假设真实值标签y(i)存在,利用P-L模型构造真实值标签y(i)和训练实例x(i)之间的关系,如下:式(2)中w表示排序函数的参数向量,wT是w的转置,k、l就是一个数量计数字母。3.根据权利要求2所述的一种根据注释者辅助信息的程度排序的方法,其特征在于:所述Step2的具体步骤如下:在这个模型中,参数向量w∈RNf×1代表被学习的排序函数的参数,参数集Θ({θ1,...,θG})表示了注释者的辅助信息的程度,变量y是实例x的排序标签;变量(y1,…,yG)是来自G个注释者对于实例x的排序标签,在训练中,由所涉及的注释者给出所有训练实例(x)及其相关排序标签(y1,...,yG)的值;Step2.1:从群体中学习排序用于描述一个新的概率排序模型,排序标签y由v(=<w,v>)调节,其中v(v>0)是标签分数的参数化,y的值现在从先前P(y|v)中抽取,结果,实现了以下表达:式(3)中P(y|x,w)依赖于基于分数的概率排序模型,而P(yj|y,θ)依赖于基于置换的概率排序模型;Step2.2:设参数集Ω=(Θ,w),给定观察集D具有N个实例,x(i)表示第i个实例,似然函数Ω现在可以基于等式(3)被分解为以下表达式:式(4)中整合了式(1)中定义的Mallow和式(2)中定义的P-L(P(y(i)|x(i),w)),表示第i个实例的第j个排序标签。4.根...

【专利技术属性】
技术研发人员:汪海涛贺成诚
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利