一种根据注释者辅助信息程度的标签排序的方法技术

技术编号：20025683 阅读：23 留言：0更新日期：2019-01-06 04:32

本发明专利技术涉及一种根据注释者辅助信息的程度排序的方法，属于学习排序领域。首先分别通过利用Mallow模型基于置换的概率排序模型，构造出真实值标签与注释者之间的关系。通过利用P‑L模型基于分数的概率排序模型，构造出真实值标签与训练实例之间的关系，整合真实值与注释者之间的关系和真实值和训练实例之间的关系，得到新的概率排序模型。然后利用新的概率排序模型和约束函数，通过最大化对数似然学习得到最优参数集，最后通过EM算法迭代更新注释者的专业知识程度的参数集，并且得到排名函数参数。本发明专利技术使用最大化可能性优化框架，并引入新的EM程序迭代地推断和学习变量和参数，可以提供更多有益的相关应用。

全部详细技术资料下载

【技术实现步骤摘要】
一种根据注释者辅助信息程度的标签排序的方法
本专利技术公开了一种根据注释者辅助信息的程度排序的方法，属于学习排序领域。
技术介绍
学习排序是一个相对较新的研究领域，在中国迅速崛起上个年代。它在许多应用程序中扮演着重要的角色，例如信息检索，数据挖掘，自然语言处理和语音识别(<InProceedingsofInternationalConferenceonMachineLearning(ICML)>,2007)。在与学习排名有关的问题中，一个实例是一组对象而标签是应用于对象的排名列表。特别是学习排序旨在从训练实例和排序标签构建排序功能。在传统的情况下，每个标签都假定客观可靠。这个假设运作良好，并且还用于其他常规监督设置，例如分类。许多监督学习研究最近强调，生产准确的训练标签对许多现实世界来说可能是不可思议的或者非常昂贵任务。现有的解决方法，可以提供多个(可能是主观的或嘈杂的)标签具有不同级别的专家级别的注释者。例如，亚马逊机械Turk(AMT)允许请求者聘请来自世界各地的用户标记数据。任何AMT用户可以选择用户自己选择的标签任务。在这个事件中，一个AMT请求者可以轻松并及时地雇佣多个贴标签者。但是，AMT用户分配有限的控制权，因此不能保证获得客观准确的标签。所以，必须全面探索多个注释者下的学习。之前进行了大量的研究以探索机器学习多注释器下的方法。早期的作品之一Smyth等人(<InProceedingsofNeuralInformationProcessingSystems(NIPS)>,1995)是最先...

【技术保护点】
1.一种根据注释者辅助信息的程度排序的方法，其特征在于：包括如下步骤：Step1：利用Mallow模型基于置换的概率排序模型构造出真实值标签与注释者之间的关系，利用P‑L模型基于分数的概率排序模型构造出真实值标签与训练实例之间的关系；Step2：整合真实值与注释者之间的关系和真实值和训练实例之间的关系得到新的概率排序模型；Step3：利用新的概率排序模型和约束函数通过最大化对数似然学习得到最优参数集；Step4：通过EM算法迭代更新注释者的专业知识程度的参数集，并且得到排名函数参数。

【技术特征摘要】
1.一种根据注释者辅助信息的程度排序的方法，其特征在于：包括如下步骤：Step1：利用Mallow模型基于置换的概率排序模型构造出真实值标签与注释者之间的关系，利用P-L模型基于分数的概率排序模型构造出真实值标签与训练实例之间的关系；Step2：整合真实值与注释者之间的关系和真实值和训练实例之间的关系得到新的概率排序模型；Step3：利用新的概率排序模型和约束函数通过最大化对数似然学习得到最优参数集；Step4：通过EM算法迭代更新注释者的专业知识程度的参数集，并且得到排名函数参数。2.根据权利要求1所述的一种根据注释者辅助信息的程度排序的方法，其特征在于：所述Step1的具体步骤如下：设X为输入空间，其元素为实例，每个实例为一组对象，设Y是输出空间，其元素是X中实例的排名标签，X中的一个实例x(i)被表示为(x(i，1),...,x(i，No))，其中No表示x(i)中的对象的数量，每个对象由Nf维特征描述，然后排名标签y(i)∈Y，x(i)由(y(i，1),...,y(i，No))表示，其中y(i，j)是分配给对象x(i，j)的等级，参数集Θ({θ1,...,θG})表示了注释者的辅助信息的程度，G是注释者的数量；Step1.1：对于训练实例x(i),假设真实值标签x(i)存在，利用Mallow模型构造真实值标签(y(i))与第j个注释者给出的标签之间的关系，如下：式(1)中θj表示第j个注释者的辅助信息的程度，表示真实值标签(y(i))与第j个注释者给出的标签之间的差距；Step1.2：对于训练实例x(i),假设真实值标签y(i)存在，利用P-L模型构造真实值标签y(i)和训练实例x(i)之间的关系，如下：式(2)中w表示排序函数的参数向量，wT是w的转置，k、l就是一个数量计数字母。3.根据权利要求2所述的一种根据注释者辅助信息的程度排序的方法，其特征在于：所述Step2的具体步骤如下：在这个模型中，参数向量w∈RNf×1代表被学习的排序函数的参数，参数集Θ({θ1,...,θG})表示了注释者的辅助信息的程度，变量y是实例x的排序标签；变量(y1,…,yG)是来自G个注释者对于实例x的排序标签，在训练中，由所涉及的注释者给出所有训练实例(x)及其相关排序标签(y1,...,yG)的值；Step2.1：从群体中学习排序用于描述一个新的概率排序模型，排序标签y由v(＝<w,v>)调节，其中v(v＞0)是标签分数的参数化，y的值现在从先前P(y|v)中抽取，结果，实现了以下表达：式(3)中P(y|x,w)依赖于基于分数的概率排序模型，而P(yj|y,θ)依赖于基于置换的概率排序模型；Step2.2：设参数集Ω＝(Θ,w)，给定观察集D具有N个实例，x(i)表示第i个实例，似然函数Ω现在可以基于等式(3)被分解为以下表达式：式(4)中整合了式(1)中定义的Mallow和式(2)中定义的P-L(P(y(i)|x(i),w))，表示第i个实例的第j个排序标签。4.根...

【专利技术属性】
技术研发人员：汪海涛，贺成诚，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：云南,53

全部详细技术资料下载我是这个专利的主人