任务推荐方法、装置、分类系统及可读存储介质制造方法及图纸

技术编号:38995795 阅读:12 留言:0更新日期:2023-10-07 10:26
本申请公开了一种任务推荐方法、装置、分类系统及可读存储介质,属于知识图谱领域。本申请实施例的任务推荐方法包括:获取每位标注员在多个叶子概念中的每个叶子概念上的标注水平分数值;根据获取的标注水平分数值,计算每位标注员对应的混淆矩阵;该混淆矩阵中的每一项表示当对应标注员所标注的实例的真实概念为第一概念的情况下,该实例被标注为第二概念的概率;计算多个待标注实例中的每个待标注实例被标注为各个叶子概念的后验概率;根据每个待标注实例被标注为各个叶子概念的后验概率,从多个待标注实例中选取目标待标注实例,并将目标待标注实例推荐给目标标注员进行标注。根据本申请实施例,可以提升标注质量。可以提升标注质量。可以提升标注质量。

【技术实现步骤摘要】
任务推荐方法、装置、分类系统及可读存储介质


[0001]本申请属于知识图谱领域,具体涉及一种任务推荐方法、装置、分类系统及可读存储介质。

技术介绍

[0002]基于众包的分类系统中提升标注质量的重要部分包括任务推荐。任务推荐是指当某一标注员准备标注实例时,分类系统统筹分配找到最适合的待标注实例给该标注员。目前,通常依据其他标注员已选择的概念,计算每个实例的估计质量,并选择估计质量最低的实例分配给下一位标注员。这种情况下,由于各标注员大多具有不熟悉的概念,可能会造成向不熟悉概念的标注员推荐不合适的待标注实例,从而造成标注质量差。

技术实现思路

[0003]本申请实施例的目的是提供一种任务推荐方法、装置、分类系统及可读存储介质,以解决现有任务推荐方法造成的标注质量差的问题。
[0004]为了解决上述技术问题,本申请是这样实现的:
[0005]第一方面,提供了一种任务推荐方法,包括:
[0006]获取每位标注员在多个叶子概念中的每个叶子概念上的标注水平分数值;
[0007]根据获取的所述标注水平分数值,计算所述每位标注员对应的混淆矩阵;其中,所述混淆矩阵中的每一项表示当对应标注员所标注的实例的真实概念为第一概念的情况下,所述实例被标注为第二概念的概率;
[0008]根据所述每位标注员对应的混淆矩阵,计算多个待标注实例中的每个所述待标注实例被标注为各个叶子概念的后验概率;
[0009]根据每个所述待标注实例被标注为各个叶子概念的后验概率,从所述多个待标注实例中选取目标待标注实例,并将所述目标待标注实例推荐给目标标注员进行标注。
[0010]可选的,所述获取每位标注员在多个叶子概念中的每个叶子概念上的标注水平分数值,包括:
[0011]对于所述多个叶子概念中的已标注概念,根据所述已标注概念下的实例的标注准确率,计算对应标注员在所述已标注概念上的标注水平分数值;
[0012]对于所述多个叶子概念中的未标注概念,根据图高斯过程,使用核矩阵估计所述每位标注员在每个所述未标注概念上的标注水平分数值;其中,所述核矩阵是利用第一矩阵转化得到,所述第一矩阵中的每一项表示对应的两个叶子概念之间的距离。
[0013]可选的,所述根据所述每位标注员对应的混淆矩阵,计算多个待标注实例中的每个所述待标注实例被标注为各个叶子概念的后验概率,包括:
[0014]根据每个所述待标注实例已被标注的叶子概念和对应标注员的混淆矩阵,采用贝叶斯公式计算每个所述待标注实例被标注为各个叶子概念的后验概率。
[0015]可选的,所述根据每个所述待标注实例被标注为各个叶子概念的后验概率,从所
述多个待标注实例中选取目标待标注实例,包括:
[0016]计算每个所述待标注实例被标注为各个叶子概念的后验概率的熵;
[0017]从所述多个待标注实例中选取熵最大的预设百分比的待标注实例,得到多个第一待标注实例;
[0018]根据所述目标标注员在各个叶子概念上的标注水平分数值,从所述多个第一待标注实例中选取所述目标待标注实例。
[0019]可选的,所述根据所述目标标注员在各个叶子概念上的标注水平分数值,从所述多个第一待标注实例中选取所述目标待标注实例,包括:
[0020]计算所述目标标注员对应的第一向量与所述多个第一待标注实例中的每个第一待标注实例对应的第二向量的内积,获得多个内积值;其中,所述第一向量是由所述目标标注员在各个叶子概念上的标注水平分数值构成的向量,所述第二向量是由每个第一待标注实例被标注为各个叶子概念的后验概率构成的向量;
[0021]选取所述多个内积值中的最大内积值对应的第一待标注实例作为所述目标待标注实例。
[0022]可选的,所述方法还包括:
[0023]根据所述目标待标注实例被标注为各个叶子概念的后验概率,计算整个分类系统中各个概念的后验概率;
[0024]根据所述各个概念的后验概率,展示后验概率超过预设阈值的且在分类系统树中最低的概念。
[0025]第二方面,提供了一种任务推荐装置,包括:
[0026]获取模块,用于获取每位标注员在多个叶子概念中的每个叶子概念上的标注水平分数值;
[0027]第一计算模块,用于根据获取的所述标注水平分数值,计算所述每位标注员对应的混淆矩阵;其中,所述混淆矩阵中的每一项表示当对应标注员所标注的实例的真实概念为第一概念的情况下,所述实例被标注为第二概念的概率;
[0028]第二计算模块,用于根据所述每位标注员对应的混淆矩阵,计算多个待标注实例中的每个所述待标注实例被标注为各个叶子概念的后验概率;
[0029]推荐模块,用于根据每个所述待标注实例被标注为各个叶子概念的后验概率,从所述多个待标注实例中选取目标待标注实例,并将所述目标待标注实例推荐给目标标注员进行标注。
[0030]可选的,所述获取模块包括:
[0031]第一计算单元,用于对于所述多个叶子概念中的已标注概念,根据所述已标注概念下的实例的标注准确率,计算对应标注员在所述已标注概念上的标注水平分数值;
[0032]估计单元,用于对于所述多个叶子概念中的未标注概念,根据图高斯过程,使用核矩阵估计所述每位标注员在每个所述未标注概念上的标注水平分数值;其中,所述核矩阵是对第一矩阵转化得到,所述第一矩阵中的每一项表示对应的两个叶子概念之间的距离。
[0033]可选的,所述第二计算模块具体用于:根据每个所述待标注实例已被标注的叶子概念和对应标注员的混淆矩阵,采用贝叶斯公式计算每个所述待标注实例被标注为各个叶子概念的后验概率。
[0034]可选的,所述推荐模块包括:
[0035]第二计算单元,用于计算每个所述待标注实例被标注为各个叶子概念的后验概率的熵;
[0036]第一选取单元,用于从所述多个待标注实例中选取熵最大的预设百分比的待标注实例,得到多个第一待标注实例;
[0037]第二选取单元,用于根据所述目标标注员在各个叶子概念上的标注水平分数值,从所述多个第一待标注实例中选取所述目标待标注实例。
[0038]可选的,所述第二选取单元具体用于:计算所述目标标注员对应的第一向量与所述多个第一待标注实例中的每个第一待标注实例对应的第二向量的内积,获得多个内积值;其中,所述第一向量是由所述目标标注员在各个叶子概念上的标注水平分数值构成的向量,所述第二向量是由每个第一待标注实例被标注为各个叶子概念的后验概率构成的向量;选取所述多个内积值中的最大内积值对应的第一待标注实例作为所述目标待标注实例。
[0039]可选的,任务推荐装置还包括:
[0040]第三计算模块,用于根据所述目标待标注实例被标注为各个叶子概念的后验概率,计算整个分类系统中各个概念的后验概率;
[0041]展示模块,用于根据所述各个概念的后验概率,展示后验概率超过预设阈值的且在分类系统树中最低的概念。
[0042]第三方面,提供了本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种任务推荐方法,其特征在于,包括:获取每位标注员在多个叶子概念中的每个叶子概念上的标注水平分数值;根据获取的所述标注水平分数值,计算所述每位标注员对应的混淆矩阵;其中,所述混淆矩阵中的每一项表示当对应标注员所标注的实例的真实概念为第一概念的情况下,所述实例被标注为第二概念的概率;根据所述每位标注员对应的混淆矩阵,计算多个待标注实例中的每个所述待标注实例被标注为各个叶子概念的后验概率;根据每个所述待标注实例被标注为各个叶子概念的后验概率,从所述多个待标注实例中选取目标待标注实例,并将所述目标待标注实例推荐给目标标注员进行标注。2.根据权利要求1所述的方法,其特征在于,所述获取每位标注员在多个叶子概念中的每个叶子概念上的标注水平分数值,包括:对于所述多个叶子概念中的已标注概念,根据所述已标注概念下的实例的标注准确率,计算对应标注员在所述已标注概念上的标注水平分数值;对于所述多个叶子概念中的未标注概念,根据图高斯过程,使用核矩阵估计所述每位标注员在每个所述未标注概念上的标注水平分数值;其中,所述核矩阵是利用第一矩阵转化得到,所述第一矩阵中的每一项表示对应的两个叶子概念之间的距离。3.根据权利要求1所述的方法,其特征在于,所述根据所述每位标注员对应的混淆矩阵,计算多个待标注实例中的每个所述待标注实例被标注为各个叶子概念的后验概率,包括:根据每个所述待标注实例已被标注的叶子概念和对应标注员的混淆矩阵,采用贝叶斯公式计算每个所述待标注实例被标注为各个叶子概念的后验概率。4.根据权利要求1所述的方法,其特征在于,所述根据每个所述待标注实例被标注为各个叶子概念的后验概率,从所述多个待标注实例中选取目标待标注实例,包括:计算每个所述待标注实例被标注为各个叶子概念的后验概率的熵;从所述多个待标注实例中选取熵最大的预设百分比的待标注实例,得到多个第一待标注实例;根据所述目标标注员在各个叶子概念上的标注水平分数值,从所述多个第一待标注实例中选取所述目标待标注实例。5.根据权利要求4所述的方法,其特征在于,所述根据所述目标标注员在各个叶子概念上的标注水平分数值,从所述多个第一待标注实例中选取所述目标待标注实例,包括:计算所述目标标注员对应的第一向量与所述多个第一待标注实例中的每个第一待标注实例对应的第二向量的内积,获得多个内积值;其中,所述第一向量是由所述目标标注员在各个叶子概念上的标注水平分数值构成的向量,所述第二向量是由每个第一待标注实例被标注为各个叶子概念的后验概率构成的向量;选取所述多个内积值中的最大内积值对应的第一待标注实例作为所述目标待标注实例。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据所述目标待标注实例被标注为各个叶子概念的后验概率,计算整个分类系统中各个概念的后验概率;
根据所述各个概念的后验概率,展示后验概率超过预设阈值的且在分类系统树中最低的概念。7.一种任务推荐装置,其特征在于,包括:获取模块,用于获取每位标注员在多个叶子概念中的每个叶子概念上的标注水平分数值...

【专利技术属性】
技术研发人员:黄毅王禹权于济凡李涓子冯俊兰侯磊
申请(专利权)人:清华大学中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1