一种模糊信息的可重复标注方法、系统及装置制造方法及图纸

技术编号:37057957 阅读:18 留言:0更新日期:2023-03-29 19:34
本发明专利技术公开了一种模糊信息的可重复标注方法系统及装置,该方法包括:获取标注任务并确定标注模式、待标注样本和标注主体;基于标注模式,标注主体对待标注样本进行标注,得到对应的模糊隶属度将多个标注主体对应的模糊隶属度进行整合,得到初始模糊隶属度张量;预估模糊隶属度分布和标注主体偏好并对初始模糊隶属度张量进行校正,得到最终模糊隶属度矩阵。该系统包括:获取模块、标注模块、整合模块和校正模块。该装置包括存储器以及用于执行上述模糊信息的可重复标注方法的处理器。通过使用本发明专利技术,能够从重复的模糊信息的标注中校正模糊标注数据,降低缺失数据对标注质量的影响。本发明专利技术可广泛应用于数据信息标注领域。本发明专利技术可广泛应用于数据信息标注领域。本发明专利技术可广泛应用于数据信息标注领域。

【技术实现步骤摘要】
一种模糊信息的可重复标注方法、系统及装置


[0001]本专利技术涉及信息标注领域,尤其涉及一种模糊信息的可重复标注方法、系统及装置。

技术介绍

[0002]目前,模糊信息众包标注工作一般涉及以下几个问题:1、单个样本可由多个标注人员重复标注模糊信息,样本的标注结果无法统一标准;2、同批待标注样本的涉及的标注人员众多,且存在个人标注偏好差异和标注知识差异问题,所以样本间的标注标准很难做到一致;基于以上原因,从而产生了大量的带不同偏好信息和缺失信息的异源无约束模糊信息的可重复标注数据,迫切需要一种模糊数据处理方法能从重复的模糊信息标注中校正模糊标注,同时降低模糊信息中部分数据缺失的影响。

技术实现思路

[0003]为了解决上述技术问题,本专利技术的目的是提供一种模糊信息的可重复标注方法、系统及装置,能够从重复的模糊信息的标注中校正模糊标注数据,降低缺失数据对标注质量的影响。
[0004]本专利技术所采用的第一技术方案是:一种模糊信息的可重复标注方法,包括以下步骤:
[0005]获取标注任务并确定标注模式、待标注样本和标注主体;
[0006]基于标注模式,标注主体对待标注样本进行标注,得到对应的模糊隶属度;
[0007]将多个标注主体对应的模糊隶属度进行整合,得到初始模糊隶属度张量;
[0008]预估模糊隶属度分布和标注主体偏好并对初始模糊隶属度张量进行校正,得到最终模糊隶属度矩阵。
[0009]进一步,所述待标注样本为可重复标注样本,所述标注主体为不同偏好的标注专家,所述模糊隶属度的标注约束条件为无约束标注条件。
[0010]进一步,所述将多个标注主体对应的模糊隶属度进行整合,得到初始模糊隶属度张量这一步骤,其具体包括:
[0011]根据多个标注专家对应的模糊隶属度构建不同标注专家的模糊隶属度矩阵;
[0012]汇总所有标注专家的模糊隶属度矩阵,组成初始模糊隶属度张量。
[0013]进一步,所述预估模糊隶属度分布和标注主体偏好并对初始模糊隶属度张量进行校正,得到最终模糊隶属度矩阵这一步骤,其具体包括:
[0014]基于大数定律,预估待标注样本和模糊隶属度服从正态分布函数,得到模糊隶属度分布函数;
[0015]根据初始模糊隶属度张量获取模糊隶属度最大值和最小值;
[0016]根据模糊隶属度最大值和最小值预估标注专家的偏好系数,得到专家偏好系数预估值;
[0017]根据模糊隶属度分布函数和专家偏好系数预估值校正模糊隶属度张量,得到最终模糊隶属度矩阵。
[0018]进一步,所述模糊隶属度服从正态分布,公式表示如下:
[0019][0020]进一步,所述根据模糊隶属度分布函数和专家偏好系数预估值校正模糊隶属度张量,得到最终模糊隶属度矩阵这一步骤,其具体包括:
[0021]根据模糊隶属度分布函数确定分布区间;
[0022]计算专家偏好系数预估值的平均值;
[0023]将专家偏好系数预估值的平均值与分布区间结合,得到校正数据;
[0024]根据校正数据校正模糊隶属度张量,得到最终模糊隶属度矩阵。
[0025]本专利技术所采用的第二技术方案是:一种模糊信息的可重复标注系统,包括:
[0026]获取模块,用于获取标注任务并确定标注模式、待标注样本和标注主体;
[0027]标注模块,基于标注模式,标注主体对待标注样本进行标注,得到对应的模糊隶属度;
[0028]整合模块,用于将多个标注主体对应的模糊隶属度进行整合,得到初始模糊隶属度张量;
[0029]校正模块,用于预估模糊隶属度分布和标注主体偏好并对初始模糊隶属度张量进行校正,得到最终模糊隶属度矩阵。
[0030]本专利技术所采用的第三技术方案是:一种模糊信息的可重复标注装置,包括:
[0031]至少一个处理器;
[0032]至少一个存储器,用于存储至少一个程序;
[0033]当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如上所述一种模糊信息的可重复标注方法。
[0034]本专利技术方法、系统及装置的有益效果是:本专利技术通过设计一种模糊信息异源无约束的可重复标注方法、建立模糊隶属度标注张量,根据模糊信息标注数据估算模糊隶属度分布,以及估算不同标注主体的偏好信息,从异源无约束的可重复标签中校正模糊标签,从而达到从重复的模糊信息的标注中校正模糊标签和降低缺失数据对标注质量的影响的目标。
附图说明
[0035]图1是本专利技术一种模糊信息的可重复标注方法的步骤流程图;
[0036]图2是本专利技术一种模糊信息的可重复标注系统的结构框图;
[0037]图3是本专利技术具体实施例应用场景中标注过程示意图。
[0038]图4是本专利技术具体实施例应用场景中校正过程示意图。
具体实施方式
[0039]下面结合附图和具体实施例对本专利技术做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
[0040]参照图1、图3和图4,本专利技术提供了一种模糊信息的可重复标注方法,该方法包括以下步骤:
[0041]S1、获取标注任务并确定标注模式、待标注样本和标注主体;
[0042]具体地,所述待标注样本为可重复标注样本,所述标注主体为不同偏好的标注专家,所述待模糊隶属度的标注约束条件为无约束标注条件。用偏好系数ρ表示专家偏好,ρ
r
(r=1,2,3...R)表示第r个专家偏好,专家偏好系数越高,表明当样本与标注模式关系大时,专家标注的模糊隶属度越偏高,表明当样本与标注模式关系小时,专家标注的模糊隶属度越偏低。
[0043]标注服务需求方一般会提供一个标注标准(标注模式)给标注专家,用于标注待标注样本。
[0044]X={x1,x2,...,x
n
}为待标注样本的集合,样本x
j
表示X中的第j个样本,表示样本x
j
(j=1,2,...,n)关于标注模式的模糊隶属度。如果则称样本x
j
关于标注模式的模糊隶属度满足强约束(对应的标注约束条件称为强约束标注条件),否则称满足弱约束(对应的标注约束条件称为弱约束标注条件)。如果模糊隶属度无需满足强约束或弱约束,则称其满足无约束(对应的标注约束条件为无约束标注条件)。
[0045]当第r个专家标注部分样本后,样本x
j
(j=1,2,...,n)关于标注模式的模糊隶属度构成了下式的模糊隶属度矩阵其中表示第r个专家标注的样本x
j
关于标注模式的模糊隶属度包含了第r个专家偏好系数ρ
r
和标注模式的信息。
[0046][0047]汇总R个专家的模糊隶属度矩阵组成c
×
n
×
R维的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模糊信息的可重复标注方法,其特征在于,包括以下步骤:获取标注任务并确定标注模式、待标注样本和标注主体;基于标注模式,标注主体对待标注样本进行标注,得到对应的模糊隶属度;将多个标注主体对应的模糊隶属度进行整合,得到初始模糊隶属度张量;预估模糊隶属度分布和标注主体偏好并对初始模糊隶属度张量进行校正,得到最终模糊隶属度矩阵。2.根据权利要求1所述一种模糊信息的可重复标注方法,其特征在于,所述待标注样本为可重复标注样本,所述标注主体为不同偏好的标注专家,所述模糊隶属度的标注约束条件为无约束标注条件。3.根据权利要求2所述一种模糊信息的可重复标注方法,其特征在于,所述将多个标注主体对应的模糊隶属度进行整合,得到初始模糊隶属度张量这一步骤,其具体包括:根据多个标注专家对应的模糊隶属度构建不同标注专家的模糊隶属度矩阵;汇总所有标注专家的模糊隶属度矩阵,组成初始模糊隶属度张量。4.根据权利要求3所述一种模糊信息的可重复标注方法,其特征在于,所述预估模糊隶属度分布和标注主体偏好并对初始模糊隶属度张量进行校正,得到最终模糊隶属度矩阵这一步骤,其具体包括:基于大数定律,预估待标注样本和模糊隶属度服从正态分布函数,得到模糊隶属度分布函数;根据初始模糊隶属度张量获取模糊隶属度最大值和最小值;根据模糊隶属度最大值和最小值预估标注专家的偏好系数,得到专家偏好系数预估值;根据模糊隶属度分布函...

【专利技术属性】
技术研发人员:王振友朱元浩徐圣兵肖云浩
申请(专利权)人:广东工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1