多智能体协作的标注方法技术

技术编号:30053023 阅读:21 留言:0更新日期:2021-09-15 10:56
本发明专利技术提供了一种多智能体协作的标注方法,通过主动学习样本点之间的相似性的过程,挑选适合专家和业余者标注的数据点,实现给定成本下最大化标注精度的目的,所述标注方法包括:通过聚类发现样本点初始关系;专家对每个聚类的中心点进行标签标注;业余者比较每个聚类中离中心点最近的点与中心点是否为同一类;用已标注样本训练度量学习模型,重新计算各样本点之间的距离;用相应的专家数据选择策略和业余者选择策略选择标注数据。业余者选择策略选择标注数据。

【技术实现步骤摘要】
多智能体协作的标注方法


[0001]本专利技术涉及机器学习模型推理、人机交互、主动学习领域,特别涉及一种多智能体协作的标注方法。

技术介绍

[0002]为机器学习算法训练提供高质量的标注数据服务成为了决定人工智能应用高度的重要条件之一。然而,由于数据标注行业存在门槛较低、服务质量参差不齐等问题,需求方在选择数据服务时往往会遇到数据质量、服务效率、数据安全、管理能力、服务能力等痛点,这些痛点已成为阻碍行业发展的核心问题。随着人工智能应用场景的多样化,标注任务的门槛将逐渐提高,呈现专业化趋势,即,除了一般较为简单、可以通过培训掌握的标注,还有一些需要专业背景的标注,例如鸟类标注、车辆标注、植物标注等。此时,领域专家稀少,将数据集全部由专家标注成本很高。普通标注员虽然价格低廉,但是没有专业背景,无法直接进行标签标注。所以结合少量专家和大量业余者进行专业化数据标注将是未来数据标注行业面临的挑战。
[0003]现有的方法集中在自动标注、小样本学习、主动学习、众包学习等方面。但是现有方法仍存在如下局限性:
[0004]1.自动标注方法无法在没有训练数据的情况下启动、效果依赖于训练数据,移植性和通用性较差;
[0005]2.小样本学习方法假设一开始有少量标记数据,面对大量未标注数据样本,难以确定需标注的初始数据;
[0006]3.常规主动学习场景下依赖于对专家的问询,没有考虑人力成本;
[0007]4.现有的众包工作主要采用单一的标注方式,侧重于任务分配、标注结果融合,忽略了专家、业余者和机器学习模型的能力差异和成本差异,缺少让三方有效,低成本协作的方式。

技术实现思路

[0008]有鉴于此,本专利技术的主要目的在于提供一种多智能体协作的标注方法,以期部分地解决上述技术问题中的至少之一。
[0009]为了实现上述目的,作为本专利技术的一方面,提供了一种多智能体协作的标注方法,通过主动学习样本点之间的相似性的过程,挑选适合专家和业余者标注的数据点,实现给定成本下最大化标注精度的目的,所述标注方法包括:
[0010]通过聚类发现样本点初始关系;
[0011]专家对每个聚类的中心点进行标签标注;
[0012]业余者比较每个聚类中离中心点最近的点与中心点是否为同一类;
[0013]用已标注样本训练度量学习模型,重新计算各样本点之间的距离;
[0014]用相应的专家数据选择策略和业余者选择策略选择标注数据。
[0015]其中,所述样本点初始关系指样本点之间的相似性,即聚类方法将相似样本点划分到同一个聚类中,将不相似的样本点划分到不同聚类中。
[0016]其中,所述聚类采用Kmeans方法。
[0017]其中,所述专家对每个聚类的中心点进行标签标注的步骤还包括:记录已发现的类别以及所花费用。
[0018]其中,所述业余者比较每个聚类中离中心点最近的点与中心点是否为同一类的步骤还包括:判定为同一类的样本打上相同标签,判定为不同类的样本记录每个样本已排除的类别。
[0019]其中,所述度量学习模型学习一种距离衡量方法,得到的距离使得训练集中不同类别的图片相似度小而相同类别的图片相似度大。
[0020]其中,所述度量学习模型采用适应聚类算法的度量学习算法LMNN。
[0021]其中,所述用相应的专家数据选择策略和业余者选择策略选择标注数据的步骤中的数据选择策略与标注过程及标注者身份有关;标注按类别是否发现完全分为两个阶段,针对专家的数据选择策略在这两个阶段是不同的,针对业余者的数据选择策略在这两个阶段是相同的。
[0022]其中,若类别没有发现完全,对于未标注样本点,筛除最高置信度小于门槛值的点,在剩余的点上随机选择专家数目的点给专家标注;若类别已发现完全,则在非均匀数据集上,采取随机选择的方式选择样本点给专家标注,在均匀数据集上,优先选择在已标注样本数最少,类内方差最大的类别上具有最大置信度的点给专家标注。
[0023]其中,对于业余者,无论类别是否发现完全,选择在已标注样本数最少,类内方差最小的类别上具有最大置信度的点给业余者标注。
[0024]基于上述技术方案可知,本专利技术的多智能体协作的标注方法相对于现有技术至少具有如下有益效果的一部分:
[0025]针对领域专家少,业余者多的需要专业知识进行数据单分类的标注场景,设计一套基于多智能体(包含领域专家、业余者、机器学习模型)交互的数据标注机制,进行图片数据集单分类标注,以达到给定成本下最大化标注精度的目的。
附图说明
[0026]图1为本专利技术实施例提供的多智能体协作的标注方法流程示意图。
[0027]图2为本专利技术的操作流程图。
具体实施方式
[0028]本专利技术方法的创新点在于以下几点:(1)第一个结合了专家和业余者的众包标注系统;(2)我们的系统从头开始标注数据集,不需要任何预先标注任何数据;(3)由于度量学习的特性,我们的系统可以标注不同的目标数据集,并且保持节约成本的特性。
[0029]为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术作进一步的详细说明。
[0030]如图1所示,本专利技术实施方式提供一种多智能体协作标注方法,通过学习样本点之间的相似性,主动学习过程,挑选适合专家和业余者标注的数据点,实现给定成本下最大化
标注精度的目的,方法包括:
[0031]通过聚类发现样本点初始关系;
[0032]专家对每个聚类的中心点进行标签标注;
[0033]业余者比较每个聚类中离中心点最近的点与中心点是否为同一类;
[0034]用已标注样本训练度量学习模型,重新计算各样本点之间的距离;
[0035]用相应的专家数据选择策略和业余者选择策略选择标注数据。
[0036]上述方法中,样本点初始关系指样本点之间的相似性,即聚类方法将相似样本点划分到同一个聚类中,将不相似的样本点划分到不同聚类中。
[0037]上述方法第二步骤和第三步骤为专家和业余者的标注方式,专家的标注方式是直接给出标签,而业余者的标注方式是进行点对比较,判断两个样本点是否属于同一类别。
[0038]上述方法中,度量学习模型学习一种距离衡量方法,该距离使得训练集中,不同类别的图片相似度小而相同类别的图片相似度大。
[0039]上述方法中的数据选择策略与标注过程及标注者身份(专家、业余者)有关。标注按类别是否发现完全分为两个阶段,针对专家的数据选择策略在这两个阶段是不同的,针对业余者的数据选择策略在这两个阶段是相同的。
[0040]本专利技术的方法,通过在原本孤立的异构模型的输出空间构建映射关系并融合多源、多域的知识,实现异构模型的自适应协作以提高在受限资源下获得的标签精度和范围。由于利用了异构模型的协作,本专利技术具有在受限计算资源下获得高精度、广范围输出标签的优点,适用于云端大规模数据分析、物联网边缘数据实时分析,端设备低功本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多智能体协作的标注方法,其特征在于,通过主动学习样本点之间的相似性的过程,挑选适合专家和业余者标注的数据点,实现给定成本下最大化标注精度的目的,所述标注方法包括:通过聚类发现样本点初始关系;专家对每个聚类的中心点进行标签标注;业余者比较每个聚类中离中心点最近的点与中心点是否为同一类;用已标注样本训练度量学习模型,重新计算各样本点之间的距离;用相应的专家数据选择策略和业余者选择策略选择标注数据。2.根据权利要求1所述的标注方法,其特征在于,所述样本点初始关系指样本点之间的相似性,即聚类方法将相似样本点划分到同一个聚类中,将不相似的样本点划分到不同聚类中。3.根据权利要求1所述的标注方法,其特征在于,所述聚类采用Kmeans方法。4.根据权利要求1所述的标注方法,其特征在于,所述专家对每个聚类的中心点进行标签标注的步骤还包括:记录已发现的类别以及所花费用。5.根据权利要求1所述的标注方法,其特征在于,所述业余者比较每个聚类中离中心点最近的点与中心点是否为同一类的步骤还包括:判定为同一类的样本打上相同标签,判定为不同类的样本记录每个样本已排除的类别。6.根据权利要求1所述的标注方法,...

【专利技术属性】
技术研发人员:张兰雷佳谕李向阳张正
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1