多智能体协作的标注方法技术

技术编号：30053023 阅读：21 留言：0更新日期：2021-09-15 10:56

本发明专利技术提供了一种多智能体协作的标注方法，通过主动学习样本点之间的相似性的过程，挑选适合专家和业余者标注的数据点，实现给定成本下最大化标注精度的目的，所述标注方法包括：通过聚类发现样本点初始关系；专家对每个聚类的中心点进行标签标注；业余者比较每个聚类中离中心点最近的点与中心点是否为同一类；用已标注样本训练度量学习模型，重新计算各样本点之间的距离；用相应的专家数据选择策略和业余者选择策略选择标注数据。业余者选择策略选择标注数据。

全部详细技术资料下载

【技术实现步骤摘要】
多智能体协作的标注方法

[0001]本专利技术涉及机器学习模型推理、人机交互、主动学习领域，特别涉及一种多智能体协作的标注方法。

技术介绍

[0002]为机器学习算法训练提供高质量的标注数据服务成为了决定人工智能应用高度的重要条件之一。然而，由于数据标注行业存在门槛较低、服务质量参差不齐等问题，需求方在选择数据服务时往往会遇到数据质量、服务效率、数据安全、管理能力、服务能力等痛点，这些痛点已成为阻碍行业发展的核心问题。随着人工智能应用场景的多样化，标注任务的门槛将逐渐提高，呈现专业化趋势，即，除了一般较为简单、可以通过培训掌握的标注，还有一些需要专业背景的标注，例如鸟类标注、车辆标注、植物标注等。此时，领域专家稀少，将数据集全部由专家标注成本很高。普通标注员虽然价格低廉，但是没有专业背景，无法直接进行标签标注。所以结合少量专家和大量业余者进行专业化数据标注将是未来数据标注行业面临的挑战。
[0003]现有的方法集中在自动标注、小样本学习、主动学习、众包学习等方面。但是现有方法仍存在如下局限性：
[0004]1.自动标注方法无法在没有训练数据的情况下启动、效果依赖于训练数据，移植性和通用性较差；
[0005]2.小样本学习方法假设一开始有少量标记数据，面对大量未标注数据样本，难以确定需标注的初始数据；
[0006]3.常规主动学习场景下依赖于对专家的问询，没有考虑人力成本；
[0007]4.现有的众包工作主要采用单一的标注方式，侧重于任务分配、标注结果融合，忽略了专家、业余者和机...

【技术保护点】

【技术特征摘要】
1.一种多智能体协作的标注方法，其特征在于，通过主动学习样本点之间的相似性的过程，挑选适合专家和业余者标注的数据点，实现给定成本下最大化标注精度的目的，所述标注方法包括：通过聚类发现样本点初始关系；专家对每个聚类的中心点进行标签标注；业余者比较每个聚类中离中心点最近的点与中心点是否为同一类；用已标注样本训练度量学习模型，重新计算各样本点之间的距离；用相应的专家数据选择策略和业余者选择策略选择标注数据。2.根据权利要求1所述的标注方法，其特征在于，所述样本点初始关系指样本点之间的相似性，即聚类方法将相似样本点划分到同一个聚类中，将不相似的样本点划分到不同聚类中。3.根据权利要求1所述的标注方法，其特征在于，所述聚类采用Kmeans方法。4.根据权利要求1所述的标注方法，其特征在于，所述专家对每个聚类的中心点进行标签标注的步骤还包括：记录已发现的类别以及所花费用。5.根据权利要求1所述的标注方法，其特征在于，所述业余者比较每个聚类中离中心点最近的点与中心点是否为同一类的步骤还包括：判定为同一类的样本打上相同标签，判定为不同类的样本记录每个样本已排除的类别。6.根据权利要求1所述的标注方法，...

【专利技术属性】
技术研发人员：张兰，雷佳谕，李向阳，张正，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人