一种流水线式的数据标注方法技术

技术编号:34290469 阅读:32 留言:0更新日期:2022-07-27 09:21
本发明专利技术提供了一种流水线式的数据标注方法,旨在解决现有技术中对于复杂的标注任务进行标注时,存在标注效率低的问题。一种流水线式的数据标注方法,包括:S100、获取待标注数据,并确定标注方案;S200、将标注方案中的整体标注任务拆分成若干个标注子任务;S300、对于每个标注子任务,根据预设的标注模式,选择进入预设的标注模式;S400、对流转至AI预审核步骤的预标注结果数据进行AI预审核;S500、将所有标注子任务中通过审核的数据进行合并形成最终的标注结果并输出。本发明专利技术通过将整体标注任务拆解成若干个标注子任务,能够显著降低整体标注任务的复杂性,使其转化为简单的标注子任务,便于人工和AI进行学习和识别,能够提升数据标注的效率和质量。数据标注的效率和质量。数据标注的效率和质量。

【技术实现步骤摘要】
一种流水线式的数据标注方法


[0001]本专利技术属于数据处理
,具体涉及一种流水线式的数据标注方法。

技术介绍

[0002]随着大数据时代的来临,众多行业的数据量成几何级数的增长。为了更好的对海量数据进行利用,通常需要对数据进行标注,以便使数据可以更好的服务于生产、经营、生活等各种活动。目前,在对数据进行标注时,往往采用人工标注的方式,由于个人知识能力有限,很难完成标注各种各样的数据的任务,尤其在对于复杂的标注任务进行标注时,通常会存在标注效率低的问题。

技术实现思路

[0003]本专利技术提供了一种流水线式的数据标注方法,旨在解决现有技术中对于复杂的标注任务进行标注时,存在标注效率低的问题。
[0004]为了解决上述技术问题,本专利技术所采用的技术方案为:
[0005]一种流水线式的数据标注方法,包括:
[0006]S100、获取待标注数据,并确定标注方案;
[0007]S200、将标注方案中的整体标注任务拆分成若干个标注子任务;
[0008]S300、对于每个标注子任务,根据预设的标注模式,选择进入预设的标注模式;若标注模式为全标注,则将标注子任务中的所有待标注数据流转至人工标注;
[0009]若标注模式为抽取标注,则将标注子任务中的所有待标注数据流转至AI预标注步骤,得到AI预标注结果以及AI预标注结果置信度;根据AI预标注结果置信度判断每条AI预标注结果是否满足直接进入AI预审核步骤的条件,若是,则直接进入AI预审核步骤;若否,则流转至人工标注;
[0010]经过人工标注后得到的人工标注数据流转至AI预审核步骤;
[0011]S400、对流转至AI预审核步骤的预标注结果数据进行AI预审核,得到AI预审核数据以及AI预审核数据置信度;所述预标注结果数据包括人工标注数据和判断为满足直接进入AI预审核步骤的条件的AI预标注结果;所述AI预审核数据包括审核为错误的预标注结果数据和审核为正确的预标注结果数据;对于审核为错误的预标注结果数据则流转至人工审核;
[0012]对于审核为正确的预标注结果数据则根据预设的审核模式,选择进入预设的审核模式;若审核模式为全审核模式,则将所有审核为正确的预标注结果数据流转至人工审核;若审核模式为抽取审核,则根据AI预审核数据置信度的高低,从低到高对审核为正确的预标注结果数据进行排序,并抽取一定比例排序靠前的审核为正确的预标注结果数据流转至人工审核,对于排序靠后的审核为正确的预标注结果数据则直接通过审核;
[0013]经过人工审核后判断为错误的预标注结果数据,则打回至步骤S300中的人工标注,判断为正确的预标注结果数据则通过审核;
[0014]S500、将所有标注子任务中通过审核的数据进行合并形成最终的标注结果并输出。
[0015]进一步的方案:在AI预标注步骤中,采用AI预标注模型对标注子任务中的所有待标注数据进行预标注。
[0016]进一步的方案:所述AI预标注模型包括AI预标注模型一、AI预标注模型二和AI预标注模型三;所述AI预标注步骤包括:
[0017]将标注子任务中的所有待标注数据分别流转至AI预标注模型一和AI预标注模型二,通过AI预标注模型一得到AI预标注数据一和AI预标注数据置信度一,通过AI预标注模型二得到AI预标注数据二和AI预标注数据置信度二;
[0018]在步骤S300中,根据AI预标注结果置信度判断每条AI预标注结果是否满足直接进入AI预审核步骤的条件包括:将AI预标注数据置信度一以及AI预标注数据置信度二分别与第一阈值相比较;
[0019]若AI预标注数据置信度一以及AI预标注数据置信度二均小于第一阈值,则将标注子任务中的该条待标注数据流转至人工标注;
[0020]若AI预标注数据置信度一大于或等于第一阈值且AI预标注数据置信度二小于第一阈值,则将AI预标注数据一作为预标注结果数据,并流转至AI预审核步骤;
[0021]若AI预标注数据置信度二大于或等于第一阈值且AI预标注数据置信度一小于第一阈值,则将AI预标注数据二作为预标注结果数据,并流转至AI预审核步骤;
[0022]若AI预标注数据置信度一以及AI预标注数据置信度二均大于或等于第一阈值,则判断AI预标注数据一与AI预标注数据二是否相同,若相同,则将AI预标注数据一作为预标注结果数据,并流转至AI预审核步骤;若不相同,则引入AI预标注模型三,通过AI预标注模型三得到AI预标注数据三和AI预标注数据置信度三,将AI预标注数据置信度三与第一阈值相比较,若AI预标注数据置信度三大于或等于第一阈值,则判断AI预标注数据三是否与AI预标注数据一或AI预标注数据二相同,若AI预标注数据三与AI预标注数据一相同,则将AI预标注数据一作为预标注结果数据,并流转至AI预审核步骤;若AI预标注数据三与AI预标注数据二相同,则将AI预标注数据二作为预标注结果数据,并流转至AI预审核步骤;若AI预标注数据三与AI预标注数据一和AI预标注数据二均不相同,则将标注子任务中的该条待标注数据流转至人工标注;若AI预标注数据置信度三小于第一阈值,则将标注子任务中的该条待标注数据流转至人工标注;
[0023]经过人工标注后得到的人工标注数据流转至AI预审核步骤。
[0024]基于上述技术方案:通过将待标注数据分别流转至多个AI预标注模型,使得输出的AI预标注结果不依赖于一个AI预标注模型的结果,而是综合多个AI预标注模型得出预标注结果数据,其预标注结果数据置信度高,并且准确率高;此外,综合多个AI预标注模型得出预标注结果数据,不会因为单个AI预标注模型的偏差,导致预标注结果出现批量错误。
[0025]进一步的方案:AI预标注数据置信度一=AI预标注模型一原置信度*AI预标注模型一准确率;AI预标注数据置信度二=AI预标注模型二原置信度*AI预标注模型二准确率;AI预标注数据置信度三=AI预标注模型三原置信度*AI预标注模型三准确率。
[0026]基于上述技术方案:在综合多个AI预标注模型得出AI预标注结果时,将AI预标注模型准确率作为加权系数能够增加准确率高的AI预标注模型的权重,使得综合得出的AI预
标注结果更准确。
[0027]进一步的方案:所述AI预标注模型包括AI预标注模型一和AI预标注模型二;所述AI预标注步骤包括:
[0028]将标注子任务中的所有待标注数据分别流转至AI预标注模型一和AI预标注模型二,通过AI预标注模型一得到若干个预测标注数据和若干个预测标注数据置信度,通过AI预标注模型二得到若干个预测标注数据和若干个预测标注数据置信度;
[0029]对每个预测标注数据在AI预标注模型一得到的预测标注数据置信度和AI预标注模型二得到的预测标注数据置信度求均值,并将预测标注数据置信度最高的预测标注数据作为预标注结果数据,并流转至AI预审核步骤。
[0030]基于上述技术方案:使用AI代替人工标注,能够提高标注的效率;并且通过本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种流水线式的数据标注方法,其特征在于,包括:S100、获取待标注数据,并确定标注方案;S200、将标注方案中的整体标注任务拆分成若干个标注子任务;S300、对于每个标注子任务,根据预设的标注模式,选择进入预设的标注模式;若标注模式为全标注,则将标注子任务中的所有待标注数据流转至人工标注;若标注模式为抽取标注,则将标注子任务中的所有待标注数据流转至AI预标注步骤,得到AI预标注数据以及AI预标注数据置信度;根据AI预标注数据置信度判断每条AI预标注数据是否满足直接进入AI预审核步骤的条件,若是,则直接进入AI预审核步骤;若否,则流转至人工标注;经过人工标注后得到的人工标注数据流转至AI预审核步骤;S400、对流转至AI预审核步骤的预标注结果数据进行AI预审核,得到AI预审核数据以及AI预审核数据置信度;所述预标注结果数据包括人工标注数据和判断为满足直接进入AI预审核步骤的条件的AI预标注结果;所述AI预审核数据包括审核为错误的预标注结果数据和审核为正确的预标注结果数据;对于审核为错误的预标注结果数据则流转至人工审核;对于审核为正确的预标注结果数据则根据预设的审核模式,选择进入预设的审核模式;若审核模式为全审核模式,则将所有审核为正确的预标注结果数据流转至人工审核;若审核模式为抽取审核,则根据AI预审核数据置信度的高低,从低到高对审核为正确的预标注结果数据进行排序,并抽取一定比例排序靠前的审核为正确的预标注结果数据流转至人工审核,对于排序靠后的审核为正确的预标注结果数据则直接通过审核;经过人工审核后判断为错误的预标注结果数据,则打回至步骤S300中的人工标注,判断为正确的预标注结果数据则通过审核;S500、将所有标注子任务中通过审核的数据进行合并形成最终的标注结果并输出。2.根据权利要求1所述的一种流水线式的数据标注方法,其特征在于,在AI预标注步骤中,采用AI预标注模型对标注子任务中的所有待标注数据进行预标注。3.根据权利要求2所述的一种流水线式的数据标注方法,其特征在于,所述AI预标注模型包括AI预标注模型一、AI预标注模型二和AI预标注模型三;所述AI预标注步骤包括:将标注子任务中的所有待标注数据分别流转至AI预标注模型一和AI预标注模型二,通过AI预标注模型一得到AI预标注数据一和AI预审核数据置信度一,通过AI预标注模型二得到AI预标注数据二和AI预标注数据置信度二;在步骤S300中,根据AI预标注结果置信度判断每条AI预标注结果是否满足直接进入AI预审核步骤的条件包括:将AI预标注数据置信度一以及AI预标注数据置信度二分别与第一阈值相比较;若AI预标注数据置信度一以及AI预标注数据置信度二均小于第一阈值,则将标注子任务中的该条待标注数据流转至人工标注;若AI预标注数据置信度一大于或等于第一阈值且AI预标注数据置信度二小于第一阈值,则将AI预标注数据一作为预标注结果数据,并流转至AI预审核步骤;若AI预标注数据置信度二大于或等于第一阈值且AI预标注数据置信度一小于第一阈值,则将AI预标注数据二作为预标注结果数据,并流转至AI预审核步骤;
若AI预标注数据置信度一以及AI预标注数据置信度二均大于或等于第一阈值,则判断AI预标注数据一与AI预标注数据二是否相同,若相同,则将AI预标注数据一作为预标注结果数据,并流转至AI预审核步骤;若不相同,则引入AI预标注模型三,通过AI预标注模型三得到AI预标注数据三和AI预标注数据置信度三,将AI预标注数据置信度三与第一阈值相比较,若AI预标注数据置信度三大于或等于第一阈值,则判断AI预标注数据三是否与AI预标注数据一或AI预标注数据二相同,若AI预标注数据三与AI预标注数据一相同,则将AI预标注数据一作为预标注结果数据,并流转至AI预审核步骤;若AI预标注数据三与AI预标注数据二相同,则将AI预标注数据二作为预标注结果数据,并流转至AI预审核步骤;若AI预标注数据三与AI预标注数据一和AI预标注数据二均不相同,则将标注子任务中的该条待标注数据流转至人工标注;若AI预标注数据置信度三小于第一阈值,则将标注子任务中的该条待标注数据流转至人工标注;经过人工标注后得到的人工标注数据流转至AI预审核步骤。4.根据权利要求3所述的一种流水线式的数据标注方法,其特征在于,AI预标注数据置信度一=AI预标注模型一原置信度*AI预标注模型一准确率;AI预标注数据置信度二=AI预标注模型二原置信度*AI预标注模型二准确率;AI预标注数据置信度三=AI预标注模型三原置信度*AI预标注模型三准确率。5.根据权利要求2所述的一种流水线式的数据标注方法,其特征在于,所述AI预标注模型包括AI预标注模型一和AI预标注模型二;所述AI预标注步骤包括:将标注子任务中的所有待标注数据分别流转至AI预标注模型一和AI预标注模型二,通过AI...

【专利技术属性】
技术研发人员:俞开文
申请(专利权)人:杭州卓印智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1