【技术实现步骤摘要】
一种数据标注方法及系统
[0001]本专利技术涉及数据处理领域和自动驾驶领域,具体来说,涉及数据标注领域,更具体地说,涉及一种数据标注方法及系统。
技术介绍
[0002]随着科技的高速发展,各个领域产生了海量的数据,对数据进行有效的利用可以有效的促进技术的进步。其中,对数据进行标注是数据处理领域中一种常见的操作。所谓数据标注可理解为是对未经处理的语音、图像、文本、视频等数据进行加工处理,并转换为机器可识别信息的过程。原始的数据一般通过数据采集获得,随后的数据标注相当于对数据进行加工,然后输送到人工智能算法和模型里完成调用。且目前主流的机器学习方式是以有监督的深度学习方式为主,此种机器学习方式下对于标注数据有着强依赖性需求,未经过标注处理的原始数据多以非结构化数据为主,这些数据是不能被机器识别与学习的。只有经过标注处理后的数据,成为结构化数据才能被算法训练所使用的。
[0003]常见的数据标注工作是通过标注系统来完成的,且目前的数据标注系统一般是采用软件开发的一些工具,标注人员需要在这些标注系统中的用户终端上进行人工的 ...
【技术保护点】
【技术特征摘要】
1.一种数据标注方法,其特征在于,所述方法包括:S1、接收待标注的数据和标注任务,所述标注任务中包含多个属性;S2、选择所述多个属性分别对应的预训练标注模型对所述数据进行属性标注以获得属性标注结果;其中,每个预训练标注模型是以带有其对应属性标注标签的样本为输入、其对应属性标注结果为输出经训练获得的;S3、将步骤S2中的所有属性标注结果进行融合以获得所述数据针对所述标注任务的标注结果。2.根据权利要求1所述的方法,其特征在于,在所述步骤S2中,将所述多个属性分别对应的预训练标注模型按照预设的执行优先级对所述数据进行属性标注。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:S4、在预训练标注模型没有达到预设性能要求时,对该预训练标注模型对所述数据的属性标注结果进行人工纠正以获得正确的属性标注结果,并采用纠正后的属性标注结果进行在线自学习直至该预训练标注模型的性能达到预设性能要求。4.根据权利要求3所述的方法,其特征在于,所述步骤S4包括:S41、在用户终端向用户展示每个预训练标注模型对所述数据的属性标注结果,用户对标注结果中的每种属性标注结果进行判断,并对存在标注错误的属性进行人工纠正以获得正确的属性标注结果;S42、接收人工纠正后的属性标注结果;S43、采用步骤S42接收到的人工纠正后的属性标注结果训练与其对应的预训练标注模型直至收敛。5.根据权利要求1
‑
4任一所述的方法,其特征在于,所述每个预训练标注模型是通过如下方式获得的:T1、获取标注任务对应的历史标注数据集,所述历史标注数据集中包括多个样本,每个样本包含有标注任务对应的一个或多个属性标注标签;T2、对历史标注数据集进行多次预处理,以获得每个属性对应的属性标注数据集,其中,每次预处理以一个属性为对象,清除原始数据集中的其他属性标...
【专利技术属性】
技术研发人员:谭永博,
申请(专利权)人:上海云骥跃动智能科技发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。