标注方法、装置、设备、存储介质及程序产品制造方法及图纸

技术编号:35138296 阅读:13 留言:0更新日期:2022-10-05 10:13
本申请公开了标注方法、装置、设备、存储介质及程序产品,属于人工智能技术领域,包括:获取第一生数据集合,其中的生数据为未标注的数据;在上述第一生数据集合中确定多个第一目标生数据和多个第二目标生数据,上述第一目标生数据和上述第二目标生数据均为包含目标信息的程度满足预设要求的数据;获取上述多个第一目标生数据各自对应的真值数据,该多个第一目标生数据包括用于学习标注的数据集合和用于验证学习效果的数据集合;根据各第一目标生数据以及对应的真值数据,生成多个标注案例;基于多个标注案例,获取针对至少一个第二目标生数据的标注结果。本申请实施例可快速标注并确保标注准确度。保标注准确度。保标注准确度。

【技术实现步骤摘要】
标注方法、装置、设备、存储介质及程序产品


[0001]本申请涉及人工智能
,特别涉及一种标注方法、装置、设备、存储介质及程序产品。

技术介绍

[0002]标注数据的获取是推动人工智能技术发展和实现机器学习的先决条件,各种智能模型的训练都离不开标注数据的支持,但是标注数据的获取很大程度上依赖于标注人员的手动标注,而标注人员通常依赖于文档化的标注规则,但是文档化的标注规则的表达能力较低,而且也可能存在规则覆盖不全,规则表达不准确等问题,而标注人员进行文本化的规则学习也耗时耗力,并且需要与指定文档的人员进行较多沟通,从而导致标注数据获取历时长,效率低。

技术实现思路

[0003]本申请实施例提供了一种标注方法、装置、设备、存储介质及程序产品,能够提升标注的准确度和降低标注耗时。
[0004]根据本申请实施例的一个方面,提供了一种标注方法,所述方法包括:
[0005]获取第一生数据集合,所述第一生数据集合中的生数据为未标注的数据;
[0006]在所述第一生数据集合中确定多个第一目标生数据和多个第二目标生数据,所述第一目标生数据和所述第二目标生数据均为包含目标信息的程度满足预设要求的数据,所述目标信息表征所述第一生数据集合中具备的信息;
[0007]获取所述多个第一目标生数据各自对应的真值数据,所述多个第一目标生数据包括用于学习标注的数据集合和用于验证学习效果的数据集合;
[0008]根据各所述第一目标生数据以及对应的真值数据,具体包括根据用于学习标注的数据集合以及对应的真值数据,和根据用于验证学习效果的数据集合以及对应的真值数据,生成多个标注案例;
[0009]基于所述多个标注案例,获取针对至少一个第二目标生数据的标注结果。
[0010]根据本申请实施例的一个方面,提供了一种标注装置,所述装置包括:
[0011]第一生数据集合获取模块,用于获取第一生数据集合,所述第一生数据集合中的生数据为未标注的数据;
[0012]数据筛选模块,用于在所述第一生数据集合中确定多个第一目标生数据和多个第二目标生数据,所述第一目标生数据和所述第二目标生数据均为包含目标信息的程度满足预设要求的数据,所述目标信息表征所述第一生数据集合中具备的信息;
[0013]真值获取模块,用于获取所述多个第一目标生数据各自对应的真值数据,所述多个第一目标生数据包括用于学习标注的数据集合和用于验证学习效果的数据集合;
[0014]案例生成模块,用于根据各所述第一目标生数据以及对应的真值数据,具体包括根据用于学习标注的数据集合以及对应的真值数据,和根据用于验证学习效果的数据集合
以及对应的真值数据,生成多个标注案例;
[0015]标注模块,用于基于所述多个标注案例,获取针对至少一个第二目标生数据的标注结果。
[0016]根据本申请实施例的一个方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述标注方法。
[0017]根据本申请实施例的一个方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述标注方法。
[0018]根据本申请实施例的一个方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行以实现上述标注方法。
[0019]本申请实施例提供的技术方案可以带来如下有益效果:
[0020]本申请实施例提供一种标注方法,该标注方法通过从大量的生数据中确定出具备高典型性和高代表性的若干生数据,通过对这些生数据进行标注得到标注案例,这些标注案例被提供给标注员自行学习,在对这些案例进行学习的基础上,标注员就可以标注其他的生数据,标注案例的信息表达能力远高于文本规则,通过学习标注案例可以充分利用标注员自身大脑的多维度学习能力,从而提升标注速度和标注准确度,还节省了沟通时间和文本规则的学习时间,显著提升标注效率。
附图说明
[0021]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0022]图1是本申请一个实施例提供的应用程序运行环境的示意图;
[0023]图2是本申请一个实施例提供的标注方法的流程图;
[0024]图3示例性示出了生数据筛选示意图;
[0025]图4示例性示出了核心集筛选示意图;
[0026]图5是本申请一个实施例提供的标注的完整流程示意图;
[0027]图6是本申请一个实施例提供的标注平台可视化结果示意图;
[0028]图7示例性示出了练习题示意图;
[0029]图8示例性示出了考试题示意图;
[0030]图9示例性示出了标注案例示意图;
[0031]图10示例性示出了标注装置的框图;
[0032]图11是本申请一个实施例提供的计算机设备的结构框图。
具体实施方式
[0033]在介绍本申请提供的方法实施例之前,先对本申请方法实施例中可能涉及的相关术语或者名词进行简要介绍,以便于本申请领域技术人员理解。
[0034]BERT(Bidirectional Encoder Representation from Transformers,基于转换模型的双向编码表示模型),是大规模文本预训练模型,BERT用12层的transformer encoder(转换模型编码器)将自然语言处理任务的基准性能提高了一大截。相比word2vec(词向量),经过海量文本预训练的BERT能够在分类算法中引入更多的迁移知识,提供更精准的文本特征。
[0035]人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[0036]人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种标注方法,其特征在于,所述方法包括:获取第一生数据集合,所述第一生数据集合中的生数据为未标注的数据;在所述第一生数据集合中确定多个第一目标生数据和多个第二目标生数据,所述第一目标生数据和所述第二目标生数据均为包含目标信息的程度满足预设要求的数据,所述目标信息表征所述第一生数据集合中具备的信息;获取所述多个第一目标生数据各自对应的真值数据,所述多个第一目标生数据包括用于学习标注的数据集合和用于验证学习效果的数据集合;根据各所述第一目标生数据以及对应的真值数据,具体包括根据用于学习标注的数据集合以及对应的真值数据,和根据用于验证学习效果的数据集合以及对应的真值数据,生成多个标注案例;基于所述多个标注案例,获取针对至少一个第二目标生数据的标注结果。2.根据权利要求1所述的方法,其特征在于,所述基于所述多个标注案例,获取针对至少一个第二目标生数据的标注结果,包括:在获取到目标消息的情况下,显示所述至少一个第二目标生数据,所述目标消息表征针对所述标注案例的学习完毕;响应于检测到针对所述至少一个第二目标生数据的标注操作的情况,获取所述针对至少一个第二目标生数据的标注结果。3.根据权利要求2所述的方法,其特征在于,所述根据每一第一目标生数据以及对应的真值数据,生成多个标注案例,具体包括根据用于学习标注的数据集合以及对应的真值数据,和根据用于验证学习效果的数据集合以及对应的真值数据,生成多个标注案例,具体包括:对所述多个第一目标生数据进行分类,得到第一类第一生数据集合和第二类第一生数据集合,所述第一类第一生数据集合为用于学习标注的数据集合,所述第二类第一生数据集合为用于验证学习效果的数据集合;将属于所述第一类第一生数据集合中的第一目标生数据、以及所对应的真值数据所生成的标注案例,归类至第一类标注案例集合;将属于所述第二类第一生数据集合中的第一目标生数据、以及所对应的真值数据所生成的标注案例,归类至第二类标注案例集合;所述基于所述多个标注案例,获取针对至少一个第二目标生数据的标注结果,包括:基于所述第一类标注案例集合和所述第二类标注案例集合,获取针对至少一个第二目标生数据的标注结果。4.根据权利要求3所述的方法,其特征在于,所述在获取到目标消息的情况下,显示所述至少一个第二目标生数据之前,包括:显示第一类标注案例集合;响应于获取到第一消息的情况,显示所述第二类第一生数据集合中的至少一个第一目标生数据;响应于获取到针对所述第二类第一生数据集合中的至少一个第一目标生数据的待验证标注结果的情况,根据所述第二类标注案例对所述待验证标注结果进行验证;在验证通过的情况下,获取所述目标消息。<...

【专利技术属性】
技术研发人员:袁松岭王子璇文心杰王晓利郭伟东刘雅良孟祥磊
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1