用于校验标注数据的方法及装置、电子设备、存储介质制造方法及图纸

技术编号:38908345 阅读:21 留言:0更新日期:2023-09-25 09:26
本申请涉及计算机技术领域,公开一种用于校验标注数据的方法,包括:获取标注有第一标签和第二标签的待验证数据;第一标签为用户对待验证数据标注的实体类型;第二标签为实体识别模型对待验证数据标注的实体类型;根据待验证数据的第一标签和第二标签确定漏标数据和错标数据;根据漏标数据和错标数据更正待验证数据的第一标签。这样由于自动对用户标注的待验证数据中的错标数据和漏标数据进行了更正。因此,能够提高效验标注数据的效率。本申请还公开一种用于校验标注数据的装置、电子设备、存储介质。存储介质。存储介质。

【技术实现步骤摘要】
用于校验标注数据的方法及装置、电子设备、存储介质


[0001]本申请涉及计算机
,例如涉及一种用于校验标注数据的方法及装置、电子设备、存储介质。

技术介绍

[0002]随着科学技术的不断进步,人工智能的发展如火如荼。在人工智能的应用过程中,通常需要构建模型,利用模型来识别各种数据。为了使得模型识别更加精准,需要有高质量的标注数据用于模型训练。相关技术中,通常由人工对语料数据进行标注获得标注数据,再通过人工对标注数据进行效验以提高标注数据的质量。但是,由人工效验标注数据效率较低。

技术实现思路

[0003]为了对披露的实施例的一些方面有基本的理解,下面给出了简单的概括。所述概括不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围,而是作为后面的详细说明的序言。
[0004]本公开实施例提供了一种用于校验标注数据的方法及装置、电子设备、存储介质,以提高效验标注数据的效率。
[0005]在一些实施例中,所述用于校验标注数据的方法,包括:获取标注有第一标签和第二标签的待验证数据;所述第一标签为用户对待验证数据标注的实体类型;所述第二标签为实体识别模型对待验证数据标注的实体类型;根据所述待验证数据的第一标签和第二标签确定漏标数据和错标数据;根据所述漏标数据和所述错标数据更正所述待验证数据的第一标签。
[0006]在一些实施例中,所述用于校验标注数据的装置,包括:获取模块,被配置为获取标注有第一标签和第二标签的待验证数据;所述第一标签为用户对待验证数据标注的实体类型;所述第二标签为实体识别模型对待验证数据标注的实体类型;确定模块,被配置为根据所述待验证数据的第一标签和第二标签确定漏标数据和错标数据;更正模块,被配置为根据所述漏标数据和所述错标数据更正所述待验证数据的第一标签。
[0007]在一些实施例中,所述电子设备,包括处理器和存储有程序指令的存储器,所述处理器被配置为在运行所述程序指令时,执行上述的用于校验标注数据的方法。
[0008]在一些实施例中,所述存储介质,所述程序指令在运行时,执行上述的用于校验标注数据的方法。
[0009]本公开实施例提供的用于校验标注数据的方法及装置、电子设备、存储介质,可以实现以下技术效果:通过获取标注有第一标签和第二标签的待验证数据。第一标签为用户对待验证数据标注的实体类型,第二标签为实体识别模型对待验证数据标注的实体类型。根据待验证数据的第一标签和第二标签确定漏标数据和错标数据。根据漏标数据和错标数据更正待验证数据的第一标签。这样,由于自动确定出用户标注的待验证数据中的错标数
据和漏标数据,并自动进行了更正。因此,提高了效验标注数据的效率。
[0010]以上的总体描述和下文中的描述仅是示例性和解释性的,不用于限制本申请。
附图说明
[0011]一个或多个实施例通过与之对应的附图进行示例性说明,这些示例性说明和附图并不构成对实施例的限定,附图中具有相同参考数字标号的元件示为类似的元件,附图不构成比例限制,并且其中:
[0012]图1是本公开实施例提供的第一个用于校验标注数据的方法的示意图;
[0013]图2是本公开实施例提供的第二个用于校验标注数据的方法的示意图;
[0014]图3是本公开实施例提供的第三个用于校验标注数据的方法的示意图;
[0015]图4是本公开实施例提供的第四个用于校验标注数据的方法的示意图;
[0016]图5是本公开实施例提供的一个用于校验标注数据的装置的示意图;
[0017]图6是本公开实施例提供的一个电子设备的示意图。
具体实施方式
[0018]为了能够更加详尽地了解本公开实施例的特点与
技术实现思路
,下面结合附图对本公开实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本公开实施例。在以下的技术描述中,为方便解释起见,通过多个细节以提供对所披露实施例的充分理解。然而,在没有这些细节的情况下,一个或多个实施例仍然可以实施。在其它情况下,为简化附图,熟知的结构和装置可以简化展示。
[0019]本公开实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开实施例的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。
[0020]除非另有说明,术语“多个”表示两个或两个以上。
[0021]本公开实施例中,字符“/”表示前后对象是一种“或”的关系。例如,A/B表示:A或B。
[0022]术语“和/或”是一种描述对象的关联关系,表示可以存在三种关系。例如,A和/或B,表示:A或B,或,A和B这三种关系。
[0023]知识图谱在美妆行业领域具有巨大的应用潜力,例如:美妆知识问答、语义搜索等应用场景。而构建一个质量较高、规模较大的美妆知识图谱往往需要高精度的命名实体识别模型作为支撑。命名实体识别(Named Entity Recognition,NER)主要是研究如何从文本中将实体识别出来,并给实体标注对应的实体类型。命名实体识别模型的训练需要高质量的标注数据。然而,标注数据的质量参差不齐成为美妆知识图谱建设中最为苦恼的事情。通常由人工对美妆数据进行标注获得标注数据,但是当标注员面临复杂的标注任务或者万级的标注数据量时,可能产生巨大的心理压力。再加上对美妆数据进行标注会存在工作内容重复性高、标注时间紧迫等问题,导致标注数据的质量较差。因此,对标注数据的效验至关重要。相关技术中,由人工对标注数据进行效验,效验效率较低。本方案通过自动对用户标注的待验证数据中的错标数据和漏标数据进行了更正。提高了效验标注数据的效率。
[0024]本公开实施例中,待验证数据为文本数据,文本数据包括实体。例如:实体为抗皱、
美白或亮肤等。第一标签和第二标签均为实体类型,例如:实体类型为品牌、品类、功效或成分等。
[0025]结合图1所示,本公开实施例提供一种用于校验标注数据的方法,包括:
[0026]步骤S101,电子设备获取标注有第一标签和第二标签的待验证数据。第一标签为用户对待验证数据标注的实体类型,第二标签为实体识别模型对待验证数据标注的实体类型。
[0027]步骤S102,电子设备根据待验证数据的第一标签和第二标签确定漏标数据和错标数据。
[0028]步骤S103,电子设备根据漏标数据和错标数据更正待验证数据的第一标签。
[0029]采用本公开实施例提供的用于校验标注数据的方法,通过获取标注有第一标签和第二标签的待验证数据。第一标签为用户对待验证数据标注的实体类型,第二标签为实体识别模型对待验证数据标注的实体类型。根据待验证数据的第一标签和第二标签确定漏标数据和错标数据。根据漏标数据和错标数据更正待验证数据的第一标签。这样,由于自动确定出用户标注的待验证数据中的错标数据和漏标数据,并自动进本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于校验标注数据的方法,其特征在于,包括:获取标注有第一标签和第二标签的待验证数据;所述第一标签为用户对待验证数据标注的实体类型;所述第二标签为实体识别模型对待验证数据标注的实体类型;根据所述待验证数据的第一标签和第二标签确定漏标数据和错标数据;根据所述漏标数据和所述错标数据更正所述待验证数据的第一标签。2.根据权利要求1所述的方法,其特征在于,标注有第二标签的待验证数据,通过以下方式获取:获取备选标注数据;所述备选标注数据为标注有第一标签的待验证数据;从备选标注数据中选取待标注数据;将除待标注数据外的备选标注数据确定为训练数据;利用训练数据对预设的自然语言预训练模型进行训练,获得备选实体识别模型;利用备选实体识别模型对待标注数据进行第二标签标注,获得标注有第二标签的待标注数据;在所述备选标注数据均作为待标注数据后,将标注有第二标签的待标注数据确定为标注有第二标签的待验证数据。3.根据权利要求1所述的方法,其特征在于,根据所述待验证数据的第一标签和第二标签确定漏标数据和错标数据,包括:根据所述待验证数据的第一标签和第二标签,将所述待验证数据分为第一数据集、第二数据集和第三数据集;所述第一数据集中的待验证数据标注的第一标签与第二标签相同;所述第二数据集中的待验证数据仅标注有第一标签;所述第三数据集中的待验证数据仅标注第二标签;利用所述第一数据集训练各实体类型分别对应的标签判别模型;根据各所述标签判别模型和所述第二数据集确定错标数据;根据各所述标签判别模型和所述第三数据集确定漏标数据。4.根据权利要求3所述的方法,其特征在于,所述标签判别模型用于判断待验证数据标注的实体类型为真或假;根据所述标签判别模型和所述第二数据集确定错标数据,包括:根据所述标签判别模型对应的实体类型从所述第二数据集中确定...

【专利技术属性】
技术研发人员:刘智卫海天
申请(专利权)人:北京明略昭辉科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1