一种基于知识图谱的数据标注方法、装置、介质及设备制造方法及图纸

技术编号:31768025 阅读:66 留言:0更新日期:2022-01-05 16:53
本申请实施例公开了一种基于知识图谱的数据标注方法、装置、介质及设备。其中,该方法包括:响应于标注任务的创建请求,确定标注任务关联的图本体模型;其中,图本体模型用于构建实体属性以及实体与实体之间的关系;获取标注目标文档,并根据图本体模型确定标注项数据;根据标注项数据确定带有标注的训练文档,以对预训练模型进行训练,若训练过程中预训练模型的输出结果符合验收标准,则得到规范模型;采用规范模型对标注目标文档的实体属性以及实体与实体之间的关系进行标注。采用本申请技术方案,可将知识图谱与标注数据相结合,从而实现标注数据的可视化,能够更加清晰、直观地反映数据,同时提高了数据标注的效率。同时提高了数据标注的效率。同时提高了数据标注的效率。

【技术实现步骤摘要】
一种基于知识图谱的数据标注方法、装置、介质及设备


[0001]本申请实施例涉及数据处理
,尤其涉及一种基于知识图谱的数据标注方法、装置、介质及设备。

技术介绍

[0002]随着深度学习方法的迅速发展,产生了基于深度学习的新的数据处理方法,使得人们对数据处理的精度和效率提出了更高的要求。
[0003]在数据处理过程中,对数据标注的需求也随之增加。现有的标注方法只能依靠标注人员的经验,采用人工标注方式对数据进行标注,因而无法实现自动数据标注。
[0004]然而,现有的人工标注方式由于受到标注人员的经验和工作效率的限制,导致数据标注的效率低下,同时也无法实现数据的可视化。

技术实现思路

[0005]本申请实施例提供一种基于知识图谱的数据标注方法、装置、介质及设备,可以通过将知识图谱与数据标注相结合,从而实现数据可视化的目的。
[0006]第一方面,本申请实施例提供了一种基于知识图谱的数据标注方法,所述方法包括:响应于标注任务的创建请求,确定标注任务关联的图本体模型;其中,所述图本体模型用于构建实体属性以及实体与实体之间的关系;获取标注目标文档,以及根据所述图本体模型确定标注项数据;根据所述标注项数据确定带有标注的训练文档,以对预训练模型进行训练,若训练过程中预训练模型的输出结果符合验收标准,则得到规范模型;采用所述规范模型对所述标注目标文档的实体属性以及实体与实体之间的关系进行标注。
[0007]第二方面,本申请实施例提供了一种基于知识图谱的数据标注装置,该装置包括:图本体模型确定模块,用于响应于标注任务的创建请求,确定标注任务关联的图本体模型;其中,所述图本体模型用于构建实体属性以及实体与实体之间的关系;标注项数据确定模块,用于获取标注目标文档,以及根据所述图本体模型确定标注项数据;规范模型训练模块,用于根据所述标注项数据确定带有标注的训练文档,以对预训练模型进行训练,若训练过程中预训练模型的输出结果符合验收标准,则得到规范模型;文档标注模块,用于采用所述规范模型对所述标注目标文档的实体属性以及实体与实体之间的关系进行标注。
[0008]第三方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例所述的基于知识图谱的数据标注方法。
[0009]第四方面,本申请实施例提供了一种电子设备,包括存储器,处理器及存储在存储
器上并可在处理器运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请实施例所述的基于知识图谱的数据标注方法。
[0010]本申请实施例所提供的技术方案,首先确定标注任务关联的图本体模型;然后获取标注目标文档,并根据图本体模型确定标注项数据;进而根据标注项数据确定带有标注的训练文档,以对预训练模型进行训练,若训练过程中预训练模型的输出结果符合验收标准,则得到规范模型;再采用规范模型对标注目标文档的实体属性以及实体与实体之间的关系进行标注。该方案通过以上手段,可以将知识图谱与标注数据相结合,从而实现标注数据可视化,能够更加清晰、直观地反映数据,根据人工标注结果对预训练模型进行训练,并通过设置验收质检环节对模型训练结果进行验收,当符合验收标准时得到规范模型,再利用规范模型进行数据标注,提高了数据标注的效率。
附图说明
[0011]图1是本申请实施例一提供的基于知识图谱的数据标注方法的流程图;图2是本申请实施例一提供的标注结果验收的流程图;图3为本申请实施例二提供的基于知识图谱的数据标注方法的流程图;图4为本申请实施例三提供的基于知识图谱的数据标注方法的流程图;图5是本申请提供的基于知识图谱的数据标注平台的功能管理示意图;图6为本申请实施例四提供的基于知识图谱的数据标注装置的结构框图;图7为本申请实施例六提供的一种电子设备的结构示意图。
具体实施方式
[0012]下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
[0013]在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
[0014]实施例一图1是本专利技术实施例一提供的基于知识图谱的数据标注方法的流程图,本实施例可适用于标注数据可视化的场景,该方法可以由本申请实施例所提供的基于知识图谱的数据标注装置执行,该装置可以由软件和/或硬件的方式来实现,并可集成于电子设备中。
[0015]如图1所示,所述基于知识图谱的数据标注方法包括:S110,响应于标注任务的创建请求,确定标注任务关联的图本体模型;其中,图本体模型用于构建实体属性以及实体与实体之间的关系。
[0016]在本方案中,基于知识图谱来构建图本体模型。其中,知识图谱可以是指显示知识发展进程与结构关系的一系列图形,可以通过可视化技术描述知识资源及其载体,可以用于将复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制显示出来,从而揭示出
知识领域的动态发展规律以及知识领域之间的相互联系。本方案可以是将知识图谱与数据标注相结合,以实现数据可视化。当由算法直接提供规范的数据标注模型和规则实现自动标注时,可能出现由于规范数值导入造成数据失效的问题。因此本方案的目的在于根据人工标注结果对预训练模型进行训练,并利用训练得到的规范模型进行数据标注,从而提高数据标注的效率。
[0017]本方案中,标注任务可以是指针对从文档库中抽取的文档进行人工标注的任务,可以用于为后续模型训练提供训练数据。具体的,标注任务可以由标注人员创建,同时可以对需要标注的文档以及标注多少篇文档进行设置,并可以按照实际需求创建多个不同领域以及不同类型的标注任务。一个标注任务可以包括任务名称、数据集以及标注项。其中,数据集可以是从文档库中选择的任意文档,可以选择一篇或者多篇文档。通常情况下可以选择同一个分类下的文档作为数据集,此时就相当于复制了一份文档进行标注,因此不同的标注任务可以对同一份文档进行标注,并且标注的内容互不影响。标注项可以是指标注的对象,可以用于提供人工标注时的可选项。示例性的,标注项可以包括实体、事件、标签以及同义词等。不同类型的文档可能标注项不一样,通过配置标注项可以让标注人员聚焦合适的标注项,从而提升易用性。
[0018]本方案中,创建请求可以是指用于创建标注任务的请求指令。图本体模型可以是指用于描述实体属性以及实体之间关系的一种知识图谱模型,可以用于表征实体的属性特点以及基于各实体的属性建立实体与实体之间的联系。其中,实体可以是指人、动物、植物以及物体等实际存在的对象。每一个实体都有自己的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱的数据标注方法,其特征在于,所述方法包括:响应于标注任务的创建请求,确定标注任务关联的图本体模型;其中,所述图本体模型用于构建实体属性以及实体与实体之间的关系;获取标注目标文档,以及根据所述图本体模型确定标注项数据;根据所述标注项数据确定带有标注的训练文档,以对预训练模型进行训练,若训练过程中预训练模型的输出结果符合验收标准,则得到规范模型;采用所述规范模型对所述标注目标文档的实体属性以及实体与实体之间的关系进行标注。2.根据权利要求1所述的方法,其特征在于,根据所述标注项数据确定带有标注的训练文档,包括:响应于文档的上传操作,确定候选文档;显示至少一篇候选文档供标注人员进行标注,并在标注完成后,形成带有标注的训练文档。3.根据权利要求2所述的方法,其特征在于,显示至少一篇候选文档供标注人员进行标注,包括:显示至少一篇候选文档;响应于标注人员的前实体选择操作,确定标注内容的前实体;响应于标注人员的后实体选择操作,确定标注内容的后实体;响应于标注人员的实体关系选择操作,确定标注内容的前实体和后实体的实体关系,以完成对候选文档的一个标注内容的标注;遍历候选文档的所有标注内容,得到候选文档的标注结果。4.根据权利要求1所述的方法,其特征在于,所述标注项数据还包括事件明细元数据;相应的,根据所述标注项数据确定带有标注的训练文档,包括:根据所述图本体模型和事件明细元数据提供标注选择,以供标注人员进行文档的标注操作;将所述标注操作的标注结果作为带有标注的训练文档。5.根据权利要求4所述的方法,其特征在于,所述标注项数据还包括同义词集;相应的,根据所述标注项数据确定带有标注的训练文档,包括:根据所述图本体模型、事件明细元数据以及同义词集提供标注选择,以供标注人员进行文档的标...

【专利技术属性】
技术研发人员:杨娟翟士丹谢梓菲许越肖丹
申请(专利权)人:北京海致星图科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1