知识图谱构建方法、装置、系统、电子设备及存储介质制造方法及图纸

技术编号:35268056 阅读:29 留言:0更新日期:2022-10-19 10:33
本发明专利技术提供了一种知识图谱构建方法、装置、系统、电子设备及存储介质,应用于知识图谱构建系统,该系统至少包括辅助标注模块、模型训练模块及知识图谱构建模块,该方法包括:获取目标领域的目标文本;将目标文本划分为待标注文本和待处理文本;通过辅助标注模块对待标注文本进行实体标注,得到已标注文本;通过模型训练模块学习已标注文本,生成实体标注模型;根据实体标注模型对待处理文本进行实体及实体关系的标注,得到已处理文本;将已处理文本和已标注文本输入知识图谱构建模块,以输出通过知识图谱构建模块构建得到的目标文本在目标领域的知识图谱。通过本发明专利技术,降低了纯人工标注的工作量,进一步地提高了领域知识图谱构建的效率。构建的效率。构建的效率。

【技术实现步骤摘要】
知识图谱构建方法、装置、系统、电子设备及存储介质


[0001]本专利技术涉及大数据处理
,具体而言,涉及一种知识图谱构建方法、装置、系统、电子设备及存储介质。

技术介绍

[0002]随着信息技术和人工智能技术不断发展,越来越多的企业对于向数字化、智能化的转型的需求越来越强烈了,知识图谱作为一种人工智能技术,在不同领域的企业对于知识图谱构建需求也是千差万别,如何根据企业的特定需求,快速、灵活地构建出领域知识图谱以满足企业的应用需求,被越来越多的企业所关注。而在传统的领域图谱构建过程中往往面临如下问题:需要大量数据标注用于训练实体和实体间关系的抽取模型,纯人工标注成本太高;标注覆盖范围有限,泛化效果差;模型需要通过不断地扩充高质量的标注数据进行迭代优化,效率太低。

技术实现思路

[0003]为了解决上述技术问题或者至少部分地解决上述技术问题,本专利技术提供了一种知识图谱构建方法、装置、系统、电子设备及存储介质。
[0004]第一方面,本专利技术提供了一种知识图谱构建方法,应用于知识图谱构建系统,所述知识图谱构建系统至少包括辅助标注模块、模型训练模块及知识图谱构建模块,所述知识图谱构建方法包括:获取目标领域的目标文本;其中,所述目标文本为待在所述目标领域构建知识图谱的文本;将所述目标文本划分为待标注文本和待处理文本;通过所述辅助标注模块对所述待标注文本进行实体标注,得到已标注文本;通过所述模型训练模块学习所述已标注文本,生成实体标注模型;根据所述实体标注模型对所述待处理文本进行实体及实体关系的标注,得到已处理文本;将所述已处理文本和所述已标注文本输入所述知识图谱构建模块,以输出通过所述知识图谱构建模块构建得到的所述目标文本在所述目标领域的知识图谱。
[0005]第二方面,本专利技术提供了一种知识图谱构建装置,应用于知识图谱构建系统,所述知识图谱构建系统至少包括辅助标注模块、模型训练模块及知识图谱构建模块,所述知识图谱构建装置包括:获取模块,用于获取目标领域的目标文本;其中,所述目标文本为待在所述目标领域构建知识图谱的文本;划分模块,用于将所述目标文本划分为待标注文本和待处理文本;第一标注模块,用于通过所述辅助标注模块对所述待标注文本进行实体标注,得到已标注文本;生成模块,用于通过所述模型训练模块学习所述已标注文本,生成实体标注模型;第二标注模块,用于根据所述实体标注模型对所述待处理文本进行实体及实体关系的标注,得到已处理文本;构建模块,用于将所述已处理文本和所述已标注文本输入所述知识图谱构建模块,以输出通过所述知识图谱构建模块构建得到的所述目标文本在所述目标领域的知识图谱。
[0006]第三方面,本专利技术提供了一种知识图谱构建系统,所述知识图谱构建系统至少包
括辅助标注模块、模型训练模块、模型服务部署模块及知识图谱构建模块,其中,所述辅助标注模块,与所述模型训练模块连接,用于在获取目标领域的目标文本,并将所述目标文本划分为待标注文本和待处理文本之后,对所述待标注文本进行实体标注,得到已标注文本,并将所述已标注文本提供至所述模型训练模块连接;所述模型训练模块,与所述模型服务部署模块连接,用于学习所述已标注文本,以生成实体标注模型,并将所述实体标注模型提供至所述模型服务部署模块;所述模型服务部署模块,用于对所述实体标注模型进行效果评估,并在当评估结果表明所述实体标注模型的评估指标满足预设条件之后,为所述实体标注模型进行自动化部署,以使所述实体标注模型具备模型服务的自动部署服务以及具备实体及实体关系的标注服务;所述知识图谱构建模块,用于在所述实体标注模型对所述待处理文本进行实体及实体关系的标注,得到已处理文本之后,根据所述已处理文本和所述已标注文本构建所述目标文本在所述目标领域的知识图谱。
[0007]第四方面,本专利技术提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
[0008]第五方面,本专利技术提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
[0009]本专利技术技术方案可以应用于基于知识图谱技术的图谱构建领域。本专利技术实施例提供的上述技术方案与相关技术相比具有如下优点:
[0010]本专利技术实施例提供的知识图谱构建方法,利用事先封装好的辅助标注模块标记目标文本中的部分文本,通过事先模块化的模型训练模块学习标注后的文本,生成实体标注模型,并对目标文本中剩下未被标注的文本进行实体及实体关系的标注,再利用事先模块化的知识图谱构建模块对标注后的文本进行目标领域的知识图谱构建,从而实现了基于标注训练一体的领域知识图谱的构建,降低了纯人工标注的工作量,提高了标注效率以及领域知识图谱构建的效率。
附图说明
[0011]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。
[0012]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0013]图1为本专利技术实施例提供的一种知识图谱构建方法应用的知识图谱构建系统的示意图;
[0014]图2为本专利技术实施例提供的一种知识图谱构建方法的流程示意图;
[0015]图3为本专利技术一具体实施例提供的一种知识图谱构建的实现流程图;
[0016]图4为本专利技术实施例提供的一种知识图谱构建装置的结构示意图;
[0017]图5为本专利技术实施例提供的一种计算机设备的结构示意图。
具体实施方式
[0018]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0019]图1为本专利技术实施例提供的一种知识图谱构建方法应用的知识图谱构建系统,如图1所示,知识图谱构建系统至少包括辅助标注模块101、模型训练模块102、模型服务部署模块103及知识图谱构建模块104。
[0020]其中,辅助标注模块101,与模型训练模块102连接,用于在获取目标领域的目标文本,并将目标文本划分为待标注文本和待处理文本之后,对待标注文本进行实体标注,得到已标注文本,并将已标注文本提供至模型训练模块102连接。
[0021]在本实施例中,可以设置规则、字典以及模型服务,作为辅助标注模块,辅助业务人员完成数据的标注和审核;
[0022]模型训练模块102,与模型服务部署模块103连接,用于学习已标注文本,以生成实体标注模型,并将实体标注模型提供至模型服务部署模块103。
[0023]在本实施例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种知识图谱构建方法,其特征在于,应用于知识图谱构建系统,所述知识图谱构建系统至少包括辅助标注模块、模型训练模块及知识图谱构建模块,所述知识图谱构建方法包括:获取目标领域的目标文本;其中,所述目标文本为待在所述目标领域构建知识图谱的文本;将所述目标文本划分为待标注文本和待处理文本;通过所述辅助标注模块对所述待标注文本进行实体标注,得到已标注文本;通过所述模型训练模块学习所述已标注文本,生成实体标注模型;根据所述实体标注模型对所述待处理文本进行实体及实体关系的标注,得到已处理文本;将所述已处理文本和所述已标注文本输入所述知识图谱构建模块,以输出通过所述知识图谱构建模块构建得到的所述目标文本在所述目标领域的知识图谱。2.根据权利要求1所述的方法,其特征在于,所述通过所述辅助标注模块对所述待标注文本进行实体标注,得到已标注文本,包括:抽取所述待标注文本中的各个实体;将各个实体与预设实体及所述预设实体间的实体关系进行匹配;若匹配到的相似度达到预设值,则依据预设实体以及所述预设实体间的实体关系,由所述辅助标注模块标注各个实体及各个实体间的实体关系,得到所述已标注文本。3.根据权利要求1所述的方法,其特征在于,所述通过所述模型训练模块学习所述已标注文本,生成实体标注模型,包括:确定初始模型,并设置所述初始模型对应的超参数;其中,所述初始模型为基于片段标注或基于序列标注的神经网络,所述超参数至少包括训练数据集和验证集的比例、训练所述初始模型的迭代次数及学习率;由所述模型训练模块根据所述已标注文本和设置后的超参数对所述初始模型进行训练,生成所述实体标注模型,以使所述实体标注模型对进行实体及实体关系的抽取。4.根据权利要求1或3所述的方法,其特征在于,所述知识图谱构建系统还包括模型服务部署模块,其中,在通过所述模型训练模块学习所述已标注文本,生成实体标注模型之后,所述方法还包括:调用所述实体标注模型对所述已标注文本中的测试数据集进行预测,得到准确率值,并将所述准确率值作为所述实体标注模型的评估指标;根据所述评估指标对所述实体标注模型进行效果评估;当评估结果表明所述评估指标满足预设条件时,通过所述模型服务部署模块为所述实体标注模型进行自动化部署,以使所述实体标注模型具备模型服务的自动部署服务以及具备实体及实体关系的标注服务。5.根据权利要求1所述的方法,其特征在于,所述将所述已处理文本和所述已标注文本输入所述知识图谱构建模块,以输出通过所述知识图谱构建模块构建得到的所述目标文本在所述目标领域的知识图谱,包括:将所述已处理文本和所述已标注文本输入至所述知识图谱构建模块;对所述已处理文本和所述已标注文本进行知识融合,得到融合后的多个目标实体以及
各个目标实体间的实体关系;以每个目标实体作为节点,利用有向边表示各个目标实体间的实体关系,构建所述目标...

【专利技术属性】
技术研发人员:李犇张杰于皓
申请(专利权)人:北京明略昭辉科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1