知识图谱构建方法、装置、电子设备及存储介质制造方法及图纸

技术编号:34338052 阅读:26 留言:0更新日期:2022-07-31 03:22
本申请提供一种知识图谱的构建方法、装置、电子设备及存储介质,所述方法包括:获取待分类的多个实体以及每个实体对应的所有HTML数据;从各个实体的HTML数据提取对应实体的描述文本,并基于所有实体的名称和所有实体的描述文本构建训练数据集;使用所述训练数据集训练模型,并基于训练后的模型识别多个实体中每个实体所属的类别;以及基于多个实体和每个实体所属的类别构建知识图谱。能够提取出以非结构化文本形式呈现于网络液面中的大量类型信息,训练出准确率高效果好的模型以对实体进行分类,进而基于海量的数据构建包括开放领域和特定领域的若干只是库融合或链接在一起而形成的既全面又深入的知识图谱。成的既全面又深入的知识图谱。成的既全面又深入的知识图谱。

【技术实现步骤摘要】
知识图谱构建方法、装置、电子设备及存储介质


[0001]本申请涉及人工智能
,尤其涉及一种知识图谱构建方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]知识图谱作为承载底层海量知识并支持上层智能应用的重要载体,在智能时代中扮演了极其重要的角色。而受限于非结构化文本和结构化知识之间的巨大差异,自动化构建知识图谱仍存在诸多挑战。通常构建知识图谱需要在实体识别完成后,为每一个实体分配预定义的类型,即是“实体类型推断”任务,“实体类型推断”任务是构建知识图谱中的重要一步。然而,大量类型信息以非结构化文本形式呈现于网络页面中,文本处理难度大,抽取结果同时保证高准确度和覆盖率仍然是个极大的挑战。针对实体的通用类型推断,近年来已有若干解决方案,如使用统计机器学习方法及利用外部知识(通向其他数据源的链接或文本信息)等。

技术实现思路

[0003]本申请的目的在于提供一种知识图谱的构建方法,能够基于实体百科(包括百度百科、互动百科、维基百科、医学百科)页面,通过训练模型从给定的数据中推断相关实体的类型,从而构建知识图谱。...

【技术保护点】

【技术特征摘要】
1.一种知识图谱的构建方法,其特征在于,包括:获取待分类的多个实体以及每个实体对应的所有HTML数据;从各个实体的HTML数据提取对应实体的描述文本,并基于所有实体的名称和所有实体的描述文本构建训练数据集;使用所述训练数据集训练模型,并基于训练后的模型识别所述多个实体中每个实体所属的类别;以及基于所述多个实体和每个实体所属的类别构建知识图谱。2.根据权利要求1所述的知识图谱的构建方法,其特征在于,所述使用所述训练数据集训练模型的过程包括:使用多个公开数据集构建验证数据集和测试数据集;使用所述验证数据集和所述训练数据集一起训练所述模型;以及使用所述测试数据集对经训练的所述模型进行测试,根据测试结果对所述模型进行校准,以完成所述模型的训练。3.根据权利要求1所述的知识图谱的构建方法,其特征在于,所述从所述HTML数据中提取每个所述实体对应的描述文本,包括:利用正则表达式提取所述HTML数据中的文本作为所述实体对应的所述描述文本。4.根据权利要求1所述的知识图谱的构建方法,其特征在于,所述训练数据集包括仅实体名称的输入数据和带有描述文本的实体名称的输入数据。5.根据权利要求1或2所述的知识图谱的构建方法,其特征在于,在训练所述模型的过程中,采用对抗训练的方式对模型进行训练,并且对模型参数进行正则化。6.根据权利要求1或2所述的知识图谱的构建方法,其特征在于,使...

【专利技术属性】
技术研发人员:陈海波罗志鹏张欢潘春光
申请(专利权)人:深延科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1