知识图谱的构建方法、装置、设备及存储介质制造方法及图纸

技术编号:39060651 阅读:18 留言:0更新日期:2023-10-12 19:53
本申请实施例提供一种知识图谱的构建方法、装置、设备及存储介质,涉及知识图谱技术领域。所述方法包括:根据图谱构建需求确定目标行业;获取与所述目标行业对应的特性训练数据,并基于所述特性训练数据对预选的基础大语言模型进行训练,得到定制化大语言模型;利用所述定制化大语言模型对目标文本数据进行信息抽取,并基于抽取得到的信息生成目标知识库;基于所述目标知识库构建适用于所述目标行业的知识图谱。本申请实施例通过根据实际需求获取特定训练数据对大语言模型进行定制化训练,从而能够提高对特定行业文本数据的信息抽取效果,提高构建得到的知识图谱在该行业应用时的适用性。时的适用性。时的适用性。

【技术实现步骤摘要】
知识图谱的构建方法、装置、设备及存储介质


[0001]本申请涉及知识图谱
,具体而言,涉及一种知识图谱的构建方法、装置、设备及存储介质。

技术介绍

[0002]现有技术中,知识图谱构建通常依赖于人工标注和垂直领域模型。然而,这些方法在处理特定领域行业数据时存在一定的局限性。例如,人工标注成本高且效率低,而垂直领域模型的通用性较差,难以满足多业务方向的需求。因此,针对特定行业例如筹款、保险和健康等行业的知识图谱构建方法亟待改进。

技术实现思路

[0003]本申请实施例的目的在于提供一种知识图谱的构建方法、装置、设备及存储介质,用以提高知识图谱在处理特定行业数据时的适用性。
[0004]第一方面,本申请实施例提供了一种知识图谱的构建方法,包括:
[0005]根据图谱构建需求确定目标行业;
[0006]获取与所述目标行业对应的特性训练数据,并基于所述特性训练数据对预选的基础大语言模型进行训练,得到定制化大语言模型;其中,所述特性训练数据包括所述目标行业的特有词汇;
[0007]利用所述定制化大语言模型对目标文本数据进行信息抽取,并基于抽取得到的信息生成目标知识库;其中,所述信息抽取包括实体抽取、关系抽取和属性抽取;
[0008]基于所述目标知识库构建适用于所述目标行业的知识图谱。
[0009]在本申请实施例中,通过根据当前图谱构建需求确定目标行业,获取该行业的特定训练数据对大语言模型进行定制化训练,从而能够提高对特定行业文本数据的信息抽取效果,提高构建得到的知识图谱在该行业应用时的适用性。
[0010]在一些可能的实施例中,所述特性训练数据还包括与所述目标行业相对应的模型架构调整参数;所述基于所述特性训练数据对预选的基础大语言模型进行训练,包括:
[0011]基于所述模型架构调整参数对所述基础大语言模型进行模型架构调整。
[0012]在本申请实施例中,除了基于该行业特在词汇进行模型训练,还通过获取模型架构调整参数来对模型进行架构调整,从而能够训练得到更适配于目标行业的模型,提高信息抽取的准确性和覆盖率,进一步提高构建得到的知识图谱的适用性。
[0013]在一些可能的实施例中,所述特性训练数据还包括与所述目标行业相对应的特定损失函数;所述基于所述特性训练数据对预选的基础大语言模型进行训练,包括:
[0014]基于预先获取的验证数据集以及所述特定损失函数对所述基础大语言模型进行性能评估及模型调优。
[0015]在本申请实施例中,通过获取该行业对应的特定损失函数,能够准确指导模型训练过程从而获得更加适配于目标行业的信息抽取模型,提高信息抽取的准确性和覆盖率,
进一步提高构建得到的知识图谱的适用性。
[0016]在一些可能的实施例中,在所述利用所述定制化大语言模型对目标文本数据进行信息抽取之前,还包括:
[0017]利用所述定制化大语言模型基于预设的若干抽取策略分别对测试文本数据进行测试信息抽取;
[0018]基于抽取得到的测试信息确定与所述若干抽取策略对应的抽取性能,并将抽取性能最优的抽取策略确定为目标抽取策略;
[0019]所述利用所述定制化大语言模型对目标文本数据进行信息抽取,具体为:
[0020]利用所述定制化大语言模型基于所述目标抽取策略对目标文本数据进行信息抽取。
[0021]在本申请实施例中,通过预先配置若干抽取策略,并分别基于各个抽取策略进行信息抽取,再根据评估得到的各个抽取策略对应的抽取性能筛选其中最优的抽取策略,作为最终进行信息抽取的策略,从而能够提高信息抽取的准确性和覆盖率,进一步提高构建得到知识图谱的适用性。
[0022]在一些可能的实施例中,所述基于抽取得到的信息生成目标知识库,包括:
[0023]查询并判断预配置的数据库中是否存与所述目标行业对应的目标知识库;
[0024]若是,则将抽取得到的信息整合至所述目标知识库;
[0025]若否,则基于抽取得到的信息生成目标知识库。
[0026]在本申请实施例中,抽取信息后先判断是否存在已有的相同领域知识库,若已有目标知识库则直接将新抽取的信息整合至该目标知识库,从而能够提高目标行业对应的知识库的信息完整性,进一步提高了构建得到知识图谱的适用性。
[0027]在一些可能的实施例中,在所述基于所述目标知识库构建适用于所述目标行业的知识图谱之后,还包括:
[0028]实时监测知识库信息更新事件,并基于所述知识库信息更新事件将新增信息融合至所述目标知识库;
[0029]基于更新后的目标知识库重新构建适用于所述目标行业的知识图谱。
[0030]在本申请实施例中,通过实时监测知识库信息的变更,在用户对知识库进行扩展和优化时,能够将新增信息融合至知识库,并基于融合后的知识库构建新的知识图谱,实现知识图谱的自动更新和补充,从而进一步提高构建知识图谱的适用性。
[0031]第二方面,本申请实施例提供了一种知识图谱的构建装置,包括:
[0032]行业确定模块,用于根据图谱构建需求确定目标行业;
[0033]模型训练模块,用于获取与所述目标行业对应的特性训练数据,并基于所述特性训练数据对预选的基础大语言模型进行训练,得到定制化大语言模型;其中,所述特性训练数据包括所述目标行业的特有词汇;
[0034]信息抽取模块,用于利用所述定制化大语言模型对目标文本数据进行信息抽取,并基于抽取得到的信息生成目标知识库;其中,所述信息抽取包括实体抽取、关系抽取和属性抽取;
[0035]图谱构建模块,用于基于所述目标知识库构建适用于所述目标行业的知识图谱。
[0036]第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器以及存储在所
述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述程序时可实现第一方面任一实施例所述的方法。
[0037]第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时可实现第一方面任一实施例所述的方法。
[0038]第五方面,本申请实施例提供了一种计算机程序产品,所述的计算机程序产品包括计算机程序,其中,所述的计算机程序被处理器执行时可实现第一方面任一实施例所述的方法。
附图说明
[0039]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0040]图1为本申请实施例提供的一种知识图谱的构建方法的流程示意图;
[0041]图2为本申请实施例提供的数据收集与预处理的流程示意图;
[0042]图3为本申请实施例提供的定制化大语言模型训练的流程示意图;<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种知识图谱的构建方法,其特征在于,包括:根据图谱构建需求确定目标行业;获取与所述目标行业对应的特性训练数据,并基于所述特性训练数据对预选的基础大语言模型进行训练,得到定制化大语言模型;其中,所述特性训练数据包括所述目标行业的特有词汇;利用所述定制化大语言模型对目标文本数据进行信息抽取,并基于抽取得到的信息生成目标知识库;其中,所述信息抽取包括实体抽取、关系抽取和属性抽取;基于所述目标知识库构建适用于所述目标行业的知识图谱。2.根据权利要求1所述的知识图谱的构建方法,其特征在于,所述特性训练数据还包括与所述目标行业相对应的模型架构调整参数;所述基于所述特性训练数据对预选的基础大语言模型进行训练,包括:基于所述模型架构调整参数对所述基础大语言模型进行模型架构调整。3.根据权利要求1所述的知识图谱的构建方法,其特征在于,所述特性训练数据还包括与所述目标行业相对应的特定损失函数;所述基于所述特性训练数据对预选的基础大语言模型进行训练,包括:基于预先获取的验证数据集以及所述特定损失函数对所述基础大语言模型进行性能评估及模型调优。4.根据权利要求1所述的知识图谱的构建方法,其特征在于,在所述利用所述定制化大语言模型对目标文本数据进行信息抽取之前,还包括:利用所述定制化大语言模型基于预设的若干抽取策略分别对测试文本数据进行测试信息抽取;基于抽取得到的测试信息确定与所述若干抽取策略对应的抽取性能,并将抽取性能最优的抽取策略确定为目标抽取策略;所述利用所述定制化大语言模型对目标文本数据进行信息抽取,具体为:利用所述定制化大语言模型基于所述目标抽取策略对目标文本数据进行信息抽取。5.根据权利要求1所述的知识图谱的构建方法,其特征在于,所述基于抽取得到的信息生成目标知识库,包括:查询并判断预配置的数据库中是否...

【专利技术属性】
技术研发人员:周雷皓
申请(专利权)人:北京轻松筹信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1