基于知识图谱的大语言模型训练方法技术

技术编号：40363991 阅读：23 留言：0更新日期：2024-02-09 14:51

本发明专利技术涉及数字数据处理技术领域，提出了基于知识图谱的大语言模型训练方法，包括：基于不同数据源的数据构建知识图谱；基于知识图谱中每个实体对应的搜索路径确定搜索路径向量；基于两个实体之间的属性信息以及搜索路径向量确定实体知识关联性；采用聚类算法基于加权实体关联图获取每个知识图谱对应实体节点的聚类结果；基于两个知识图谱中不同实体对应实体节点所在聚类结果上的结构差异确定实体嵌入距离；采用图卷积神经网络基于实体嵌入距离、实体的属性信息以及上下文信息获取实体的对齐结果；基于所有实体的对齐结果完成面向知识问答的大语言模型的训练。本发明专利技术通过知识图谱中实体关系的融合补全，降低原始数据中的语义歧义和噪声干扰。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数字数据处理，具体涉及基于知识图谱的大语言模型训练方法。

技术介绍

1、目前，大语言模型广泛应用在文本生成、机器翻译、知识问答、智能对话系统等多个领域中。大语言模型训练集的有效性决定了大语言模型的性能的优劣。由于大语言模型训练时需要较多的数据才能达到一定的准确率，因此，现阶段通常采用数据融合的方法对多源数据进行数据融合，通过数据融合的结果训练大语言模型。

2、多种数据融合时，不同数据中的实体表达形式可能是不同的，导致在不同来源数据构建的知识图谱中相同实体构建的三元组有所不同，这就会导致后续训练大语言模型时造成学习到语义歧义的样本。知识图谱融合的目的是将各领域中来自不同构建者的知识图谱中实体和关系对应匹配，以获得更完整、更丰富的知识图谱。然而，由于知识图谱构建者的主观性和知识的不唯一性，导致不同知识图谱中常常存在表示不同但含义相同的实体，影响大语言模型的训练集的有效性。

技术实现思路

1、本专利技术提供基于知识图谱的大语言模型训练方法，以解决语义歧义造成的知识图谱实体不对齐，导致训练的大语言模型进行知识问答时性能弱的问题，所采用的技术方案具体如下：

2、本专利技术一个实施例基于知识图谱的大语言模型训练方法，该方法包括以下步骤：

3、基于不同数据源的数据构建知识图谱；

4、利用深度优先搜索算法基于每个知识图谱中每个实体对应的搜索路径确定所述每个实体对应实体节点的搜索路径向量；基于每个知识图谱上任意两个实体之间的属性信息以及两

5、采用聚类算法基于每个知识图谱的加权实体关联图获取每个知识图谱中实体对应实体节点的聚类结果；

6、基于两个知识图谱中不同实体对应实体节点所在聚类结果上的结构差异确定两个知识图谱中不同实体之间的实体嵌入距离；采用图卷积神经网络基于任意两个知识图谱中实体之间的实体嵌入距离、实体的属性信息以及上下文信息获取两个知识图谱中实体的对齐结果；

7、基于所有知识图谱中实体的对齐结果完成面向知识问答的大语言模型的训练。

8、优选的，所述基于不同数据源的数据构建知识图谱的方法为：

9、利用不同的数据采集方式获取不同来源的文本数据；

10、将每种来源的文本数据作为一类原始数据，采用实体命名识别技术、关系抽取技术对每类原始数据进行处理得到预设数量个三元组，基于预设数量个三元组构建每类原始数据的知识图谱。

11、优选的，所述利用深度优先搜索算法基于每个知识图谱中每个实体对应的搜索路径确定所述每个实体对应实体节点的搜索路径向量的方法为：

12、抽取每个知识图谱中同一层级中的所有实体，将所述同一层级中每个实体作为一个实体节点，将任意存在关系的两个实体进行连线，将利用同一层级中的所有实体构建的无向图作为每个知识图谱的同类实体关联图；

13、将每个知识图谱的同类实体关联图作为输入，依次将每个实体节点作为起始节点，采用深度优先搜索算法确定每个实体节点的搜索路径；

14、统计每个实体节点的搜索路径上节点的数量，通过按照位置顺序递减、递减尺度为1的方式对所述搜索路径上的每个节点的位置权重进行赋值，将所述节点的数量作为所述搜索路径上第一个节点的位置权重，将所述搜索路径上最后一个节点的位置权重赋值为1；

15、将所述搜索路径上每个节点对应的词向量作为数组中的第一个元素，将所述搜索路径上每个节点的位置权重作为数组中的第二个元素，将所述搜索路径上每个节点对应的词向量、位置权重组成的数组作为所述搜索路径上每个节点的特征数组；

16、将所有所述节点的特征数组按照距离每个实体节点由近到远的顺序组成的向量作为每个实体节点的搜索路径向量。

17、优选的，所述基于每个知识图谱上任意两个实体之间的属性信息以及两个实体对应实体节点的搜索路径向量确定实体知识关联性的方法为：

18、基于每个知识图谱中两个实体之间属性信息的差异确定两个实体之间的属性相似度；

19、将两个实体之间的属性相似度的相反数与两个实体对应实体节点的搜索路径向量之间的度量距离之和作为第一计算因子；将第一计算因子的数据映射结果作为两个实体之间的实体知识关联性。

20、优选的，所述基于每个知识图谱中两个实体之间属性信息的差异确定两个实体之间的属性相似度的方法为：

21、将每个知识图谱上的每个实体作为一个目标实体，将每个目标实体与其余任意一个实体在目标实体每个属性上属性值差值的绝对值作为第一组成因子；将第一组成因子与每个知识图谱中具有目标实体每个属性的实体数量的乘积作为第一累加因子；

22、将第一累加因子在目标实体所有属性上的累加结果与预设参数之和的倒数作为每个目标实体与其余任意一个实体之间的属性相似度。

23、优选的，所述采用聚类算法基于每个知识图谱的加权实体关联图获取每个知识图谱中实体对应实体节点的聚类结果的方法为：

24、将每个知识图谱上任意两个实体之间的实体知识关联性作为每个知识图谱的同类实体关联图中相应两个实体节点之间的连线权重；每个知识图谱的同类实体关联图添加所有所述连线权重后的结果作为每个知识图谱的加权实体关联图；

25、将每个知识图谱的加权实体关联图作为输入，采用普利姆prim算法得到每个知识图谱对应的最小生成树；将每个知识图谱对应的最小生成树作为输入，采用最小生成树算法得到每个知识图谱的加权实体关联图上每个实体节点所在的子树。

26、优选的，所述基于两个知识图谱中不同实体对应实体节点所在聚类结果上的结构差异确定两个知识图谱中不同实体之间的实体嵌入距离的方法为：

27、将每个子树上每个节点与其余任意一个节点之间的连线的距离作为分子；将每个子树上每个节点与其余任意一个节点对应词向量之间的相似性度量与预设参数之和作为分母；将分子分母的比值作为每个子树上每个节点与其余任意一个节点之间的簇内结构距离；

28、将每个子树上每个节点与其余所有节点之间的簇内结构距离组成的向量作为每个子树上每个节点对应实体的簇内距离向量；

29、基于两个知识图谱中两个实体的簇内距离向量以及两个实体所在子树的相似程度确定所述两个实体之间的实体嵌入距离。

30、优选的，所述基于两个知识图谱中两个实体的簇内距离向量以及两个实体所在子树的相似程度确定所述两个实体之间的实体嵌入距离的方法为：

31、获取任意两个子树之间的最大公共子树，将所述最大公共子树上节点的数量与两个子树上节点数量中最大值的比值作为两个子树之间的树相似度；并将每个子树上任意一个不在所述最大公共子树上的节点标记为每个子树上的一个欺诈节点；

32、将两个知识图谱中两个实体的簇内距离向量之间的度量距离作为第一乘积因子；将两个知识图谱中两个实体对应实体节点所在子树上欺诈节点数量之和的数据映射结果作为第二乘积因子；将第一乘积因本文档来自技高网...

【技术保护点】

1.基于知识图谱的大语言模型训练方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的基于知识图谱的大语言模型训练方法，其特征在于，所述基于不同数据源的数据构建知识图谱的方法为：

3.根据权利要求1所述的基于知识图谱的大语言模型训练方法，其特征在于，所述基于每个知识图谱上任意两个实体之间的属性信息以及两个实体对应实体节点的搜索路径向量确定实体知识关联性的方法为：

4.根据权利要求3所述的基于知识图谱的大语言模型训练方法，其特征在于，所述基于每个知识图谱中两个实体之间属性信息的差异确定两个实体之间的属性相似度的方法为：

5.根据权利要求1所述的基于知识图谱的大语言模型训练方法，其特征在于，所述采用聚类算法基于每个知识图谱的加权实体关联图获取每个知识图谱中实体对应实体节点的聚类结果的方法为：

6.根据权利要求1所述的基于知识图谱的大语言模型训练方法，其特征在于，所述基于两个知识图谱中两个实体的簇内距离向量以及两个实体所在子树的相似程度确定所述两个实体之间的实体嵌入距离的方法为：

7.根据权利要求1所述的

8.根据权利要求1所述的基于知识图谱的大语言模型训练方法，其特征在于，所述基于所有知识图谱中实体的对齐结果完成面向知识问答的大语言模型的训练的方法为：

...

【技术特征摘要】

1.基于知识图谱的大语言模型训练方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的基于知识图谱的大语言模型训练方法，其特征在于，所述基于不同数据源的数据构建知识图谱的方法为：

5.根据权利要求1所述的基于知识图谱的大语言模型训练方法，其特征在于，所述采用聚类算法基于...

【专利技术属性】
技术研发人员：屠静，王亚，赵策，苏岳，万晶晶，李伟伟，颉彬，周勤民，张玥，雷媛媛，孙岩，潘亮亮，刘岩，
申请(专利权)人：卓世科技海南有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人