基于知识图谱的大型语言模型训练方法及装置制造方法及图纸

技术编号:38664019 阅读:13 留言:0更新日期:2023-09-02 22:45
本发明专利技术涉及一种基于知识图谱的大型语言模型训练方法及装置,所述方法包括构建金融知识图谱,导出事件关联的事件,得到事件集合,将所述事件集合转化为事件向量,确定推理目标事件及相关的实体、事件和关系,构建逻辑联通子图,对逻辑联通子图进行简化处理,得到简化逻辑子图,对简化逻辑子图中的所有事件进行排序,形成事件链条,得到逻辑链;根据所述推理目标事件、逻辑链对样本数据进行处理,得到训练样本,对预训练的大型语言模型进行微调训练,得到金融事件预测模型;本申请通过知识图谱,生成有逻辑关系的训练样本,训练大型语言模型,使其具备金融垂直方向的思维推理能力,除此之外,还能大大节省人工整理训练样本成本。还能大大节省人工整理训练样本成本。还能大大节省人工整理训练样本成本。

【技术实现步骤摘要】
基于知识图谱的大型语言模型训练方法及装置


[0001]本专利技术属于语言模型
,具体涉及一种基于知识图谱的大型语言模型训练方法及装置。

技术介绍

[0002]大型语言模型(Large Language Model,LLM)是利用庞大的文本语料库中对仅使用解码器的Transformer模型进行预训练(使用语言建模目标)构建的。只要预先训练足够大的模型,LLM就能在少量样本学习方面具有极强的能力。
[0003]相关技术中,现有的训练自定义模型可以根据特定需求和要求进行调整,包括平台特定功能、术语和上下文,然而这些在通用模型如GPT

4甚至代码特定模型如Codex中都无法被很好支持的。其次,虽然,目前超大规模的生成式大语言模型具有较好的理解和生成能力,但这些模型都集中在少数AI提供商手中。这对于特定领域或者从服务的可延续性和稳定性来说,存在不可控性,必须摆脱对AI提供商的依赖。除此之外,LLM的训练成本极高。为降低成本,需训练定制的大型语言模型,使用特定领域的数据,使其更小、更高效,并且可以大幅降低托管成本。
[0004]而LLM能够解决上述技术问题,实现定制化需求、降低依赖性,还能够降低托管成本,但是虽然LLM具有强大的功能,但在解决金融相关推理问题上仍然存在困难。

技术实现思路

[0005]有鉴于此,本专利技术的目的在于克服现有技术的不足,提供一种基于知识图谱的大型语言模型训练方法及装置,以解决现有技术中大型语言模型在解决金融相关推理问题上仍然存在困难的问题。<br/>[0006]为实现以上目的,本专利技术采用如下技术方案:一种基于知识图谱的大型语言模型训练方法,包括:基于金融历史实体数据、历史事件数据和历史关系数据,以历史实体和历史事件为节点、历史关系为边构建金融知识图谱;获取用于训练的事件,并基于所述金融知识图谱将与所述事件关联的事件导出,得到事件集合,将所述事件集合转化为事件向量;基于所述事件向量构建向量矩阵,并基于所述向量矩阵计算事件集合中两两事件之间的第一相似度,将所述第一相似度高于第一预设阈值对应的事件聚合,得到多个相似事件簇,基于所述相似事件簇确定推理目标事件;基于所述金融知识图谱,确定与所述推理目标事件相关的实体、事件和关系,基于预设时间范围、推理目标事件相关的实体、事件和关系构建逻辑联通子图;对所述逻辑联通子图进行简化处理,得到简化逻辑子图;利用时间属性对所述简化逻辑子图中的所有事件进行排序,形成事件链条,并根据预设的预警事件对所述事件链条进行处理,得到逻辑链;
根据所述推理目标事件、逻辑链对样本数据进行处理,得到训练样本;利用所述训练样本对预训练的大型语言模型进行微调训练,得到金融事件预测模型;所述金融事件预测模型用于金融事件推理。
[0007]进一步的,所述以历史实体和历史事件为节点、历史关系为边构建金融知识图谱,包括:采集大量金融历史实体数据、历史事件数据和历史关系数据;对所述历史事件数据进行分类,得到多种类型的事件;利用预训练的大型语言模型分别提取所述历史实体数据、历史事件数据和历史关系数据中的实体、事件和关系;其中,所述预训练的大型语言模型提取的事件为分类后的事件;以所述实体、事件作为节点,关系作为边构建金融知识图谱,并存储于图数据库。
[0008]进一步的,基于所述相似事件簇确定推理目标事件,包括:计算所述相似事件簇中事件在所述金融知识图谱中的PR值,并计算相似事件簇中所有事件PR值的平均值;基于所述平均值计算所有相似事件簇中的PR值的标准差;将所述标准差低于预设值的相似事件簇中的事件确定为推理目标事件。
[0009]进一步的,基于所述金融知识图谱,确定与所述推理目标事件相关的实体、事件和关系,基于预设时间范围、推理目标事件相关的实体、事件和关系构建逻辑联通子图,包括:利用所述金融知识图谱识别与每个推理目标事件存在关系的实体、事件及关系;其中,所述关系包括事件与机构、人之间的关系,企业间的关系,企业与人的关系;基于预设时间范围内的时序属性,构建具有推理目标事件、推理目标事件相关的实体、事件及关系的逻辑联通子图。
[0010]进一步的,对所述逻辑联通子图进行简化处理,包括:计算所述逻辑联通子图中所有事件向量与所述推理目标事件之间的第二相似度;保留所述第二相似度高于第二预设阈值的事件。
[0011]进一步的,所述根据预设的预警事件对所述事件链条进行处理,得到逻辑链,包括:根据预设预警事件,对存在预警事件的事件链条,将事件链条从预警事件后断开;对无预警事件的事件链条进行舍弃。
[0012]进一步的,所述基于所述向量矩阵计算事件集合中两两事件之间的第一相似度,包括:利用所述向量矩阵与所述向量矩阵的转置矩阵相乘,得到乘积矩阵;利用所述乘积矩阵确定两个事件的第一相似度。
[0013]进一步的,所述第一预设阈值为0.9,第二预设阈值为0.5。
[0014]本申请实施例提供一种基于知识图谱的大型语言模型训练装置,包括:第一构建模块,用于基于金融历史实体数据、历史事件数据和历史关系数据,以历史实体和历史事件为节点、历史关系为边构建金融知识图谱;转化模块,用于获取用于训练的事件,并基于所述金融知识图谱将与所述事件关联的事件导出,得到事件集合,将所述事件集合转化为事件向量;
确定模块,用于基于所述事件向量构建向量矩阵,并基于所述向量矩阵计算事件集合中两两事件之间的第一相似度,将所述第一相似度高于第一预设阈值对应的事件聚合,得到多个相似事件簇,基于所述相似事件簇确定推理目标事件;第二构建模块,用于基于所述金融知识图谱,确定与所述推理目标事件相关的实体、事件和关系,基于预设时间范围、推理目标事件相关的实体、事件和关系构建逻辑联通子图;简化模块,用于对所述逻辑联通子图进行简化处理,得到简化逻辑子图;第一处理模块,用于利用时间属性对所述简化逻辑子图中的所有事件进行排序,形成事件链条,并根据预设的预警事件对所述事件链条进行处理,得到逻辑链;第二处理模块,用于根据所述推理目标事件、逻辑链对样本数据进行处理,得到训练样本;训练模块,用于利用所述训练样本对预训练的大型语言模型进行微调训练,得到金融事件预测模型;所述金融事件预测模型用于金融事件推理。
[0015]本专利技术采用以上技术方案,能够达到的有益效果包括:本专利技术提供一种基于知识图谱的大型语言模型训练方法及装置,本申请通过构建金融知识图谱,获取与事件关联的事件,并转化为向量,得到事件向量,从而构成向量矩阵,基于向量矩阵确定推理目标事件,基于预设时间范围、推理目标事件相关的实体、事件和关系构建逻辑联通子图,简化后得到简化逻辑子图,基于简化逻辑子图形成事件链条,处理后得到逻辑链,根据推理目标事件、逻辑链对样本数据进行处理,得到训练样本,利用训练样本对预训练的大型语言模型进行微调训练,得到金融事件预测模型;金融事件预测模型用于金融事件推理。本申请通过构建知识图谱,生成有逻辑关系的训练样本,训练大型语言模型,使其具备金融垂直方向的思维推理能力,除此之外,还能大大节省人工整理训练样本成本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱的大型语言模型训练方法,其特征在于,包括:基于金融历史实体数据、历史事件数据和历史关系数据,以历史实体和历史事件为节点、历史关系为边构建金融知识图谱;获取用于训练的事件,并基于所述金融知识图谱将与所述事件关联的事件导出,得到事件集合,将所述事件集合转化为事件向量;基于所述事件向量构建向量矩阵,并基于所述向量矩阵计算事件集合中两两事件之间的第一相似度,将所述第一相似度高于第一预设阈值对应的事件聚合,得到多个相似事件簇,基于所述相似事件簇确定推理目标事件;基于所述金融知识图谱,确定与所述推理目标事件相关的实体、事件和关系,基于预设时间范围、推理目标事件相关的实体、事件和关系构建逻辑联通子图;对所述逻辑联通子图进行简化处理,得到简化逻辑子图;利用时间属性对所述简化逻辑子图中的所有事件进行排序,形成事件链条,并根据预设的预警事件对所述事件链条进行处理,得到逻辑链;根据所述推理目标事件、逻辑链对样本数据进行处理,得到训练样本;利用所述训练样本对预训练的大型语言模型进行微调训练,得到金融事件预测模型;所述金融事件预测模型用于金融事件推理。2.根据权利要求1所述的方法,其特征在于,所述以历史实体和历史事件为节点、历史关系为边构建金融知识图谱,包括:采集大量金融历史实体数据、历史事件数据和历史关系数据;对所述历史事件数据进行分类,得到多种类型的事件;利用预训练的大型语言模型分别提取所述历史实体数据、历史事件数据和历史关系数据中的实体、事件和关系;其中,所述预训练的大型语言模型提取的事件为分类后的事件;以所述实体、事件作为节点,关系作为边构建金融知识图谱,并存储于图数据库。3.根据权利要求1或2所述的方法,其特征在于,基于所述相似事件簇确定推理目标事件,包括:计算所述相似事件簇中事件在所述金融知识图谱中的PR值,并计算相似事件簇中所有事件PR值的平均值;基于所述平均值计算所有相似事件簇中的PR值的标准差;将所述标准差低于预设值的相似事件簇中的事件确定为推理目标事件。4.根据权利要求1所述的方法,其特征在于,基于所述金融知识图谱,确定与所述推理目标事件相关的实体、事件和关系,基于预设时间范围、推理目标事件相关的实体、事件和关系构建逻辑联通子图,包括:利用所述金融知识图谱识别与每个推理目标事件存在关系的实体、事件及关系;其中,所述关系包括事...

【专利技术属性】
技术研发人员:贾承斌莫倩智德蔡锦森靳许艾青石雨
申请(专利权)人:网智天元科技集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1