一种基于生成式大语言模型的金融业知识图谱构建方法技术

技术编号：40250176 阅读：6 留言：0更新日期：2024-02-02 22:44

本发明专利技术公开了一种基于生成式大语言模型的金融业知识图谱构建方法，基于外部数据调用大语言模型API或部署大语言模型做知识抽取，基于内部数据部署大语言模型做知识抽取，汇总内外部抽取结果并引入知识融合来构造定制化的知识抽取数据集，训练和优化内部的知识抽取模型，将抽取出的三元组导入内部的图数据库，实现知识图谱构建。本发明专利技术引入了知识融合机制，使生成式模型构造定制化的训练数据，提升了知识图谱构建的准确性和完整。在满足金融业保密性要求的前提下，在数据和算力资源有限的条件下，实现了既适用于内部场景，又能融合外部知识的知识图谱构建方案，具有成本低且数据质量好的优势。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种知识图谱构建方法，尤其涉及一种基于生成式大语言模型的金融业知识图谱构建方法。

技术介绍

1、知识图谱是人工智能的一大底层技术，是描绘实体之间关系的语义网络，通过三元组即“实体-关系-属性”集合的形式来描述事物之间的关系。知识图谱将非线性世界中的知识信息结构化、可视化，辅助人类进行推理、预判、归类。

2、从技术上讲，知识图谱可分为构建和应用两大部分，知识图谱构建通常包括数据获取、知识抽取、知识融合、知识加工、知识存储等流程。从应用上讲，知识图谱在金融信贷风控、精准营销、业务流程优化等方面有着重要意义，引入知识图谱可以提升金融风控防范手段，比如风控数据的整合与监控预警、对借款人历史财务信息的动态分析、信贷诈骗团伙的挖掘等。从技术上讲，知识图谱的构建是知识图谱应用的前提，是知识图谱产品的核心，其难度高、影响大。

3、生成式人工智能是指使用各种机器学习算法，从数据中学习要素，使机器能够创建全新的数字视频、图像、文本、音频或代码等内容，创建出的内容与训练数据保存相似，而非复制。

4、chatgpt是一种基于gpt网络结构的大语言模型(large language model，简称llm)，自2022年底问世以来，其表现出了优秀的语言理解、生成、知识推理等能力，它可以极好地理解用户意图，真正做到多轮沟通，并且回答内容完整、重点清晰、有概况、有逻辑、有条理。chatgpt的成功表现，使人们看到了解决自然语言处理这一认知智能核心问题的路径，可通过生成式大语言模型优秀的泛化能力，迈向通用人工智能。

5、目前，在金融业的知识图谱领域中，尚未有引入生成式大语言模型的先例，都是基于传统专家经验和机器学习模型的知识图谱构建方案。普遍存在如下技术缺点：

6、(1)没有做知识融合，导致知识提取的准确率下降，知识杂乱无章，进而影响知识图谱的应用效果；

7、(2)chatgpt出现之前，自然语言处理的应用以bert模型为主，该模型与gpt均基于transformer架构，但略有不同。bert属于判别式模型，基于bert模型做知识抽取，无法提取出在文本中未明确出现的关系，构建出的知识图谱数据量较小，无法满足大规模应用场景；

8、(3)金融场景下有数据保密要求，机构的文本数据大多数情况下仅能在内网操作，现有技术均未提及此场景下的实施方案，没有针对保密场景进行定制化改进。

技术实现思路

1、为了解决上述技术所存在的不足之处，本专利技术提供了一种基于生成式大语言模型的金融业知识图谱构建方法。

2、为了解决以上技术问题，本专利技术采用的技术方案是：一种基于生成式大语言模型的金融业知识图谱构建方法，包括以下构建步骤：

3、s1、获取内部数据、外部数据；

4、s2、基于内部数据，设计知识图谱的schema；

5、s3、基于外部数据调用大语言模型做知识抽取，获得基于外部数据的知识抽取结果；

6、s4、基于内部数据调用大语言模型做知识抽取，获得基于内部数据的知识抽取结果；

7、s5、外部数据、内部数据的知识抽取结果进行知识融合，构造定制化的知识抽取数据集；

8、s6、以知识抽取数据集进行内部的知识抽取模型的训练和优化；

9、s7、应用训练好的知识抽取模型进行预测，抽取结果导入图数据库，完成知识图谱构建。

10、作为优选地，内部数据通过内部网络获取，以文本为主。

11、作为优选地，通过对内部数据的分析，设计知识图谱的schema和内部数据知识提取的prompt，通过python脚本构造大量prompt，并调用内部自行部署的大语言模型，将prompt输入给大语言模型，得到基于内部数据的知识抽取结果，并保存下来。

12、作为优选地，外部数据通过在外部网络搜索和爬取金融领域相关的数据，包括新闻公告、百科词条、财经文档、企业和个人信息以及公开的金融领域数据集，共同构造金融领域文本数据集。

13、作为优选地，金融领域文本数据集，无需标注，与内部数据的schema相结合，通过python脚本构造大量prompt，使用api调用大语言模型或自行部署大语言模型，将prompt输入给大语言模型，获得金融领域文本数据集的知识抽取结果，并保存下来。

14、作为优选地，知识融合的具体过程为：汇总内部数据和外部数据的知识抽取结果，直接进行合并，获得合并后的数据集；

15、对合并后的数据，采用金融行业规则、最小编辑距离和n-gram语言模型进行实体之间的知识融合。

16、作为优选地，实体之间知识融合的方法包括：本体匹配，即在两个不同的本体之间进行知识匹配和融合，找出它们之间的相似度和差异，并将三元组进行合并，得到三元组集合。

17、作为优选地，知识抽取模型训练过程为：采用知识融合后的三元组集合构造知识抽取模型的训练集和测试集，在内部网络基于bert+crf模型训练知识抽取模型，通过调整参数、数据集处理，最终实现效果可用的知识抽取模型。

18、作为优选地，在数据和算力允许的情况下，也可以直接使用大语言模型或通过训练集对大语言模型进行微调，最终可得到效果更佳的知识抽取模型。

19、作为优选地，基于训练完成的知识抽取模型，对内部文本数据进行预测，将提取出的三元组导入图数据库并形成知识库，完成金融业知识图谱的构建。

20、本专利技术基于业务痛点和技术经验，提出了一种基于生成式大语言模型的金融业知识图谱构建方法，引入以下三种新方向，在算力和内部数据有限的条件下，尽可能提升知识抽取的准确性和通用性，实现效果更佳的知识图谱构建：

21、1)基于金融领域规则集、最小编辑距离、n-gram语言模型的知识融合机制实现内、外部知识抽取的融合。

22、2)使用语言理解能力更为优秀的生成式大语言模型来生成训练集，而不是只使用bert来实现知识抽取。

23、3)是一种内、外网数据融合的方案，在外网直接调用生成式语言模型服务，自动且批量抽取三元组，将生成的三元组引入至内网环境，用于提升在内网训练私有化的知识抽取模型的效果。

24、若内网算力资源足够，可直接微调生成式大语言模型实现定制化知识抽取，若内网算力资源不足，可部署生成式大语言模型+训练bert模型来实现定制化知识抽取，最终在算力和内部数据有限的条件下，提升了知识抽取的准确性和通用性。

25、综上可知，与现有技术相比，本专利技术减少对数据标注的依赖，降低知识图谱构建的成本和门槛。并且，以机器自动识别为主，减少对人工经验的依赖，提高构建效率和知识图谱数据质量。

本文档来自技高网...

【技术保护点】

1.一种基于生成式大语言模型的金融业知识图谱构建方法，其特征在于：包括以下构建步骤：

2.根据权利要求1所述的基于生成式大语言模型的金融业知识图谱构建方法，其特征在于：内部数据通过内部网络获取，以文本为主。

3.根据权利要求2所述的基于生成式大语言模型的金融业知识图谱构建方法，其特征在于：通过对内部数据的分析，设计知识图谱的schema和内部数据知识提取的prompt，通过python脚本构造大量prompt，并调用内部自行部署的大语言模型，将prompt输入给大语言模型，得到基于内部数据的知识抽取结果，并保存下来。

4.根据权利要求2-3任一项所述的基于生成式大语言模型的金融业知识图谱构建方法，其特征在于：外部数据通过在外部网络搜索和爬取金融领域相关的数据，包括新闻公告、百科词条、财经文档、企业和个人信息以及公开的金融领域数据集，共同构造金融领域文本数据集。

5.根据权利要求4所述的基于生成式大语言模型的金融业知识图谱构建方法，其特征在于：金融领域文本数据集，无需标注，与内部数据的schema相结合，通过python脚本构造大量p

6.根据权利要求1所述的基于生成式大语言模型的金融业知识图谱构建方法，其特征在于：知识融合的具体过程为：汇总内部数据和外部数据的知识抽取结果，直接进行合并，获得合并后的数据集；

7.根据权利要求6所述的基于生成式大语言模型的金融业知识图谱构建方法，其特征在于：实体之间知识融合的方法包括：本体匹配，即在两个不同的本体之间进行知识匹配和融合，找出它们之间的相似度和差异，并将三元组进行合并，得到三元组集合。

8.根据权利要求1所述的基于生成式大语言模型的金融业知识图谱构建方法，其特征在于：知识抽取模型训练优化过程为：采用知识融合后的三元组集合构造知识抽取模型的训练集和测试集，在内部网络基于Bert+CRF模型训练知识抽取模型，通过调整参数、数据集处理，最终实现效果可用的知识抽取模型。

9.根据权利要求8所述的基于生成式大语言模型的金融业知识图谱构建方法，其特征在于：在数据和算力允许的情况下，也可以直接使用大语言模型或通过训练集对大语言模型进行微调，最终可得到效果更佳的知识抽取模型。

10.根据权利要求9所述的基于生成式大语言模型的金融业知识图谱构建方法，其特征在于：基于训练完成的知识抽取模型，对内部文本数据进行预测，将提取出的三元组导入图数据库并形成知识库，完成金融业知识图谱的构建。

...

【技术特征摘要】

1.一种基于生成式大语言模型的金融业知识图谱构建方法，其特征在于：包括以下构建步骤：

2.根据权利要求1所述的基于生成式大语言模型的金融业知识图谱构建方法，其特征在于：内部数据通过内部网络获取，以文本为主。

5.根据权利要求4所述的基于生成式大语言模型的金融业知识图谱构建方法，其特征在于：金融领域文本数据集，无需标注，与内部数据的schema相结合，通过python脚本构造大量prompt，使用api调用大语言模型或自行部署大语言模型，将prompt输入给大语言模型，获得金融领域文本数据集的知识抽取结果，并保存下来。

【专利技术属性】
技术研发人员：周俊，李学勇，何海清，姜超，
申请(专利权)人：渤海银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人