金融数据的知识图谱的构建方法、装置和电子设备制造方法及图纸

技术编号：40668726 阅读：6 留言：0更新日期：2024-03-18 19:04

本申请提供了一种金融数据的知识图谱的构建方法、装置和电子设备，该方法将GPT模型技术与神经语言学技术进行结合对初始金融数据进行筛选和三元组抽取处理，得到目标三元组数据，最后采用目标三元组数据构建金融数据知识图谱，相比现有方案仅根据NLP或者GPT进行三元组提取，本申请提取的目标三元组数据更为准确，从而提高了构建金融数据知识图谱的效率，进而解决了现有方案仅根据NLP或者GPT进行三元组提取，从而导致构建知识图谱的效率较低的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及数据处理，具体而言，涉及一种金融数据的知识图谱的构建方法、装置、计算机可读存储介质和电子设备。

技术介绍

1、随着自然语言处理(nlp)技术的不断进步，预训练的语言模型如gpt(生成式预训练模型)等的出现，提供了一种强大的工具，可以理解和生成自然语言文本，这些模型具备生成问题和理解语义的能力，适用于知识图谱构建和自然语言问答。但是直接使用gpt大模型从文档中抽取三元组进而构建知识库这种方式存在一定的问题，会造成抽取的三元组信息不够准确。

2、目前传统nlp抽取三元组构建知识图谱的技术通常使用规则和模式匹配来抽取信息，而这些方法可能难以处理自然语言中的复杂语义，它们倾向于依赖特定的模式和规则，难以应对多义词、语言变化和模棱两可的情况，同时，通常需要手动编写和维护大量的规则和模式，以适应不同领域和任务，这是一项繁重和耗时的工作，难以应对知识库的不断更新和扩展。

3、目前直接使用gpt大模型从文档中抽取三元组进而构建知识图谱，可能会在处理复杂或模棱两可的文本时出现误解，导致抽取出错误的三元组；同时，大型语言模型通常是基于无监督学习的，它们不具备文档结构的先验知识，这意味着它们可能无法有效地区分文档中的标题、正文、引用等部分，从而可能导致抽取的信息不精确或不准确；而且，语言模型通常将文本视为一连串的标记，这可能导致在三元组抽取过程中丢失结构化信息，例如，模型可能难以识别关键的实体和关系边界，从而导致信息的丢失。

4、即现有方案仅根据nlp或者gpt进行三元组提取，从而导致构建知识图谱的效率较低。

技术实现思路

1、本申请的主要目的在于提供一种金融数据的知识图谱的构建方法、装置、计算机可读存储介质和电子设备，以至少解决现有方案仅根据nlp或者gpt进行三元组提取，从而导致构建知识图谱的效率较低的问题。

2、为了实现上述目的，根据本申请的一个方面，提供了一种金融数据的知识图谱的构建方法，该方法包括：获取初始金融数据；采用gpt模型技术与神经语言学技术，对初始金融数据进行筛选，得到筛选金融数据；采用gpt模型技术与神经语言学技术，对所述筛选金融数据进行三元组提取处理，得到目标三元组数据，所述目标三元组数据中的每一组三元组数据分别包括实体、关系和属性的数据；采用所述目标三元组数据构建金融数据知识图谱。

3、可选地，采用gpt模型技术与神经语言学技术，对初始金融数据进行筛选，得到筛选金融数据，包括：采用第一gpt模型抽取所述初始金融数据的实体，所述第一gpt模型为用于抽取数据中的实体的gpt模型；采用第二gpt模型，根据所述初始金融数据的实体生成仿真问题，所述第二gpt模型为用于根据实体生成仿真问题的gpt模型；采用第三gpt模型，比较所述仿真问题与所述初始金融数据中各部分数据的相似度，得到多个第一数据相似度，并将各所述第一数据相似度分别与所述第三gpt模型中的第一相似度阈值进行比较，得到多个第一比较结果，并根据所述第一比较结果，对所述初始金融数据进行筛选，得到第一筛选金融数据，所述第三gpt模型为用于确定仿真问题与金融数据的相似度的gpt模型；采用第一神经语言学技术模型，比较所述仿真问题与所述初始金融数据中各部分数据的相似度，得到多个第二数据相似度，并将各所述第二数据相似度分别与所述第一神经语言学技术模型中的第二相似度阈值进行比较，得到多个第二比较结果，并根据所述第二比较结果，对所述初始金融数据进行筛选，得到第二筛选金融数据，其中，所述第一神经语言学技术模型是使用多组第一训练数据训练得到的，所述多组第一训练数据中的每一组第一训练数据均包括历史时间段内获取的：金融数据、仿真问题以及与所述金融数据和所述仿真问题的相似度；对所述第一筛选金融数据和所述第二筛选金融数据进行处理，得到所述筛选金融数据。

4、可选地，根据所述第一比较结果，对所述初始金融数据进行筛选，得到第一筛选金融数据，包括：在所述第一比较结果表征所述第一数据相似度大于或者等于所述第一相似度阈值的情况下，确定与所述第一数据相似度对应的所述初始金融数据的部分数据为所述第一筛选金融数据；在所述第一比较结果表征所述第一数据相似度小于所述第一相似度阈值的情况下，确定与所述第一数据相似度对应的所述初始金融数据的部分数据不为所述第一筛选金融数据。

5、可选地，根据所述第二比较结果，对所述初始金融数据进行筛选，得到第二筛选金融数据，包括：在所述第二比较结果表征所述第二数据相似度大于或者等于所述第二相似度阈值的情况下，确定与所述第二数据相似度对应的所述初始金融数据的部分数据为所述第二筛选金融数据；在所述第二比较结果表征所述第二数据相似度小于所述第二相似度阈值的情况下，确定与所述第二数据相似度对应的所述初始金融数据的部分数据不为所述第二筛选金融数据。

6、可选地，对所述第一筛选金融数据和所述第二筛选金融数据进行处理，得到所述筛选金融数据，包括：组合所述第一筛选金融数据和所述第二筛选金融数据，得到组合金融数据；对所述组合金融数据进行第一去重处理，得到所述筛选金融数据，所述第一去重处理用于删除所述组合金融数据中的重复数据。

7、可选地，采用gpt模型技术与神经语言学技术，对所述筛选金融数据进行三元组提取处理，得到目标三元组数据，包括：采用第四gpt模型，对所述筛选金融数据进行三元组提取处理，得到第一三元组数据，所述第四gpt模型为用于对金融数据进行三元组提取处理的gpt模型；采用第二神经语言学技术模型，对所述筛选金融数据进行三元组提取处理，得到第二三元组数据，其中，所述第二神经语言学技术模型是使用多组第二训练数据训练得到的，所述多组第二训练数据中的每一组第二训练数据均包括历史时间段内获取的：金融数据以及与所述金融数据对应的三元组数据；对所述第一三元组数据和所述第二三元组数据进行处理，得到所述目标三元组数据。

8、可选地，对所述第一三元组数据和所述第二三元组数据进行处理，得到所述目标三元组数据，包括：组合所述第一三元组数据和所述第二三元组数据，得到组合三元组数据；对所述组合三元组数据进行第二去重处理，得到所述目标三元组数据，所述第二去重处理用于删除所述组合三元组数据中的重复的三元组数据。

9、根据本申请的另一方面，提供了一种金融数据的知识图谱的构建装置，该装置包括获取单元、第一处理单元、第二处理单元和构建单元；

10、获取单元，用于获取初始金融数据；

11、第一处理单元，用于采用gpt模型技术与神经语言学技术，对初始金融数据进行筛选，得到筛选金融数据；

12、第二处理单元，用于采用gpt模型技术与神经语言学技术，对所述筛选金融数据进行三元组提取处理，得到目标三元组数据，所述目标三元组数据中的每一组三元组数据分别包括实体、关系和属性的数据；

13、构建单元，用于采用所述目标三元组数据构建金融数据知识图谱。

14、根据本申请的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的程本文档来自技高网...

【技术保护点】

1.一种金融数据的知识图谱的构建方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，采用GPT模型技术与神经语言学技术，对初始金融数据进行筛选，得到筛选金融数据，包括：

3.根据权利要求2所述的方法，其特征在于，根据所述第一比较结果，对所述初始金融数据进行筛选，得到第一筛选金融数据，包括：

4.根据权利要求2所述的方法，其特征在于，根据所述第二比较结果，对所述初始金融数据进行筛选，得到第二筛选金融数据，包括：

5.根据权利要求2所述的方法，其特征在于，对所述第一筛选金融数据和所述第二筛选金融数据进行处理，得到所述筛选金融数据，包括：

6.根据权利要求1所述的方法，其特征在于，采用GPT模型技术与神经语言学技术，

7.根据权利要求6所述的方法，其特征在于，对所述第一三元组数据和所述第二三元组数据进行处理，得到所述目标三元组数据，包括：

8.一种金融数据的知识图谱的构建装置，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其

10.一种电子设备，其特征在于，包括：一个或多个处理器，存储器，以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行权利要求1至7中任意一项所述的方法。

...

【技术特征摘要】

1.一种金融数据的知识图谱的构建方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，采用gpt模型技术与神经语言学技术，对初始金融数据进行筛选，得到筛选金融数据，包括：

3.根据权利要求2所述的方法，其特征在于，根据所述第一比较结果，对所述初始金融数据进行筛选，得到第一筛选金融数据，包括：

4.根据权利要求2所述的方法，其特征在于，根据所述第二比较结果，对所述初始金融数据进行筛选，得到第二筛选金融数据，包括：

5.根据权利要求2所述的方法，其特征在于，对所述第一筛选金融数据和所述第二筛选金融数据进行处理，得到所述筛选金融数据，包括：

6.根据权利要求1所述的方法，其特征在于，采用gpt模...

【专利技术属性】
技术研发人员：周科霖，李健，陈明，武卫东，
申请(专利权)人：北京捷通华声科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人