基于大语言模型的知识图谱自动构建查询方法和系统技术方案

技术编号:39844012 阅读:5 留言:0更新日期:2023-12-29 16:35
本发明专利技术公开了基于大语言模型的知识图谱自动构建查询方法和系统,能降低知识图谱的构建成本和使用成本

【技术实现步骤摘要】
基于大语言模型的知识图谱自动构建查询方法和系统


[0001]本专利技术涉及知识图谱的应用领域,具体涉及基于大语言模型的期货尤其是金融期货的知识图谱自动构建查询方法和系统


技术介绍

[0002]以大数据和人工智能为代表的高新技术在金融业的广泛应用,在为金融从业者提供了丰富决策手段的同时,也累积了大量的结构化和非结构化数据

[0003]知识图谱,可以打通多元异构数据,解决数据孤岛化的问题

通过将结构化及非结构化数据抽象为结构化的三元组,使用者可以在统一的框架下利用不同数据进行分析

同时,知识图谱可用于凝练和迭代专家知识,其推理能力和判断能力,可用于厘清风险脉络,拆解风险来源,提升对风险的反应能力和处置能力

[0004]然而,当前知识图谱的构建和使用仍然面对以下挑战:
[0005]在构建方面,知识图谱构建过程通常包括:本体构建

数据收集

数据标注

关系抽取

实体消歧等步骤

故而,一张知识图谱的构建成本主要来自于:专家和标注的人力成本,抽取和消歧的算力成本

[0006]在使用方面,使用知识图谱时需要和图数据库进行交互

如果选择让业务人员通过图数据库查询语言和图数据库直接交互,会带来对业务人员的教育成本

如果选择让开发人员开发中间层进行交互,会带来额外的开发成本

[0007]因此,如何在构建和使用方面,来降本增效,是目前业界亟待解决的问题


技术实现思路

[0008]以下给出一个或多个方面的简要概述以提供对这些方面的基本理解

此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围

其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序

[0009]本专利技术的目的在于解决上述问题,提供了一种基于大语言模型的知识图谱自动构建查询方法和系统,既能降低知识图谱的构建成本,又能降低知识图谱的使用成本

[0010]本专利技术的技术方案为:本专利技术揭示了一种基于大语言模型的知识图谱自动构建查询方法,方法包括:
[0011]步骤1:采集原始数据并对采集到的原始数据进行预处理;
[0012]步骤2:基于预处理的数据来构建异构图;
[0013]步骤3:使用步骤2所构建的异构图以获取查询结果

[0014]根据本专利技术的基于大语言模型的知识图谱自动构建查询方法的一实施例,原始数据分为结构化数据和非结构化数据

[0015]根据本专利技术的基于大语言模型的知识图谱自动构建查询方法的一实施例,步骤1中的结构化数据的预处理进一步包括:
[0016]结构化数据在首次从数据接口接入后,先抽取结构化数据的元数据;
[0017]再从结构化数据中抽取示例数据,以元数据及其示例数据为提示数据,指示大语言模型构造可能的三元组;
[0018]最后,对构造出的三元组,经业务修正后通过脚本批量自动构建

[0019]根据本专利技术的基于大语言模型的知识图谱自动构建查询方法的一实施例,步骤1中的非结构化数据的预处理进一步包括:
[0020]非结构化数据在经过去除格式标签

特殊字符和去重算法的数据清洗后,在提示指引下,非结构化数据采用流式方式输入大语言模型,并返回三元组,其中提示指引是采用思维链模式

[0021]根据本专利技术的基于大语言模型的知识图谱自动构建查询方法的一实施例,步骤2进一步包括:
[0022]首先,在本体构建时,知识图谱借助自动本体构建工具,采用自顶向下的方式构建;
[0023]然后,在确定本体后对三元组进行融合入图,其中在融合过程进行实体消歧和共指消解任务,以在文本中识别和区分不同实体,并定位代词所指的实体,其中在进行实体消歧和共指消解时,采用基于注意力机制的模型和大语言模型相结合的方式;
[0024]最后,在获取相似度和大语言模型建议后,采用加权方式计算出最终相似度,基于计算所得的最终相似度是否超过相似度阈值以获取最终的异构图谱,并存储在图数据库中

[0025]根据本专利技术的基于大语言模型的知识图谱自动构建查询方法的一实施例,基于注意力机制的模型,首先采用双向门控循环单元对词语所在文本进行编码,再通过注意力机制对输入序列中不同位置的信息进行聚焦,最终注意力权重向量与编码器的输出进行加权求和,生成上下文向量即词义表示,对于获取的词义表示,通过余弦相似度进行相似度计算,得到第一相似度;
[0026]基于大语言模型的相似度判断,首先摘取实体存在的上下文,并构建提示,通过大语言模型得到第二相似度

[0027]根据本专利技术的基于大语言模型的知识图谱自动构建查询方法的一实施例,步骤3进一步包括:
[0028]在异构图使用时,输入为人类自然语言问句,首先构造提示,再将所输入的问句所构造的提示输入给大语言模型,由大语言模型生成相应查询语句,获取所生成的查询语句后,经自动解析运行后获取到最终的查询结果

[0029]本专利技术还揭示了一种基于大语言模型的知识图谱自动构建查询系统,系统包括:
[0030]数据采集和预处理模块,采集原始数据并对采集到的原始数据进行预处理;
[0031]异构图构建模块,基于预处理的数据来构建异构图;
[0032]异构图使用模块,使用异构图构建模块所构建的异构图以获取查询结果

[0033]根据本专利技术的基于大语言模型的知识图谱自动构建查询系统的一实施例,原始数据分为结构化数据和非结构化数据

[0034]根据本专利技术的基于大语言模型的知识图谱自动构建查询系统的一实施例,数据采集和预处理模块中的结构化数据的预处理进一步配置为:
[0035]结构化数据在首次从数据接口接入后,先抽取结构化数据的元数据;
[0036]再从结构化数据中抽取示例数据,以元数据及其示例数据为提示数据,指示大语言模型构造可能的三元组;
[0037]最后,对构造出的三元组,经业务修正后通过脚本批量自动构建

[0038]根据本专利技术的基于大语言模型的知识图谱自动构建查询系统的一实施例,数据采集和预处理模块中的非结构化数据的预处理进一步包括:
[0039]非结构化数据在经过去除格式标签

特殊字符和去重算法的数据清洗后,在提示指引下,非结构化数据采用流式方式输入大语言模型,并返回三元组,其中提示指引是采用思维链模式

[0040]根据本专利技术的基于大语言模型的知识图谱自动构建查询系统的一实施例,异本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于大语言模型的知识图谱自动构建查询方法,其特征在于,方法包括:步骤1:采集原始数据并对采集到的原始数据进行预处理;步骤2:基于预处理的数据来构建异构图;步骤3:使用步骤2所构建的异构图以获取查询结果
。2.
根据权利要求1所述的基于大语言模型的知识图谱自动构建查询方法,其特征在于,原始数据分为结构化数据和非结构化数据
。3.
根据权利要求2所述的基于大语言模型的知识图谱自动构建查询方法,其特征在于,步骤1中的结构化数据的预处理进一步包括:结构化数据在首次从数据接口接入后,先抽取结构化数据的元数据;再从结构化数据中抽取示例数据,以元数据及其示例数据为提示数据,指示大语言模型构造可能的三元组;最后,对构造出的三元组,经业务修正后通过脚本批量自动构建
。4.
根据权利要求2所述的基于大语言模型的知识图谱自动构建查询方法,其特征在于,步骤1中的非结构化数据的预处理进一步包括:非结构化数据在经过去除格式标签

特殊字符和去重算法的数据清洗后,在提示指引下,非结构化数据采用流式方式输入大语言模型,并返回三元组,其中提示指引是采用思维链模式
。5.
根据权利要求1所述的基于大语言模型的知识图谱自动构建查询方法,其特征在于,步骤2进一步包括:首先,在本体构建时,知识图谱借助自动本体构建工具,采用自顶向下的方式构建;然后,在确定本体后对三元组进行融合入图,其中在融合过程进行实体消歧和共指消解任务,以在文本中识别和区分不同实体,并定位代词所指的实体,其中在进行实体消歧和共指消解时,采用基于注意力机制的模型和大语言模型相结合的方式;最后,在获取相似度和大语言模型建议后,采用加权方式计算出最终相似度,基于计算所得的最终相似度是否超过相似度阈值以获取最终的异构图谱,并存储在图数据库中
。6.
根据权利要求5所述的基于大语言模型的知识图谱自动构建查询方法,其特征在于,基于注意力机制的模型,首先采用双向门控循环单元对词语所在文本进行编码,再通过注意力机制对输入序列中不同位置的信息进行聚焦,最终注意力权重向量与编码器的输出进行加权求和,生成上下文向量即词义表示,对于获取的词义表示,通过余弦相似度进行相似度计算,得到第一相似度;基于大语言模型的相似度判断,首先摘取实体存在的上下文,并构建提示,通过大语言模型得到第二相似度
。7.
根据权利要求1所述的基于大语言模型的知识图谱自动构建查询方法,其特征在于,步骤3进一步包括:在异构图使用时,输入为人类自然语言问句,首先构造提示,再将所输入的问句所构造的提示输入给大语言模型,由大语言模型生成相应查询语句,获取所生成的查询语句后,经自动解析运行后获取到最终的查询结果
。8.
一种基于大语言模型的知识图谱自动构建查询系统,其特征在于,系...

【专利技术属性】
技术研发人员:马鸿超苗仲辰高剑鲁继东林越峰倪梦珺江航董真豪
申请(专利权)人:上海金融期货信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1