大模型抽取三元组构建知识图谱的方法技术

技术编号:39843396 阅读:7 留言:0更新日期:2023-12-29 16:34
本发明专利技术公开了一种大模型抽取三元组构建知识图谱的方法

【技术实现步骤摘要】
大模型抽取三元组构建知识图谱的方法、系统及介质


[0001]本专利技术涉及计算机软件
,具体涉及一种大模型抽取三元组构建知识图谱的方法

系统

终端及介质


技术介绍

[0002]知识图谱技术是一种用于表示和组织结构化知识的方法和工具集合,它通过将现实世界中的实体
(
如人物

地点

时间
)
和它们之间的关系以图形的形式进行建模,从而形成一个包含丰富语义信息的知识网络

通常由三个核心元素组成:实体
——
代表现实世界中的具体对象或抽象概念,如人

地点

产品等,每个实体都有一个唯一的标识符,并可以与其他实体进行连接;属性
——
主要描述了实体的特征

性质或关联信息,例如,对于人这个实体,属性可以包括姓名

年龄

职业等,属性可以帮助我们更详细地描述和理解实体;关系
——
表示实体之间的连接或相互作用,它描述了实体之间的关联性或依赖关系,例如,人与公司之间可以有雇佣关系,人与地点之间可以有出生地关系等

[0003]知识图谱技术的目标是通过结构化的方式捕捉和组织知识,以便于机器理解和推理

它可以被广泛应用于许多领域,例如自然语言处理

智能搜索

推荐系统/>、
问答系统

人工智能助手等

[0004]在自然语言处理和知识图谱构建中,三元组通常用于表示实体之间的关系,而三元组的抽取则是指从自然语言文本中提出包含主体

谓词和客体的三元组结构

通过抽取和整理大量的三元组,可以构建知识图谱,将实体和它们之间的关系以图的形式表示,三元组的抽取是将自然语言文本转化为结构化知识表示的重要步骤

尽管有许多研究和技术用于三元组抽取,但仍存在一些困难和挑战,主要包括:多样性和复杂性
——
文本数据的多样性和复杂性使得三元组抽取任务具有挑战性

不同类型的文本
(
如新闻

论坛站子

科技报告
)
涉及的领域

语言风格和表达方式各不相同,需要适应不同的文本特征;命名实体识别
——
准确地识别出文本中的命名实体是进行三元组抽取的首要步骤

然而,命名实体识别面临着歧义性

上下文依赖性和未知实体等问题,特别是对于新兴词汇,专有名词或少见实体的识别更为困难;实体消歧
——
在三元组抽取过程中,如果一个实体在文本中有多个指称,需要将它们正确地关联到同一个实体

实体消歧是一个复杂的任务,需要结合上下文信息

知识库和推理技术来解决消歧问题;关系抽取
——
识别和分类实体之间的关系是三元组抽取的核心部分

关系可能具有不同的表达形式

多样的上下文环境,并且可能涉及到隐含信息和推理

有效地捕捉和建模这些复杂关系是一个挑战;数据标注和训练集
——
进行三元组抽取需要大量标注好的训练数据集

然而,创建高质量的标注数据集是一项耗时费力的任务,特别是对于特定领域或细粒度的抽取任务

缺乏足够规模和质量的训练数据会限制模型的性能和泛化能力;领域适应性
——
三元组抽取在不同领域和任务之间的适应性是一个挑战

模型的性能受限于训练数据的领域范围,可能在其他领域中表现较差

因此,如何能更好地从文本数据中抽取三元组构建知识图谱是需要解决的技术问题


技术实现思路

[0005]针对现有技术中的缺陷,本专利技术实施例提供一种大模型抽取三元组构建知识图谱的方法

系统

终端及介质,能深度分析文本,精准的从文本数据中识别出实体

关系和属性,高效地构建出知识图谱

[0006]第一方面,本专利技术实施例提供的一种大模型抽取三元组构建知识图谱的方法,包括:
[0007]获取输入的待抽取的文本数据;
[0008]对所述文本数据进行预处理得到预处理后的文本数据,使用大模型对预处理后的文本数据抽取语义三元组;
[0009]对所述语义三元组进行校正,得到校正后的语义三元组;
[0010]对所述校正后的语义三元组进行语义建模得到知识图谱
schema
建模结果;
[0011]将所述校正后的语义三元组与知识图谱
schema
建模结果进行数据映射,设置构建参数自动进行数据导图构建语义知识图谱;
[0012]输出语义知识图谱

[0013]第二方面,本专利技术实施例提供的一种大模型抽取三元组构建知识图谱的系统,包括:获取模块

三元组抽取模块

校正模块

建模模块

知识图谱构建模块和输出模块,
[0014]所述获取模块用于获取输入的待抽取的文本数据;
[0015]所述三元组抽取模块用于对所述文本数据进行预处理得到预处理后的文本数据,使用大模型对预处理后的文本数据抽取语义三元组;
[0016]所述校正模块用于对所述语义三元组进行校正,得到校正后的语义三元组;
[0017]所述建模模块用于对所述校正后的语义三元组进行语义建模得到知识图谱
schema
建模结果;
[0018]所述知识图谱构建模块将所述校正后的语义三元组与知识图谱
schema
建模结果进行数据映射,设置构建参数自动进行数据导图构建语义知识图谱;
[0019]所述输出模块用于输出语义知识图谱

[0020]第三方面,本专利技术实施例提供的一种智能终端,包括处理器

输入设备

输出设备和存储器,所述处理器分别与输入设备

输出设备和存储器连接,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述实施例描述的方法

[0021]第四方面,本专利技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述实施例描述的方法

[0022]本专利技术的有益效果:
[0023]本专利技术实施例提供的一种大模型抽取三元组构建知识本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种大模型抽取三元组构建知识图谱的方法,其特征在于,包括:获取输入的待抽取的文本数据;对所述文本数据进行预处理得到预处理后的文本数据,使用大模型对预处理后的文本数据抽取语义三元组;对所述语义三元组进行校正,得到校正后的语义三元组;对所述校正后的语义三元组进行语义建模得到知识图谱
schema
建模结果;将所述校正后的语义三元组与知识图谱
schema
建模结果进行数据映射,设置构建参数自动进行数据导图构建语义知识图谱;输出语义知识图谱
。2.
如权利要求1所述的方法,其特征在于,所述对文本数据进行预处理的具体方法包括:通过
OCR
技术识别出文本数据中的字符;采用规则匹配技术对识别出的字符进行规则匹配
。3.
如权利要求2所述的方法,其特征在于,所述使用大模型对预处理后的文本数据抽取语义三元组的具体方法包括
:
采用大模型对预处理后的文本数据进行分词

句法分析和命名实体识别得到语义表示和上下文信息;对语义表示和上下文信息采用独热编码进行编码;将所述语义表示和上下文信息转换为向量表示
。4.
如权利要求3所述的方法,其特征在于,所述对语义三元组进行校正的具体的方法包括:利用图算法对向量表示的语义三元组消除语法歧义,合并相似度接近的语义三元组
。5.
如权利要求4所述的方法,其特征在于,所述对校正后的语义三元组进行语义建模得到知识图谱
schema
建模结果的具体方法包括:从校正后的语义三元组中抽取主体

谓词

实体及三者之间的关系得到抽取结果;根据抽取结果进行语义建模得到知识图谱
schema
建模结果
。6.
一种大模型抽取三元组构建知识图谱的系统,其特征在于,包括:获取模块

三元组抽取模块

校正模块

建模模块

【专利技术属性】
技术研发人员:张晨周研吴菁徐文龙
申请(专利权)人:浙江创邻科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1