System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及知识图谱,尤其涉及一种知识图谱构建方法、装置、设备、存储介质。
技术介绍
1、随着人工智能技术的飞速发展,自然语言处理技术成为了人工智能领域中的热门应用之一,其中的知识图谱技术是一种有效理解文本的方法。通过构建知识图谱,将文本中的实体和他们之间的关系组织转换为图结构,使文本中的信息转换为计算机可以理解和处理的形式。
2、在现有技术中,构建知识图谱的过程为数据经过清洗后转换为符合要求的结构化数据,期间涉及硬规则的配置、大量的自然语言处理模型的训练和调优工作。因此在构建知识图谱时会耗费大量的人力和时间,在面对大量的非结构化数据时,知识图谱的构建效率较低。
技术实现思路
1、本申请提供一种知识图谱构建方法、装置、设备及存储介质,以解决现有技术中构建知识图谱会耗费大量人力和时间的问题,提高了知识图谱的构建效率。
2、第一方面,本申请提供了一种知识图谱构建方法,包括:
3、对目标文本进行切分以获取多个文本片段,通过预设的大语言模型提取每个所述文本片段中的实体候选词;
4、在实体数据库中确定出与所述实体候选词匹配的目标实体,将所述文本片段中的实体候选词替换为对应匹配的目标实体;
5、通过所述大语言模型,确定替换后的文本片段中各两个目标实体之间的关系;
6、根据所述两个目标实体和对应关系构造第一三元组,通过所述第一三元组构建知识图谱。
7、可选地,所述通过预设的大语言模型提取每个所述文本片段中的实体候选
8、基于所述文本片段,通过少样本方式构造包含示例的第一提示词;
9、将所述第一提示词输入预设的大语言模型,得到所述大语言模型输出的对应文本片段中的实体候选词。
10、可选地,在所述通过预设的大语言模型提取每个所述文本片段中的实体候选词之后,还包括:
11、基于预设的停用词库,剔除各个所述实体候选词中的停用词。
12、可选地,所述在实体数据库中确定出与所述实体候选词匹配的目标实体,包括:
13、基于所述实体候选词的向量和所述实体数据库中每个实体的向量,确定所述实体候选词与每个所述实体的相似度;
14、基于所述相似度的从大到小的顺序,对相应的实体进行排序,将排序靠前的多个实体确定为所述实体候选词对应的候选实体;
15、基于所述实体候选词、所述文本片段和多个所述候选实体,构造第二提示词;
16、将所述第二提示词输入所述大语言模型,得到所述大语言模型输出的与所述实体候选词匹配的目标实体。
17、可选地,所述通过所述大语言模型确定替换后的文本片段中各两个目标实体之间的关系,包括:
18、基于替换后的文本片段以及替换后的文本片段中的目标实体,构造第三提示词;
19、将所述第三提示词输入所述大语言模型,得到所述大语言模型输出的替换后的文本片段中各两个目标实体之间的关系。
20、可选地,在所述将所述文本片段中的实体候选词替换为对应匹配的目标实体之后,还包括:
21、基于替换后的文本片段以及替换后的文本片段中的目标实体,构造第四提示词;
22、将所述第四提示词输入所述大语言模型,得到所述大语言模型输出对应目标实体的属性名和属性值;
23、根据所述目标实体、所述属性名和所述属性值构造第二三元组,通过所述第二三元组构建知识图谱。
24、可选地,在所述将所述文本片段中的实体候选词替换为对应匹配的目标实体之后,还包括:
25、根据预设的敏感词构建字典树,根据所述字典树生成ac自动机;
26、通过所述ac自动机确定所述目标实体的敏感词属性;
27、根据所述目标实体和所述敏感词属性构造第三三元组,通过所述第三三元组构建知识图谱。
28、第二方面,本申请提供了一种知识图谱构建装置,包括:
29、候选词确定模块,被配置为对目标文本进行切分以获取多个文本片段,通过预设的大语言模型提取每个所述文本片段中的实体候选词;
30、目标实体确定模块,被配置为在实体数据库中确定出与所述实体候选词匹配的目标实体,将所述文本片段中的实体候选词替换为对应匹配的目标实体;
31、实体关系确定模块,被配置为通过所述大语言模型,确定替换后的文本片段中各两个目标实体之间的关系;
32、第一构建模块,被配置为根据所述两个目标实体和对应关系构造第一三元组,通过所述第一三元组构建知识图谱。
33、可选地,所述候选词确定模块包括:
34、第一提示词构造单元,被配置为基于所述文本片段,通过少样本方式构造包含示例的第一提示词;
35、候选词确定单元,被配置为将所述第一提示词输入预设的大语言模型,得到所述大语言模型输出的对应文本片段中的实体候选词。
36、可选地,所述候选词确定模块还包括:
37、停用词剔除单元,被配置为在所述通过预设的大语言模型提取每个所述文本片段中的实体候选词之后,基于预设的停用词库,剔除各个所述实体候选词中的停用词。
38、可选地,所述目标实体确定模块包括:
39、相似度确定单元,被配置为基于所述实体候选词的向量和所述实体数据库中每个实体的向量,确定所述实体候选词与每个所述实体的相似度;
40、候选实体确定单元,被配置为基于所述相似度的从大到小的顺序,对相应的实体进行排序,将排序靠前的多个实体确定为所述实体候选词对应的候选实体;
41、第二提示词构造单元,被配置为基于所述实体候选词、所述文本片段和多个所述候选实体,构造第二提示词;
42、目标实体确定单元,被配置为将所述第二提示词输入所述大语言模型,得到所述大语言模型输出的与所述实体候选词匹配的目标实体。
43、可选地,所述实体关系确定模块包括:
44、第三提示词构造单元,被配置为基于替换后的文本片段以及替换后的文本片段中的目标实体,构造第三提示词;
45、实体关系确定单元,被配置为将所述第三提示词输入所述大语言模型,得到所述大语言模型输出的替换后的文本片段中各两个目标实体之间的关系。
46、可选地,所述知识图谱构建装置还包括第二构建模块,所述第二构建模块包括:
47、第四提示词构造单元,被配置为在所述将所述文本片段中的实体候选词替换为对应匹配的目标实体之后,基于替换后的文本片段以及替换后的文本片段中的目标实体,构造第四提示词;
48、属性确定单元,被配置为将所述第四提示词输入所述大语言模型,得到所述大语言模型输出对应目标实体的属性名和属性值;
49、第二构建单元,被配置为根据所述目标实体、所述属性名和所述属性值构造第二三元组,通过所述第二三元组构建知识图谱。
50、可选地,所述知识图谱构建装置还包括第三构建模块,所述本文档来自技高网...
【技术保护点】
1.一种知识图谱构建方法,其特征在于,包括:
2.根据权利要求1所述的知识图谱构建方法,其特征在于,所述通过预设的大语言模型提取每个所述文本片段中的实体候选词,包括:
3.根据权利要求1所述的知识图谱构建方法,其特征在于,在所述通过预设的大语言模型提取每个所述文本片段中的实体候选词之后,还包括:
4.根据权利要求1所述的知识图谱构建方法,其特征在于,所述在实体数据库中确定出与所述实体候选词匹配的目标实体,包括:
5.根据权利要求1所述的知识图谱构建方法,其特征在于,所述通过所述大语言模型确定替换后的文本片段中各两个目标实体之间的关系,包括:
6.根据权利要求1所述的知识图谱构建方法,其特征在于,在所述将所述文本片段中的实体候选词替换为对应匹配的目标实体之后,还包括:
7.根据权利要求1所述的知识图谱构建方法,其特征在于,在所述将所述文本片段中的实体候选词替换为对应匹配的目标实体之后,还包括:
8.一种知识图谱构建装置,其特征在于,包括:
9.一种知识图谱构建设备,其特征在于,包括:
...【技术特征摘要】
1.一种知识图谱构建方法,其特征在于,包括:
2.根据权利要求1所述的知识图谱构建方法,其特征在于,所述通过预设的大语言模型提取每个所述文本片段中的实体候选词,包括:
3.根据权利要求1所述的知识图谱构建方法,其特征在于,在所述通过预设的大语言模型提取每个所述文本片段中的实体候选词之后,还包括:
4.根据权利要求1所述的知识图谱构建方法,其特征在于,所述在实体数据库中确定出与所述实体候选词匹配的目标实体,包括:
5.根据权利要求1所述的知识图谱构建方法,其特征在于,所述通过所述大语言模型确定替换后的文本片段中各两个目标实体...
【专利技术属性】
技术研发人员:罗志达,秦基伟,洪敏新,
申请(专利权)人:佳都科技集团股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。