System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及知识图谱,更具体的说,是涉及一种知识图谱构建方法、装置、设备及可读存储介质。
技术介绍
1、随着互联网和大数据技术的不断发展和应用,各种文本、图像、语音、视频数据信息日益增加。存储和利用大量的数据信息已成为数据信息时代必备的技术。知识图谱是结构化存储显式知识的数据模型,可存储通用领域以及生物、医疗、教育、金融、法律等各个特定领域的知识,具有准确性、确定性和可解释性等优点,通过构建知识图谱能够高效存储和运用大量的知识。
2、目前的知识图谱构建方法,主要有人工手动构建方法、基于机器学习模型的半自动构建方法、基于机器学习模型的全自动构建方法。其中,人工手动构建的知识图谱准确性受限于人工的构建能力。基于机器学习模型的半自动构建方法和基于机器学习模型的全自动构建方法主要涉及到命名实体识别、共指消解和关系抽取,但构建的知识图谱准确性受限于数据质量和机器学习模型精度。另外,随着相关事物的不断发展,知识图谱难免存在不完备的知识和未知的事实,因此,需要对构建的知识图谱进行优化。
3、因此,如何提供一种知识图谱构建方法,以提升知识图谱的准确性,成为本领域技术人员亟待解决的技术问题。
技术实现思路
1、鉴于上述问题,本申请提出了一种知识图谱构建方法、装置、设备及可读存储介质,以提升知识图谱的准确性。具体方案如下:
2、一种知识图谱构建方法,所述方法包括:
3、获取原始非结构化数据;
4、对所述原始非结构化数据进行预处理,得到预处理后的
5、基于所述预处理后的非结构化数据,构建得到原始知识图谱;
6、利用监督优化后的多模态大语言模型对所述原始知识图谱进行优化,得到优化后的知识图谱,所述监督优化后的多模态大语言模型是利用所述预处理后的非结构化数据,以及,所述原始知识图谱,对多模态大语言模型进行监督优化后得到的。
7、可选地,所述对所述原始非结构化数据进行预处理,得到预处理后的非结构化数据,包括:
8、对所述原始非结构化数据进行过滤,和/或,对所述原始非结构化数据进行修正,得到预处理后的非结构化数据。
9、可选地,所述基于所述预处理后的非结构化数据,构建得到原始知识图谱,包括:
10、利用知识图谱构建模型对所述预处理后的非结构化数据进行命名实体识别、关系抽取和共指消解,构建得到原始知识图谱。
11、可选地,所述利用所述预处理后的非结构化数据,以及,所述原始知识图谱,对多模态大语言模型进行监督优化,包括:
12、对所述预处理后的非结构化数据进行编码,得到非结构化数据特征;
13、对所述原始知识图谱进行编码,得到知识图谱特征;
14、基于所述知识图谱特征与所述非结构化数据特征,对多模态大语言模型进行监督优化。
15、可选地,所述基于所述知识图谱特征与所述非结构化数据特征,对多模态大语言模型进行监督优化,包括:
16、基于所述非结构化数据特征,利用第一任务对所述多模态大语言模型进行监督优化;
17、将所述非结构化数据特征以及所述知识图谱特征,利用第二任务对所述多模态大语言模型进行监督优化。
18、可选地,所述利用所述监督优化后的多模态大语言模型对所述原始知识图谱进行优化,得到优化后的知识图谱,包括:
19、获取新增原始非结构化数据;
20、利用所述监督优化后的多模态大语言模型对所述新增原始非结构化数据进行预处理,得到预处理后的新增原始非结构化数据;
21、基于所述预处理后的新增原始非结构化数据,利用所述监督优化后的多模态大语言模型对所述原始知识图谱进行优化,得到优化后的知识图谱。
22、可选地,在所述基于所述预处理后的新增原始非结构化数据,利用所述监督优化后的多模态大语言模型对所述原始知识图谱进行优化,得到优化后的知识图谱之后,所述方法还包括:
23、利用所述预处理后的新增非结构化数据,以及,所述优化后的知识图谱,对所述监督优化后的多模态大语言模型再次进行监督优化。
24、一种知识图谱构建装置,所述装置包括:
25、原始非结构化数据获取单元,用于获取原始非结构化数据;
26、原始非结构化数据预处理单元,用于对所述原始非结构化数据进行预处理,得到预处理后的非结构化数据;
27、原始知识图谱构建单元,用于基于所述预处理后的非结构化数据,构建得到原始知识图谱;
28、知识图谱优化单元,用于利用所述监督优化后的多模态大语言模型对所述原始知识图谱进行优化,得到优化后的知识图谱,所述监督优化后的多模态大语言模型是利用所述预处理后的非结构化数据,以及,所述原始知识图谱,对多模态大语言模型进行监督优化后得到的。
29、可选地,所述预处理单元,具体用于:
30、对所述原始非结构化数据进行过滤,和/或,对所述原始非结构化数据进行修正,得到预处理后的非结构化数据。
31、可选地,所述原始知识图谱构建单元,具体用于:
32、利用知识图谱构建模型对所述预处理后的非结构化数据进行命名实体识别、关系抽取和共指消解,构建得到原始知识图谱。
33、可选地,所述装置还包括:多模态大语言模型监督优化单元,所述多模态大语言模型监督优化单元,包括:
34、第一编码单元,用于对所述预处理后的非结构化数据进行编码,得到非结构化数据特征;
35、第二编码单元,用于对所述原始知识图谱进行编码,得到知识图谱特征;
36、监督优化单元,用于基于所述知识图谱特征与所述非结构化数据特征,对多模态大语言模型进行监督优化。
37、可选地,所述监督优化单元,具体用于:
38、基于所述非结构化数据特征,利用第一任务对所述多模态大语言模型进行监督优化;
39、将所述非结构化数据特征以及所述知识图谱特征,利用第二任务对所述多模态大语言模型进行监督优化。
40、可选地,所述知识图谱优化单元,包括:
41、新增原始非结构化数据获取单元,用于获取新增原始非结构化数据;
42、新增原始非结构化数据预处理单元,用于利用所述监督优化后的多模态大语言模型对所述新增原始非结构化数据进行预处理,得到预处理后的新增原始非结构化数据;
43、优化单元,用于基于所述预处理后的新增原始非结构化数据,利用所述监督优化后的多模态大语言模型对所述原始知识图谱进行优化,得到优化后的知识图谱。
44、可选地,所述监督优化单元还用于:
45、在所述基于所述预处理后的新增原始非结构化数据,利用所述监督优化后的多模态大语言模型对所述原始知识图谱进行优化,得到优化后的知识图谱之后,利用所述预处理后的新增非结构化数据,以及,所述优化后的知识图谱,对所述监督优化后的多模态大语言模型再次进行监督本文档来自技高网...
【技术保护点】
1.一种知识图谱构建方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述对所述原始非结构化数据进行预处理,得到预处理后的非结构化数据,包括:
3.根据权利要求1所述的方法,其特征在于,所述基于所述预处理后的非结构化数据,构建得到原始知识图谱,包括:
4.根据权利要求1所述的方法,其特征在于,所述利用所述预处理后的非结构化数据,以及,所述原始知识图谱,对多模态大语言模型进行监督优化,包括:
5.根据权利要求4所述的方法,其特征在于,所述基于所述知识图谱特征与所述非结构化数据特征,对多模态大语言模型进行监督优化,包括:
6.根据权利要求1所述的方法,其特征在于,所述利用所述监督优化后的多模态大语言模型对所述原始知识图谱进行优化,得到优化后的知识图谱,包括:
7.根据权利要求6所述的方法,其特征在于,在所述基于所述预处理后的新增原始非结构化数据,利用所述监督优化后的多模态大语言模型对所述原始知识图谱进行优化,得到优化后的知识图谱之后,所述方法还包括:
8.一种知识图谱构建装置
9.一种知识图谱构建设备,其特征在于,包括存储器和处理器;
10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的知识图谱构建方法的各个步骤。
...【技术特征摘要】
1.一种知识图谱构建方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述对所述原始非结构化数据进行预处理,得到预处理后的非结构化数据,包括:
3.根据权利要求1所述的方法,其特征在于,所述基于所述预处理后的非结构化数据,构建得到原始知识图谱,包括:
4.根据权利要求1所述的方法,其特征在于,所述利用所述预处理后的非结构化数据,以及,所述原始知识图谱,对多模态大语言模型进行监督优化,包括:
5.根据权利要求4所述的方法,其特征在于,所述基于所述知识图谱特征与所述非结构化数据特征,对多模态大语言模型进行监督优化,包括:
6.根据权利要求1所...
【专利技术属性】
技术研发人员:何双池,杜倩云,程大龙,殷保才,殷兵,魏思,
申请(专利权)人:科大讯飞华南人工智能研究院广州有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。