System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及自然语言处理,尤其涉及一种高效的知识图谱构建方法和系统。
技术介绍
1、随着信息时代的飞速发展,在各式各样的信息充斥在互联网上,信息数据也大到史无前例,表现形式也越来越丰富。如何更好地利用这些数据成为关键;知识图谱是一种比较有效的技术,知识图谱最早的应用是提升搜索引擎的能力。随后,知识图谱在辅助智能问答、自然语言理解、大数据分析、推荐计算、物联网设备互联、可解释性人工智能等多个方面展现出丰富的应用价值;
2、然而在现有的知识图谱构建过程中,需要投入大量的人工和时间投入,难以大范围推广使用,而且对于实体识别和实体关系确定不够准确,也严重影响了实际的应用效果。
技术实现思路
1、因此,为了克服现有技术的不足之处,本专利技术提供一种高效的知识图谱构建方法和系统,方便生成标记数据,并且降低了人工成本。
2、本专利技术的一种技术方案是,提供一种高效的知识图谱构建方法,包括如下步骤:
3、获取结构化数据和非结构化数据;
4、对所述非结构化数据进行三元组识别生成三元组数据;
5、所述三元组数据与数据库中的所述结构化数据进行知识融合,生成新结构化数据;
6、将获得的所述新结构化数据生成对应的知识图谱。
7、进一步,在对所述非结构化数据进行三元组识别生成三元组数据的步骤中,还包括如下内容:
8、使用类chatgpt的aigc大模型进行prompt工程进行数据标记;
9、使用采用预
10、进一步,在所述三元组数据与数据库中的所述结构化数据进行知识融合,生成新结构化数据的步骤中,还包括如下内容:知识融合包括属性相似度的计算和实体相似度的计算。
11、本专利技术的另一种技术方案是,提供一种高效的知识图谱构建系统,包括如下步骤:
12、获取模块,用于获取结构化数据和非结构化数据;
13、三元组识别模块,用于对所述非结构化数据进行三元组识别生成三元组数据;
14、数据库模块,用于所述三元组数据与数据库中的所述结构化数据进行知识融合,生成新结构化数据;
15、图谱生成模块,用于将获得的所述新结构化数据生成对应的知识图谱。
16、进一步,所述三元组识别模块包括如下内容:
17、使用类chatgpt的aigc大模型进行prompt工程进行数据标记;
18、使用采用预先标记好的数据,对类chatgpt的aigc大模型进行微调,产生一个基于自身数据集的三元组识别模块。
19、进一步,所述数据库模块包括如下内容:知识融合包括属性相似度的计算和实体相似度的计算。
20、本专利技术通过使用chatgpt的aigc大模型进行数据标记,大大减少图谱构建的人工投入;然后使用类chatgpt的aigc大模型进行微调,可以提高三元组识别的准确性。
本文档来自技高网...【技术保护点】
1.一种高效的知识图谱构建方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的方法,其特征在于,在所述三元组数据与数据库中的所述结构化数据进行知识融合,生成新结构化数据的步骤中,还包括如下内容:
3.一种高效的知识图谱构建系统,其特征在于,包括如下步骤:
4.根据权利要求3所述的系统,其特征在于,所述数据库模块包括如下内容:知识融合包括属性相似度的计算和实体相似度的计算。
【技术特征摘要】
1.一种高效的知识图谱构建方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的方法,其特征在于,在所述三元组数据与数据库中的所述结构化数据进行知识融合,生成新结构化数据的步骤中,还包括如下内...
【专利技术属性】
技术研发人员:陈武锦,孟锐,
申请(专利权)人:云基智慧工程股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。