一种基于知识图谱的数据整合方法技术

技术编号:42028496 阅读:23 留言:0更新日期:2024-07-16 23:17
本申请公开了一种基于知识图谱的数据整合方法,涉及知识图谱技术领域,包括:将文本数据输入到基于Prompt的大语言模型中;Qwen‑14B预训练模型采用自注意力机制对输入的文本数据进行编码,生成词语和句子级别的语义向量;根据生成的语义向量,获取实体和关系;抽取主语-谓语‑宾语三元组SPO形式的结构化知识;将SPO映射为图数据库Neo4j的知识图谱,采用Neo4jCypher语句,将SPO中的主语和宾语实体映射为节点;将SPO中的谓语关系映射为节点间的关系;采用基于Neo4j的图存储引擎,将映射得到的知识图谱存储到图数据库中,图数据库采用邻接表结构;利用知识图谱进行数据整合。针对现有技术中数据整合效率低的问题,本申请提高了非结构化文本数据的整合效率。

【技术实现步骤摘要】

本申请涉及知识图谱,特别涉及一种基于知识图谱的数据整合方法


技术介绍

1、知识图谱作为一种结构化的知识表示和存储方式,通过将实体、关系和属性以图的形式组织起来,能够更加高效、灵活地管理和检索知识。将非结构化文本数据整合到知识图谱中,可以实现知识的统一表示、关联分析和智能应用,具有广阔的应用前景,如智能搜索、问答系统、推荐系统等。

2、然而,将非结构化文本数据整合到知识图谱中面临着诸多挑战。首先,非结构化文本数据缺乏明确的结构和语义信息,如何准确地识别文本中的实体和关系是一个难点。其次,文本数据量巨大、涉及领域广泛,人工构建知识图谱的成本高、周期长,难以满足实际应用的需求。此外,知识图谱的存储和查询也面临着效率和可扩展性的挑战。

3、在相关技术中,比如中国专利文献cn117150050b中提供了2023年12月1日,一种基于大语言模型的知识图谱构建方法及系统,属于文本处理
所述方法包括:对知识文本数据进行文本聚类,得到若干不同文本类型的知识文本数据集t;将知识文本数据集t提交至第一hdfs进行分布式文件储存;按照知识文本ty本文档来自技高网...

【技术保护点】

1.一种基于知识图谱的数据整合方法,包括:

2.根据权利要求1所述的基于知识图谱的数据整合方法,其特征在于:

3.根据权利要求2所述的基于知识图谱的数据整合方法,其特征在于:

4.根据权利要求3所述的基于知识图谱的数据整合方法,其特征在于:

5.根据权利要求1至4任一所述的基于知识图谱的数据整合方法,其特征在于:

6.根据权利要求5所述的基于知识图谱的数据整合方法,其特征在于:

7.根据权利要求6所述的基于知识图谱的数据整合方法,其特征在于:

8.根据权利要求7所述的基于知识图谱的数据整合方法,其特征在于...

【技术特征摘要】

1.一种基于知识图谱的数据整合方法,包括:

2.根据权利要求1所述的基于知识图谱的数据整合方法,其特征在于:

3.根据权利要求2所述的基于知识图谱的数据整合方法,其特征在于:

4.根据权利要求3所述的基于知识图谱的数据整合方法,其特征在于:

5.根据权利要求1至4任一所述的基于知识图谱的数据整合方法,其特征在于:

6...

【专利技术属性】
技术研发人员:杨利金海武郑熳
申请(专利权)人:杭州原数科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1