System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种知识图谱构建系统技术方案_技高网

一种知识图谱构建系统技术方案

技术编号:41329570 阅读:5 留言:0更新日期:2024-05-13 15:08
本发明专利技术公开了一种知识图谱构建系统,涉及知识图谱构建技术领域,包括数据集构建模块、知识抽取模块、知识存储模块、知识检索模块和关键词输入模块。本发明专利技术通过构建Seq‑to‑Seq框架,提取名词性短语元素,通过使用联名实体关系抽取算法,抽取三元组数据,使用Cypher语法将实体与关系映射为图谱中的节点和边,将抽取出的三元组数据整合到知识图谱中,在知识检索模块调用对应的离线检索模块、在线节点检索模块和在线路径检索模块进行实体匹配,进行节点和路径的查询,提升所提出的信息检索策略的召回率和准确率,有效地挖掘出与检索词存在潜在关联的实体,减少知识图谱构建过程中存在的重合问题,减少资源的浪费。

【技术实现步骤摘要】

本专利技术涉及知识图谱构建,具体为一种知识图谱构建系统


技术介绍

1、知识图谱又称为科学知识图谱,在图书情报界称为知识域可视化,或知识领域映射地图,用来显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及载体,挖掘、分析、构建、绘制和显示知识及他们互相之间的关系。

2、现有技术中,如中国专利号为:cn109977419b的“一种知识图谱构建系统”,包括信息输入模块、转换模块、提取模块、分词模块、过滤模块、三元组识别模块、中央处理器、知识图谱生成和存储模块和数据库模块;信息输入模块与转换模块通讯连接;提取模块与转换模块通讯连接,且提取模块与分词模块通讯连接;过滤模块与分词模块通讯连接,且过滤模块与中央处理器通讯连接;数据库模块与中央处理器通讯连接;三元组识别模块与中央处理器通讯连接,三元组识别模块与数据库模块通讯连接;知识图谱生成和存储模块与中央处理器通讯连接。

3、但现有技术中,通过知识图谱将关联性地和体量庞大的数据组织起来,但在实体图构建的过程中,会存在两类实体的语义具有相似性,存在知识图谱交叉的问题,从而导致歧义的出现,使得构建不同领域的知识图谱存在重合的情况,影响实体匹配的准确率。

4、所以我们提出了一种知识图谱构建系统,以便于解决上述中提出的问题。


技术实现思路

1、本专利技术的目的在于提供一种知识图谱构建系统,以解决上述
技术介绍
提出的在实体图构建的过程中,会存在两类实体的语义具有相似性,存在知识图谱交叉的问题,从而导致歧义的出现,使得构建不同领域的知识图谱存在重合的情况,影响实体匹配的准确率的问题。

2、为实现上述目的,本专利技术提供如下技术方案:一种知识图谱构建系统,包括数据集构建模块、知识抽取模块、知识存储模块、知识检索模块和关键词输入模块;

3、所述数据集构建模块用于使用爬虫等技术获取不同种类异构数据,接收结构化数据和半结构化数据,对文本数据内容进行清洗和预处理,建立数据集,作为知识抽取模块的输入数据;

4、所述知识抽取模块用于获取数据集构建模块的输入数据,构建seq-to-seq框架来抽取三元组数据,使用cypher语法将实体与关系映射为图谱中的节点和边;

5、所述知识存储模块用于响应用户的图谱构建请求,将抽取出的三元组数据整合到知识图谱中,并对用户上传的原始文件信息,系统保存的文件管理信息以及知识联合抽取出的三元组信息进行存储;

6、所述知识检索模块用于获取用户检索请求的信息映射,调用对应的检索模块匹配对应实体,进行节点和路径的查询;

7、所述关键词输入模块用于接收用户输入的关键词检索请求,对关键词和检索类型进行信息映射。

8、优选的,所述数据集构建模块获取的不同种类的异构数据包括关系型数据库、开放链接数据、百科数据和imdb等。

9、优选的,所述知识抽取模块包括实体抽取模块和关系抽取模块;

10、所述实体抽取模块用于建立深度学习方法模型,利用多层神经网络,从非结构化文本中提取名词性短语元素;

11、所述关系抽取模块用于理解文本中的语义信息,使用联合实体关系抽取算法,挖掘句子与句子之间的关系路径,并提取实体间的关系,输出{主实体,关系,客实体}的结构化列表。

12、优选的,所述知识抽取模块中seq-to-seq框架的计算公式如下:

13、p(m1,m2,...,mx|n)=p(m1|n)p(m2|n,m1)...p(mx|n,m1,...,mx-1);

14、其中,为输入的非结构化文本语句,m=[m1,m2,...,mx]为输出的非结构化文本语句。

15、优选的,所述知识检索模块包括离线检索模块;

16、所述离线检索模块用于训练离线的检索模型,构建同义词词表,对用户搜索关键词与知识图谱中的实体节点进行匹配,根据语义匹配分数的计算在系统中匹配更多符合条件的实体。

17、优选的,所述知识检索模块还包括在线节点检索模块和在线路径检索模块;

18、所述在线节点检索模块用于根据用户输入的关键词展示相关实体,形成以查询实体为中心节点的知识图谱,并展示查询实体与其他实体之间的sro三元组关系列表;

19、所述在线路径检索模块用于根据用户键入的一对节点名称,在知识图谱中寻找节点名称间六跳以内的关联路径和路径上的关联实体,并展示关联实体与其他实体之间的sro三元组关系列表。

20、优选的,所述离线检索模块中语义匹配分数的计算公式如下:

21、sim(a,b)=αj(a,b)+(1-α)simd(a,b);

22、其中,α为权重系数,0<α<1,a是检索词,b是图谱实体名称,j(a,b)是检索词与图谱实体间的jaccard系数,simd(a,b)是依据检索词与图谱实体间的编辑距离计算出的文本上的相似度。

23、与现有技术相比,本专利技术的有益效果是:

24、本专利技术通过对文本数据进行清洗和处理,建立数据集,获取输入数据,构建seq-to-seq框架,在实体抽取模块中,建立深度学习方法模型,提取名词性短语元素,关系抽取模块通过使用联名实体关系抽取算法,直接在文本中输出{主实体,关系,客实体}的结构化列表,抽取三元组数据,使用cypher语法将实体与关系映射为图谱中的节点和边,合并实体与关系抽取流程,避免子任务间的错误传递,将抽取出的三元组数据整合到知识图谱中,使用关键词输入模块接收用户的关键词检索请求,将请求数据的映射信息送入知识检索模块中,可调用对应的离线检索模块、在线节点检索模块和在线路径检索模块进行实体匹配,进行节点和路径的查询,提升所提出的信息检索策略的召回率和准确率,有效地挖掘出与检索词存在潜在关联的实体,减少知识图谱构建过程中存在的重合问题,减少资源的浪费。

本文档来自技高网...

【技术保护点】

1.一种知识图谱构建系统,其特征在于:包括数据集构建模块(1)、知识抽取模块(2)、知识存储模块(3)、知识检索模块(4)和关键词输入模块(5);

2.根据权利要求1所述的一种知识图谱构建系统,其特征在于:所述数据集构建模块(1)获取的不同种类的异构数据包括关系型数据库、开放链接数据、百科数据和IMDB等。

3.根据权利要求1所述的一种知识图谱构建系统,其特征在于:所述知识抽取模块(2)包括实体抽取模块(21)和关系抽取模块(22);

4.根据权利要求3所述的一种知识图谱构建系统,其特征在于:所述知识抽取模块(2)中Seq-to-Seq框架的计算公式如下:

5.根据权利要求1所述的一种知识图谱构建系统,其特征在于:所述知识检索模块(4)包括离线检索模块(41);

6.根据权利要求1所述的一种知识图谱构建系统,其特征在于:所述知识检索模块(4)还包括在线节点检索模块(42)和在线路径检索模块(43);

7.根据权利要求5所述的一种知识图谱构建系统,其特征在于:所述离线检索模块(41)中语义匹配分数的计算公式如下

...

【技术特征摘要】

1.一种知识图谱构建系统,其特征在于:包括数据集构建模块(1)、知识抽取模块(2)、知识存储模块(3)、知识检索模块(4)和关键词输入模块(5);

2.根据权利要求1所述的一种知识图谱构建系统,其特征在于:所述数据集构建模块(1)获取的不同种类的异构数据包括关系型数据库、开放链接数据、百科数据和imdb等。

3.根据权利要求1所述的一种知识图谱构建系统,其特征在于:所述知识抽取模块(2)包括实体抽取模块(21)和关系抽取模块(22);

4.根据权利要求3所述...

【专利技术属性】
技术研发人员:沈马磊高永彬
申请(专利权)人:上海工程技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1