用于提取语义三元组以建立知识库的系统技术方案

技术编号:24290664 阅读:61 留言:0更新日期:2020-05-26 20:31
本公开涉及一种生成语义三元组的计算机实现的方法,该语义三元组用于建立知识库以包括与从非结构化文本导出的语义三元组相关联的数据模式。该方法包括:提供与包括主动词和分类动词的非结构化文本相关联的句子;生成包括第一主语、第一关系和第一宾语的第一构架;生成包括第二主语、第二关系和第二宾语的第二构架;识别第一主语与第二主语或第二宾语中的公共子字符串、或第一宾语与第二主语或第二宾语中的公共子字符串;使用第一构架生成语义三元组,并用具有公共子字符串的第二主语或第二宾语替换具有公共子字符串的第一主语或第一宾语;以及发送语义三元组以作为数据模式包括在知识库中。

A system for extracting semantic triples to build knowledge base

【技术实现步骤摘要】
用于提取语义三元组以建立知识库的系统
本文描述的实施例涉及用于建立对本体进行定义的知识库(KB)的方法和系统。
技术介绍
已创建KB用于文档(文本或图像)的语义注释、语义搜索、推理、自动诊断、对话系统以及许多其他基于知识的应用。KB包括多个概念和链接概念的关系。它通常是由域专家手动创建的,但这可能很费力、费时且成本高昂。备选地,也可以通过输入文本、识别文本中的句子、从句子导出语义三元组、然后存储这些三元组或将它们链接到现有KB,来自动地(半自动地)构建它。这样,可以创建和扩充KB。本公开的目的是对现有技术进行改进。特别地,本公开解决了与计算机技术有关并且在计算机网络领域中出现的技术问题,即,发送速度慢的技术问题。所公开的系统通过减少经由系统发送以包括在知识库中的语义三元组的数量来解决该技术问题。另外,该系统发送较高质量的三元组以包括在知识库中,从而减少了在使用期间搜索知识库时所需的处理。
技术实现思路
根据本公开的一个方面,提供了一种生成语义三元组的计算机实现的方法,所述语义三元组用于建立知识库以包括与从非结构化文本本文档来自技高网...

【技术保护点】
1.一种生成语义三元组的计算机实现的方法,所述语义三元组用于建立知识库以包括与从非结构化文本导出的语义三元组相关联的数据模式,所述方法包括:/n提供与包括主动词和分类动词的非结构化文本相关联的句子,其中所述分类动词描述分类关系;/n生成包括第一主语、第一关系和第一宾语的第一构架,其中第一关系包括主动词,第一主语和第一宾语均包括包含一个或多个子字符串的短语;/n生成包括第二主语、第二关系和第二宾语的第二构架,其中第二关系包括分类动词,第二主语和第二宾语均包括包含一个或多个子字符串的短语;/n识别第一主语与第二主语或第二宾语中的公共子字符串、或第一宾语与第二主语或第二宾语中的公共子字符串;/n使用...

【技术特征摘要】
20181116 US 16/194,1561.一种生成语义三元组的计算机实现的方法,所述语义三元组用于建立知识库以包括与从非结构化文本导出的语义三元组相关联的数据模式,所述方法包括:
提供与包括主动词和分类动词的非结构化文本相关联的句子,其中所述分类动词描述分类关系;
生成包括第一主语、第一关系和第一宾语的第一构架,其中第一关系包括主动词,第一主语和第一宾语均包括包含一个或多个子字符串的短语;
生成包括第二主语、第二关系和第二宾语的第二构架,其中第二关系包括分类动词,第二主语和第二宾语均包括包含一个或多个子字符串的短语;
识别第一主语与第二主语或第二宾语中的公共子字符串、或第一宾语与第二主语或第二宾语中的公共子字符串;
使用第一构架生成语义三元组,并用具有公共子字符串的第二主语或第二宾语替换具有公共子字符串的第一主语或第一宾语;以及
发送所述语义三元组以作为数据模式包括在所述知识库中。


2.根据权利要求1所述的方法,其中,所述分类动词源自于基本动词。


3.一种生成语义三元组的计算机实现的方法,所述语义三元组用于建立知识库以包括与从非结构化文本导出的语义三元组相关联的数据模式,所述方法包括:
提供包括主语、关系和宾语的语义三元组,其中所述主语和所述宾语均包括包含一个或多个子字符串的短语,并且所述关系包括动词;
识别所述主语的一个子字符串表达所述主语的其他子字符串与所述宾语之间的关系,或者所述宾语的一个子字符串表达所述宾语的其他子字符串与所述主语之间的关系;
通过以下操作生成修改后的语义三元组:
根据所述关系,用所述主语或所述宾语的被识别为表达所述关系的所述子字符串来替换所述三元组的所述关系;以及
用不用于替换所述三元组的所述关系的其余子字符串来替换包括表达所述关系的所述子字符串在内的所述主语或所述宾语;以及
发送所述修改后的语义三元组以作为数据模式包括在所述知识库中。


4.根据权利要求3所述的方法,其中,所识别的子字符串是从已知的表达关系的名词的预定义列表中选择的名词。


5.一种建立知识库以包括定义了与从非结构化文本导出的语义三元组相关联的概念的数据模式的计算机实现的方法,所述方法包括:
提供包括关系、主语和宾语的语义三元组,其中,所述主语或所述宾语在所述知识库中没有对应概念;
确定所述知识库中与在所述知识库中没有对应概念的所述主语或所述宾语相关的一个或多个概念;
确定与所述一个或多个概念和所述主语或所述宾语的匹配程度相对应的值;
基于所述值对所述一个或多个概念进行排序;以及
将最高排序的概念链接到在所述知识库中没有对应概念的所述主语或所述宾语。


6.根据权利要求5所述的方法,其中,确定所述知识库中与在所述知识库中没有对应概念的所述主语或所述宾语相关的所述一个或多个概念包括:生成定义所述主语或所述宾语的数值矢量,并且其中,确定与所述一个或多个概念和所述句子的匹配程度相对应的所述值包括:将所述数值矢量与所述知识库中的所述概念或每个概念的矢量进行比较以获得所述值。


7.根据权利要求5所述的方法,其中,将最高排序的概念链接到所述主语或所述宾语包括:将所述主语或所述宾语作为定义新概念的数据添加在所述数据库中,并且将所述新概念作为语义类型链接到最高排序的概念。


8.一种过滤语义三元组的计算机实现的方法,所述语义三元组是为了建立知识库而生成的,所述知识库包括定义了与从非结构化文本导出的语义三元组相关联的概念的数...

【专利技术属性】
技术研发人员:达米尔·尤里克乔治斯·斯托伊洛斯乔纳森·穆尔穆罕默德·胡达达迪
申请(专利权)人:巴比伦合伙有限公司
类型:发明
国别省市:英国;GB

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1