命名实体关联关系的更新方法、系统及存储介质技术方案

技术编号:33297377 阅读:13 留言:0更新日期:2022-05-06 12:01
本公开涉及关联关系更新技术领域,特别地涉及一种命名实体关联关系更新方法、系统、可读存储介质,方法包括:命名实体关联关系训练集生成与更新步骤S100,对原始语句中的命名实体进行标注而生成训练语句,基于不同文档的所有训练语句生成训练集;命名实体关联关系的统计语义规则挖掘步骤S200,从所述训练集中挖掘与已知的命名实体关联关系对应的顺序关系模式,基于所述顺序关系模式而生成候选命名实体关联关系;命名实体关联关系的生成与修正步骤S300,将所述候选命名实体关联关系展现给用户,获取用户确认所述候选命名实体关联关系是否为可信命名实体关联关系的操作;命名实体关联关系的存储步骤S400,存储所述可信命名实体关联关系。关联关系。关联关系。

【技术实现步骤摘要】
命名实体关联关系的更新方法、系统及存储介质


[0001]本公开涉及关联关系更新
,特别地涉及一种命名实体关联关系更新方法、系统及可读存储介质。

技术介绍

[0002]在油气勘探等行业,积累了大量的文本、图像资料及GIS记录条目等不同类型的数据资料。随着这些行业的业务进行,各个不同部门的业务研究人员也正在不同的信息系统里持续积累着大量的文本、图像资料及数据库、GIS记录条目,如何有效地整合、组织这些信息,如何将研究人员的研究报告或论文提出的新知识、新论点及时整合到知识图谱,尤其是如何将一些新发现的命名实体及其间的关系及时整合到知识图谱,并自动或半自动地更新到结构化的数据库(含GIS系统)里,是当前文本信息处理领域面临的一大挑战。
[0003]本公开所述的勘探等专业领域的命名实体的关系更新方法,是基于本体论(Ontology),通过自然语言处理(Natural Language Processing,NLP)方法从非结构化的文本信息中提取出结构化的命名实体之间的关系的方法。
[0004]在计算机科学领域,Ontology核心意思是指一种模型,用于描述由一套对象类型(概念或者类)、个体(对象实例)、属性以及关系类型所构成的世界。一般来说,人们所普遍期望的一点就是,本体之中模型的那些特征应当非常类似于相应的现实世界。
[0005]具体到勘探等领域,Ontology就是在建立一套勘探领域的多层级的概念(类)体系的归属,并建立每个层级下的归属于该抽象类的个体(实例)。在此基础上,建立类及个体的属性描述(它们所可能具有的属性、特征、特性、特点和参数)及某种关联关系。最终,勘探等专业领域的Ontology建立的是一整套的类间、个体对象间、以及类与个体对象间的关系。此外,完整的Ontology体系,还包括公理、规则及事件。
[0006]在基于Ontology的知识图谱的建立中,通常以命名实体(Named Entity)统一表述个体(对象实例)及其对象类型(抽象出的概念类)。通过对命名实体的识别、以及命名实体的属性及命名实体间关联关系的发现等手段而建立及更新知识图谱。
[0007]现有的知识图谱及命名实体关联关系的建立,一般基于一些通用的方法。例如通过共现分析、引文分析、多元统计分析、社会网络分析等方法,并通过一系列可视化方法展现。
[0008]在一些技术方案中,提出了一种葡萄藤式医学知识构建方法和系统,该方法包括以下步骤:
[0009]1)按多个医学类别构建葡医学知识数据库;
[0010]2)在所述的多个医学类别下分别构建多个目录、多个知识单元及在所述的知识单元下构建多个知识信息单元,形成第一知识群;
[0011]3)判断是否需要继续添加医学知识;
[0012]4)在所述的多个目录下分别构建多个子目录、多个知识子单元及在所述的知识单元下构建多个知识信息子单元;形成第二知识群。
[0013]该方案将各类医学知识进行有效的交互参照,形成深层次的跨库应用,力图将静态的、独立的知识因子动态地、多维地组织在一起,全面而直观地揭示各类医学知识的网状关系。该方案基于人工添加知识点(其中多数是命名实体关联关系),然而该方案的规范性不强,且实际操作成本过高,因此该方案难以普及。
[0014]在一些技术方案中,提出了一种基于维基百科构建概念型知识地图的方法,该方法包括以下步骤:
[0015]1)从维基百科全文数据中抽取知识文档,将抽取的文档分类并存储;
[0016]2)从知识文档中获取知识信息,分析每篇知识文档获取知识信息并存入数据库;
[0017]3)以知识节点格式描述库中的规范为基础,将知识信息转化为相应的概念知识节点和类别知识节点,并以文件格式存储至本地;
[0018]4)建立索引以提供使用关键字对知识信息进行检索的功能,并将检索返回的结果进行显示。
[0019]该方案构建的知识地图可以适用于多个领域,而且其中的知识信息可以和维基百科一起更新,同时知识源的获取容易,知识信息全面,采用可扩展标记语言对知识节点信息进行描述,因此可扩展性强并且可以在多平台上使用。然而,在地质勘探等专业领域中,大量的命名实体关联关系存在于大量的专业资料、成果当中,因此基于维基百科构建的知识地图应用在地址勘探领域时表现出了局限性强的缺陷,即该方案无法在地质勘探领域获得全面的应用。
[0020]在一些技术方案中,提出了业务领域知识库构建方法和装置,方法包括:
[0021]1)创建业务领域的本体,所述业务领域的本体包括概念;
[0022]2)分别以所述业务领域的本体中包括的所述概念为第一关键词,搜索与所述概念相关的信息条目;
[0023]3)根据所述业务领域的本体所包括的概念构建所述业务领域的检索条目;
[0024]4)在业务领域知识库中,在每个所述检索条目中存储内容对应的所述信息条目。
[0025]该方案在一定程度解决了人们从现有知识库中搜索信息的效率较低的技术问题,然而该方案对如何高效建立专业领域的命名实体关联关系其实用处不大。
[0026]在一些技术方案中,提出了一种知识网络的半自动生成方法,包括如下步骤:
[0027]1)首先形成一个知识网络内核;
[0028]2)由单文本知识发现与抽取单元接收非结构化的文档,通过分词和命名实体识别技术,从非结构化文本数据中找到需要关注的知识点,并抽取出来;
[0029]3)在对多篇文档进行知识发现和抽取后,将新的知识放到相应位置上作为候选知识;
[0030]4)由知识网络运营平台将候选知识提交给相应的专家系统进行关联性判断,将判断为“是”的候选知识作为确认知识,判断为“否”的候选知识被舍弃。本知识网络半自动生成方法从一个小的知识网络内核开始,让计算机自动从互联网海量的数据中发现、抽取、组织知识,经专家系统进行确认后,能够迅速而有效地构造一个知识网络结构。
[0031]该方案能够高效建立描述较为粗略的知识网络,然而该方案局限于描述一般的知识点之间存在不确定的关联关系(主要是文中同现关系,而非具体的某类关系属性)及概念归属关系,不能实现勘探等专业领域里复杂的命名实体关联关系的建立及更新。
[0032]勘探等专业领域,存在很多不同类型的命名实体,相互间也有各种不同形式的关联关系。上述的各技术方案在一定程度上能够从海量文本数据中提取出命名实体间的关联关系,或者能够半自动生成粗略描述的知识图谱,然而上述所有技术方案都不具备在复杂的勘探业务领域,以较高的准确度,自动提取出不同类型的命名实体间的关联关系,并更新这些关联关系的能力。
[0033]目前,人们要想建立及更新勘探领域的命名实体间的关联关系,仍然主要依赖于人的智力判断及团队协作,因此所需时间较长,工作效率较低。很难满足用户的实际需求。
[0034]基于上述讨论可见,本领域亟需一种能够在大量降低人工成本的基础上,以较高的准确率建立及不断更新命名实体间的关联关系的技本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种命名实体关联关系的更新方法,其特征在于,包括:命名实体关联关系训练集生成与更新步骤S100,对原始语句中的命名实体进行标注而生成训练语句,基于不同文档的所有训练语句生成训练集;命名实体关联关系的统计语义规则挖掘步骤S200,从所述训练集中挖掘与已知的命名实体关联关系对应的顺序关系模式,基于所述顺序关系模式而生成候选命名实体关联关系;命名实体关联关系的生成与修正步骤S300,将所述候选命名实体关联关系展现给用户,获取用户确认所述候选命名实体关联关系是否为可信命名实体关联关系的操作;命名实体关联关系的存储步骤S400,存储所述可信命名实体关联关系。2.根据权利要求1所述的方法,其特征在于,所述命名实体关联关系训练集生成与更新步骤S100包括,文本内命名实体的识别步骤S101和命名实体的语句的规范化转换及标注步骤S102,其中,文本内命名实体的识别步骤S101,对所述原始语句中的命名实体进行识别,将所有所述命名实体对应到相应的命名实体ID;命名实体的语句的规范化转换及标注步骤S102,将命名实体ID转换为本体二元组而形成训练语句,其中,所述本体二元组包括命名实体ID和命名实体类型ID,所述训练语句包括本体二元组、动词、方位词、反转词、介词以及形容词。3.根据权利要求2所述的方法,其特征在于,文本内命名实体的识别步骤S101还包括:命名实体的语义消歧步骤及指代消解步骤,其中,所述命名实体的语义消歧步骤包括,将所述原始语句中的词语替换为对应的命名实体;所述指代消解步骤包括,识别原始语句中的代词所指代的先行语,并使用所述先行语替换所述代词;所述指代消解步骤还包括,识别原始语句中缺省的命名实体,并将所述命名实体补充至缺省的位置。4.根据权利要求1所述的方法,其特征在于,所述命名实体关联关系的统计语义规则挖掘步骤S200包括已知命名实体关联关系输入步骤S201和统计语义规则发现及更新步骤S202,其中,已知命名实体关联关系输入步骤S201,从数据库中获取命名实体关联关系对应的实例,所述命名实体关联关系对应的实例包括第一命名实体ID、第二命名实体ID、以及第一命名实体ID与第二命名实体ID之间的命名实体关联关系;其中,所述命名实体关联关系包括第一命...

【专利技术属性】
技术研发人员:唐先明王晓丽陈新荣邓达康韩宝东郭攀红黄希彧张德浩
申请(专利权)人:中国石油化工股份有限公司石油勘探开发研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1