共指解析和实体链接制造技术

技术编号:23605269 阅读:41 留言:0更新日期:2020-03-28 06:12
用于由处理器从非结构化文本数据进行共指解析和实体链接的实施例。通过使用领域知识本体链接在非结构化文本数据中出现的一个或多个实体,可以解析所述一个或多个实体的语义共指和提及。

Common reference resolution and entity link

【技术实现步骤摘要】
共指解析和实体链接
本专利技术一般而言涉及计算系统,并且更具体地涉及使用计算处理器从非结构化文本数据进行共指解析和实体链接的各种实施例。
技术介绍
由于最近信息技术的进步和互联网的日益普及,现在大量信息以数字形式可用。信息的这种可用性提供了许多机会。数字和在线信息是商业智能的有利来源,这对于在竞争激烈的环境中实体的生存和适应性至关重要。
技术实现思路
提供了各种实施例,用于由处理器从非结构化文本数据进行共指解析和实体链接。在一个实施例中,仅作为示例,提供了再次由处理器从非结构化文本数据进行共指解析和实体链接的方法。通过使用领域知识本体链接一个或多个实体,可以解析在非结构化文本数据中出现的一个或多个实体的语义共指和提及。附图说明为了易于理解本专利技术的优点,将通过参考在附图中示出的特定实施例来呈现上面简要描述的本专利技术的更具体描述。应理解,这些附图仅描绘了本专利技术的典型实施例,因此不应当被认为是对其范围的限制,将通过使用附图以附加的特异性和细节来描述和解释本专利技术,其中:图1表示根据本专利技术实施例的示例性云计算节点的框图;图2表示根据本专利技术实施例的示例性云计算节点的框图;图3表示根据本专利技术实施例的抽象模型层的附加框图;图4是描绘根据本专利技术实施例的从非结构化文本数据进行共指解析和实体链接的框图;图5是描绘根据本专利技术的各方面的领域本体的图;图6是描绘根据本专利技术的各方面的关系和特性的本体推断的图;图7是描绘根据本专利技术的各方面的用于共指解析的示例性操作的图;图8是描绘根据本专利技术的各方面的语义指代识别的图;图9是描述根据本专利技术的各方面的语义关系识别的图;图10是描绘根据本专利技术的各方面的使用来自共指解析、实体链接和关系链接的关系结果以及使用实体之间的本体关系来解析语义指代的图;图11是描绘用于由处理器执行从非结构化文本数据进行共指解析和实体链接的示例性方法的流程图;再次,可以在其中实现本专利技术的各方面;以及图12是描绘根据本专利技术实施例的使用匹配的实体标识符(ID)从非结构化文本数据进行共指解析和实体链接的图。具体实施方式随着电子信息量的不断增加,对复杂信息访问系统的需求也在增长。通过实时的全球计算机网络,越来越多地可访问数字或“在线”数据。数据可以反映群体中的团体或个体行为的许多方面,包括科学、政治、政府、教育、金融、旅行、交通流量、购物和休闲活动、医疗保健等。许多数据密集型应用需要从数据源中提取信息,诸如例如在政治、安全和反恐、医疗保健、政府、教育或商业环境中。共指解析是识别以自然语言指代同一现实世界实体的语言表达(提及)的任务。自然语言处理(“NLP”)可以能够准确地解析某些类型的共指,诸如回指(anaphora)、后指(cataphora)或前因。但是,NLP操作目前受到名词短语共指的挑战。照此,需要使用实体特性(例如,名称、标签、类型、角色、同义词等)和实体关系(例如,社交关系)及其特性(例如,名称、标签、同义词等)使用领域知识本体(例如,社交网络)来解决在自然文本中发生的非平凡的语义共指。因此,本专利技术提供了使用诸如例如可以应用于感兴趣的实体、实体特性和关系(例如,语义关系)可以在本体中被捕获的任何领域的社交网络之类的领域知识本体来解析人/实体共指。即,可以通过使用领域知识本体链接一个或多个实体来解析在非结构化文本数据中出现的一个或多个实体的语义共指和提及。在一个方面,可以处理可以是非结构化文本数据的文本数据,使得可以从文本数据中自动识别/发现/提取一个或多个实体的一个或多个指示或“提及”以用于解析一个或多个实体之间的语义共指。在一个方面,认知系统可以接收以自然语言和领域本体表达的文本数据,其包括感兴趣的实体、实体的语义类型、数据特性和关系的集合。认知系统可以提供实体注释的集合,每个实体注释由输入文本中的提及范围和/或来自具有匹配得分的领域本体的一个或多个匹配实体(例如,实体ID)组成。在一个方面,领域知识本体可以由诸如例如领域数据库“DBPedia”之类的外部源提供,或者可以从所考虑的输入文本填充。即,DBPedia可以使用语义web表达来表示来自一个或多个在线数据源(例如,互联网/维基百科)的结构化知识。如本文所使用的,实体(例如,概念、个体、实例等)可以是真实或虚拟的事物和/或想法的形式化,诸如给定的人或组织。语义类型或类可以是共享某些共同点(例如,语义类型)的实体/概念/个体/实例的类别,诸如例如人、男人、女人、动物、组织。特性可以是与给定类型的实体相关联的数据字段(例如,文本数据字段),诸如例如人的名字、昵称、作业和/或组织的首字母缩略词。关系可以是源实体和目标实体之间的二元链接,诸如例如“…的父亲”、“…的朋友”、“…的导师”、“…的宠物”等。本体可以是实体、实体的语义类型、特性和关系的集合。词典可以是为了从知识领域(例如,本体)发现/识别实体的提及(例如,对实体的语义指代)而学习的模型。在一个方面,“提及”是旨在具有其普通含义的术语。例如,“提及”可以简要地指某事/某人而不进行详细描述和/或引用或引起对某人或某事的注意的动作或实例,尤其是以随意或偶然的方式。因此,在一个方面,认知系统可以学习/确定一个或多个本体推断以推断实体的新关系和特性。可以使用实体名称、标签和特性(例如,工作、角色、昵称等)从本体学习实体的词典。可以从语义网络学习关系类型(例如,…的母亲、…的父亲等)的词典。可以应用共指解析。实体词典可以被用于发现实体提及并将所提及的实体链接到相关实体。关系的词典可以被用于发现所有格之后或之前的提及(例如,mydad(我的父亲)、thefatherofX(X的父亲)、X’sfather(X的父亲)等),并将所提及的关系与相关本体关系链接。来自共指解析、实体链接和关系链接的结果可以与实体之间的本体关系结合使用,以彻底/完整地解析语义指代。在一个方面,术语“领域”是旨在具有其普通含义的术语。此外,术语“领域”可以包括系统的专业领域或者与特定实体或与实体相关的一个或多个主体相关的材料、信息、内容和/或其它资源的集合。领域可以指与任何特定实体相关的信息以及可以定义、描述和/或提供与一个或多个实体相关联的各种其它数据的相关联数据。领域可以指还可以指主题或所选择的主体的组合。而且,在另一方面,术语“本体”在其最广泛的意义上可以包括可以被建模为本体的任何东西,包括但不限于分类法、叙词表、词汇表等。例如,本体可以包括与感兴趣的领域或者特定类或概念的内容相关的信息或内容。内容可以是任何可搜索的信息,例如,通过计算机可访问网络(诸如互联网)分发的信息。概念一般可以被分类为多个概念中的任何一个,其也可以包括一个或多个子概念。概念的示例可以包括但不限于科学信息、医疗保健信息、医学信息、生物医学信息、商业信息、教育信息、商务信息、财务信息、政治信息、定价信息,关于个人、文化、团体、社会团体、市场利益团体、机构、大学、政府、团队或任何其它信息团体的信息。可以利用与源本文档来自技高网...

【技术保护点】
1.一种由处理器从非结构化文本数据进行共指解析和实体链接的方法,包括:/n通过使用领域知识本体链接在非结构化文本数据中出现的一个或多个实体来解析所述一个或多个实体的语义共指和提及。/n

【技术特征摘要】
20180919 US 16/136,0641.一种由处理器从非结构化文本数据进行共指解析和实体链接的方法,包括:
通过使用领域知识本体链接在非结构化文本数据中出现的一个或多个实体来解析所述一个或多个实体的语义共指和提及。


2.如权利要求1所述的方法,还包括定义所述领域知识本体以包括多个实体、实体的语义类型、所述多个实体的特性、所述多个实体之间的关系。


3.如权利要求1所述的方法,还包括从所述领域知识本体识别和学习实体词典。


4.如权利要求1所述的方法,还包括从所述领域知识本体识别和学习关系的词典。


5.如权利要求1所述的方法,还包括使用来自所述领域知识本体的实体词典、关系的词典或其组合对非结构化文本数据中指代的所述一个或多个实体执行共指解析。


6.如权利要求1所述的方法,还包括:
使用实体词典来识别所述非结构化文本数据中的一个或多个语义实体指代,并将所述一个或多个语义实体指...

【专利技术属性】
技术研发人员:Y·拉索艾德L·德雷瑞斯S·德帕瑞斯K·乐维彻尔C·A·佐彻姆侯玉芳E·达雷
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1