从非结构化文本提取和显现图表结构化关系的方法和系统技术方案

技术编号:2823002 阅读:277 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了用于从非结构化文本自动提取和挖掘关系和相关实体的系统、方法和计算机程序。更特别地,本发明专利技术涉及一种方法,用于:从非结构化文本数据提取关系和相关实体,将所提取信息表示为图表,以及操纵所得图表以更加了解其包含的信息。首先通过自动导入图案以及其次通过将这些导入的图案应用于非结构化文本数据,执行关系和相关实体的提取。对于每个关系和实体,提取多个特征以构造图表,其中节点表示实体,并且边表示关系。本发明专利技术提供如下装置,其用于开发图表,并用于导出其他图表,这些图表集中于某些时间帧内的关系或涉及某些特征。这是分别使用时间图表和基于特征的图表来完成的。两种方法基本上都查询与图表的节点和边相关联的数据结构的内容。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及数据处理,更特别地,涉及一种用于从非结构化文本 自动提取和显现表示出关系的图表结构化数据的方法、系统和计算 机程序。
技术介绍

结构化信息可以定义为其预期意义以数据的结构或格式明显地 表示的信息。结构化信息的典型例子是关系数据库。非结构化信息 可以表征为其意义需要解释以接近和提取预期意义的信息。例子包 括自然语言文档、语音、音频、图像和视频。换言之,非结构化数 据是无组织地驻留于数据库外部的任何数据。非结构化数据可以是 文本、音频、视频或图形。非结构化信息代表可用于商界或政府的最大、最流行和最快发展 的信息源。在一些估计中,非结构化数据代表所有共同信息中的80%。在这些大量数据中的高价值信息是难以发现的。非结构化信息 不是适于搜索技术的格式。在非结构化源中搜索信息是不实际的。 首先,必须分析数据以检测和定位所关心的项。然后必须将结果结 构化为使得强大的搜索引擎和数据库引擎可以在内容被请求时有效 地找到所请求的内容。从非结构化世界到结构化世界的桥梁称为信 息提取(IE)。非结构化信息管理(UIM)应用通常是软件系统,其分析大量非 结构化信息(文本、音频、视频、图像等)以发现、组织和传递相 关知识到客户端或终端用户。 一个例子是处理数百万医学文档和报 告以发现药物间关键相互作用、副作用和疾病史的应用。另一例子是处理数百万文档以发现表明可能的恐怖分子威胁的关键证据的应用。非结构化数据的管理被认为是信息技术(IT )产业中主要未解决 问题之一,主要原因是可以成功地将结构化数据转换为商业情报和 可用信息的工具和技术当应用于非结构化数据时完全不起作用。非结构化信息管理(UIM)系统对大量非结构化信息使用信息提 取(IE)技术以发现、组织和传递相关知识到客户端。信息提取(IE)是自然语言处理(NLP)的重要未解决问题。信 息提取中最重要的问题之 一 是从文本文档中提取实体以及提取这些 实体间的关系。实体的例子是"民族"、"组织"和"位置"。关 系的例子是"组织-雇用-执行官"、"组织-位置,,等。例如,句子 "John Adams是XYZ公司的首席执行官,,包括个人"John Adams" 和组织"XYZ公司"之间的"组织-雇用-执行官"关系。已经使用各种技术来提取相关实体间的关系。 在监督方法中,在给出的例子中人力专家人工地识别实体和关 系。针对这些例子训练分类器,该分类器用于在以后运行时识别关 系和实体。.半监督方法使用由专家提供的种子样本并设法自动获得类似于 种子样本的更多样本。然后,种子样本和所获得的样本被用于训练 类似于监督情况中的分类器。非结构化数据包括不同于实体和关系的其他信息,例如表示不同 实体间的关系的社交网络,其间实体具有某些关系的周期,不同实 体间共享的公共因素,...该复杂和丰富的信息难以获取并且非常难以用信息化方式表示。HITS ("超文本引导主题选择")算法是用于对网页进行分级 并因此还进行排序的算法。HITS对每个页面使用两个值,"权威值" 和"中心值"。"权威值,,和"中心值"在相互递归中相互定义。 权威值计算为指向该页面的定标中心值的和。中心值是其指向的页 面的定标权威值的和。在一些实现中也考虑了所链接页面的关联性。HITS算法得益于以下研究当页面(中心)链接到另一页面(权威) 时,前者对后者给予授权。HITS方法在JKleinberg, J.ACM( 1999) 的标题为 "Authoritative Sources in a Hyperlinked Environment"(超链接环境中的权威源)的出版物中描述。初始问题对于 一 些领域,从非结构化数据提取知识是昂贵且不可行的任 务,因为需要生成很多手工规则以捕获各种信息。尽管对于任何给 定领域提取这种知识都是非常困难的操作,但以清楚和有用的方式 向用户呈现和显现数据是更困难的。本专利技术处理三个主要问题-用于在任何领域(应用)中从任何非结构化数据提取实体间关 系的图案的自动发现-从非结构化数据提取表征每个实体和关系的知识(例如其间关 系有效的时间以及在该时间该实体的位置)。.多层关系的定义(具有各种约束和条件的关系,例如在给定时 间帧中的关系或者在给定组织中两个人之间的关系,...) 所提取知识的显现(以使用户能够吸收和消化该知识的方式呈 现所提取知识)。现有技术本专利技术集中于用于从非结构化数据提取和呈现信息的三个关键 问题 用于提取实体间关系的图案的自动发现; 从非结构化数据提取深层知识; 所提取知识的显现。大多数现有技术仅集中于第 一个问题,其包括从非结构化文本提 耳又实体间关系。出版于"The proceedings of the 1998 International Workshop on the Web and Databases"中的标题为"Extracting Pattern and Relations from the World Wide Web"(从万维网中提取图案和关系)(SergyBrin,斯坦福大学计算机科学系)的文章可以找到该领 域中的工作。该出版物公开了作者身份信息的提取,如在万维网上 在图书描述中找到的那样。该出版物基于双重迭代图案-关系提取, 其中关系和图案集合被迭代地结构化。该方法具有两个主要缺陷 (1)使用手工种子样本以提取更多类似于这些手工种子样本 的样本。 (2)使用词典作为用于提取信息的主要来源。出版于"Proceedings of the Fifth ACM International Conference on Digital Libraries"2000中的标题为"Snowball: Extracting Relation from Large Plain-Text collections"(雪球从大型明文集合中提取关系) (Eugene Agichtein和Luis Gravano-哥伦比亚大学计算机科学系, 1214 Amsterdam Avenue NY)的文章公开了 一种类似于先前工作的 思想,通过使用种子样本生成初始图案以及迭代地获得更多图案。 然后使用特殊(ad-hoc)测量以估计最近获得的图案的相关性。该方 法的主要缺陷是.(1 )对种子样本的依赖导致有限的概括能力, (2)使用手工样本导致领域依赖,以及.(3)图案的相关性的估计要求特殊测量的使用。 才示题为 "Visualization of integrated structured data and extracted relational facts from free text"(显现整合的结构化文本和从自由文本 中提取的关系事实)(Wakefield等人)的美国专利申请US 2004/0167907公开了一种机制,用于从非结构化自由文本提取简单 关系。然而,该机制具有可以概述如下的主要缺陷-提取关系的机制取决于语法分析树。这是主要缺陷,因为不能 提取精确关系。-取决于人为规则。机制设计用于某些问题,并且必须针对每个 问题而改变,这是昂贵且困难的。 使用词典和其他昂贵资源来提取信息。.不是通用的并且不能解决不同领域中的不同问题。 仅提供简单关系但不能提供高度详细本文档来自技高网...

【技术保护点】
一种用于从非结构化文本自动提取和挖掘关系和相关实体的方法,所述方法包括以下步骤:    .接收指定主实体的查询;    .从非结构化文本提取与查询中指定的主实体相关的关系和相关实体,所述步骤包括进一步的步骤:    .在非结构化文本中搜索和选择包含主实体的文档,    .向所选文档的每个词附加一个或多个标签,每个标签是不同类型的;    .通过将图案应用到所述加标签的文档来提取关系和相关实体;    .从所选文档提取表征每个实体和关系的特征;    .基于所提取特征构造图表,其节点表示与所指定主实体相关的实体并且其边表示所述实体间的关系。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:H哈桑H莫索塔费
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1