当前位置: 首页 > 专利查询>微软公司专利>正文

用于消费信息提取服务的可扩展表面制造技术

技术编号:7809418 阅读:163 留言:0更新日期:2012-09-27 08:20
本发明专利技术涉及用于消费信息提取服务的可扩展表面。按照允许使用关系型数据库概念查询的方式表示从非结构化数据提取的结构化数据。一种方法包括接收指定一个或多个数据库视图的用户输入。该方法进一步包括接收指定信息提取技术(诸如提取工作流)的用户输入。该方法进一步包括接收指定数据语料库的用户输入。该提取技术被应用到该数据语料库以产生该一个或多个数据库视图。然后使用数据库工具来查询这些视图或对其进行操作。

【技术实现步骤摘要】

本专利技术涉及用于消费信息提取服务的可扩展表面
技术介绍
计算机和计算系统已经影响了现代生活的几乎每个方面。计算机通常在工作、休闲、保健、运输、娱乐、家政管理等中都有涉猎。计算系统常被用于信息管理。具体而言,计算系统可用于向用户提供信息。然而,可以多种不同方式存储信息并使其对用户可用。例如,计算系统可以实现关系型数据库管理系统(RDBMS)来存储数据并将数据组织为结构化数据。结构化数据是按照语义组织的数据。此外,类似的数据实体常根据关系型数据库中的关系或根据面向对象系统中的类型类来分组到一起。简单RDBMS的示例仅是具有列和行的表格。列描述数据的类别而行存储该 类别的实例。RDBMS系统便于数据的高效检索。例如,简单表格可具有城市的列和当前温度的列。为了找到给定城市的温度,标识该城市列,并且在城市列中寻找感兴趣的城市并且在城市列的特定行中找到它。标识该温度列,并且在该温度列中标识与该感兴趣的城市相对应的行,从而标识感兴趣的城市的温度。因此,RDBMS中的数据通常是结构化数据。另ー种类型的数据是非结构化数据。非结构化数据通常不以允许计算系统立即标识数据的类型或关系结构的方式组织。例如,文本文档可包含以下数据“里约热内卢的温度现在是82度”。然而,里约热内卢没有被结构化为城市类型而82没有被结构化为温度类型,也不存在里约热内卢和82度的形式化结构图。此外,文本文档可包含描述全世界的各城市中的各温度的多个句子。对自动化计算系统来说,与使用能基于类别捜索数据的结构化数据数据库相比,使用文本文件中的非结构化数据来确定给定城市的温度更加困难。在此要求保护的主题不限于解决任何缺点或仅在诸如上述环境中操作的各个实施例。相反,提供该背景仅用以示出在其中可实践在此描述的部分实施例的一个示例性

技术实现思路
此处所述的ー个实施例是在计算环境中实施的方法。该方法包括用于按照允许使用关系型数据库概念来查询的方式表示从非结构化数据提取的结构化数据的动作。该方法包括接收指定一个或多个数据库视图的用户输入。该方法进ー步包括接收指定信息提取技术(诸如提取工作流)的用户输入。该方法进ー步包括接收指定数据语料库的用户输入。该提取技术被应用到该数据语料库以产生该ー个或多个数据库视图。然后使用数据库工具来查询这些视图或对其进行操作。提供本
技术实现思路
以便以简化形式介绍将在以下具体实施方式中进ー步描述的ー些概念。本
技术实现思路
并非g在标识所要求保护的主题的关键特征或必要特征,也不g在用于帮助确定所要求保护的主题的范围。另外的特征和优点将在以下的描述中阐述,并且部分可从该描述中显而易见,或者可以从此处的教示实践中习得。本专利技术的特征和优点可以通过在所附权利要求中特别指出的手段和组合来实现并获取。本专利技术的特征将从以下描述和所附权利要求书中变得完全显而易见,或者可通过如下所述对本专利技术的实践而获知。附图说明为了描述可获得本主题的上述和其它优点和特征的方式,将通过參考附图中示出的本主题的具体实施例来呈现以上简要描述的本主题的更具体描述。应该理解,这些附图仅描绘了各典型实施例,因此其不应被认为是对范围的限制,各实施例将通过使用附图用附加特征和细节来描述并解释,在附图中图I示出了通过工作流处理非结构化数据的语料库以产生一个或多个视图;图2示出了由示例工作流产生的视图的集合;以及 图3示出了按照允许使用关系型数据库概念来查询的方式表示从非结构化数据提取的结构化数据的方法。具体实施例方式本文描述的ー些实施例可以实现用于将对非结构化数据的提取表示成RDBMS中的结构化数据的用户表面。一些实施例包括用于表示对被表示为行集(rowset)的文档的整个语料库而不是仅对单个文档进行操作的提取的功能。一些实施例实现了用于展示复杂的、可独立查询的提取输出(诸如实体-关系图)的功能。一些实施例实现了用于通过被良好理解且良好支持的RDBMS概念(诸如表、视图等)来展示提取输出的功能。具体而言,实施例可将提取结果展示为视图或包含视图的模式(schemas),以使得这些结果能够表示诸如图(graph)等复杂结构并且是可独立查询的。一些实施例可实现接口和提取方法来维持应用提取时的相同感觉,不论提取细节如何,并因此能扩展到数据库中的新提取。数据提取系统可用于从非结构化数据提取并分类数据以允许自动化系统对该数据进行分类数据捜索。这些提取系统可以确定或尝试确定类型或关系信息,以使得非结构化数据可被组织为结构化数据。用户越来越多地使用RDBMS来存储非结构化文档,诸如文件、图像、或大文本值。用于管理这样的数据的ー些方法实现信息提取。信息提取包括输入非结构化文档,然后输出描述它们的结构化数据的过程。一些示例包括但不限于从MP3文件提取ID3元数据、从文本提取实体和关系、以及识别图片或视频中的面部。出于许多原因,诸如保持数据繁重的处理靠近数据以及利用如备份/恢复、复制、安全等现有管理特征,在数据库中执行这样的提取是有价值的。RDBMS可支持某种内建提取。这分为两大类索引和专用数据类型。例如,全文本和XML索引输入文本,并输出结构化索引。同样,多媒体的专用数据类型通过函数执行提取,例如,以从图片中提取色彩数据。现在參考图1,示出了ー个示例。图I示出了数据语料库102。数据语料库102包括非结构化数据。例如,数据语料库102可包括一个或多个非结构化的文本文档、媒体文件、图片、视频、生物测定数据等。该非结构化数据包括在实体层级没有按照语义组织的数据,因为该数据不具有形式化的类型和/或不处于正式实体层级关系中,其中在该正式实体层级关系中一个实体被正式相关(诸如通过图、树和/或其他关系结构)。如上所述,数据语料库可以是单个文件或文档,或者文件和/或文档的集合。在一些实施例中,单个文件或文档可用于自组织提取和捜索,如同下面将会更详细地解释的。在其他实施例中,单个文件或文档,或文件和/或文档的集合,可被提取到数据库或其他结构,以用于单个自组织实例以外的进行中的搜索和/或访问。数据语料库102可被馈送到信息提取工作流104中。信息提取工作流104定义从数据语料库102提取该数据以将数据语料库102中的数据组织为结构化数据的方式。现在示出信息提取工作流的示例。尽管示出了特定示例,然而应当理解,这些示例不是对提取技术的穷举,也可以使用其他提取技木。在一些实施例中,提取工作流可包括短语语义提取技木。具体而言,实施例可包括能够基于短语或短语中的字的语义环境来确定与该短语或该字有关的元数据的模块。例如,可以通过词语彼此的邻近度来确定关系。例如,如果发现跨各文档的语料库术语Microsoft和Excel紧挨着彼此,则短语语义分析可确定这两个术语是有关的。 可以使用字典或词法定义来创建字或短语的类型或关系。例如,里约热内卢的词法定义会将它标识为ー个城市,并且因此可以提取将里约热内卢分类为城市类型的元数据。在另ー示例中,文档可具有文本“ January 13,2011 (2011年I月13日)”。可以使用January(l月)的词法查找来确定它是在确定日期时使用的月份,并因此可以做出此文本是日期类型的判断。在一些实施例中,提取工作流可包括关系标识功能。例如,文本文档可包含短语“city of Rio de Janeir本文档来自技高网
...
用于消费信息提取服务的可扩展表面

【技术保护点】

【技术特征摘要】
2011.03.04 US 13/040,9391.一种在计算环境中的按照允许使用关系型数据库概念来查询的方式表示从非结构化数据提取的结构化数据的方法,所述方法包括 接收指定一个或多个数据库视图(106)的用户输入(302); 接收指定信息提取技术的用户输入(304); 接收指定数据语料库(102)的用户输入(306);以及 将所述提取技术应用到所述数据语料库(102)以产生所述ー个或多个数据库视图(106) (308)。2.如权利要求I所述的方法,其特征在于,所述ー个或多个视图包括单个查询的ー个或多个自组织视图。3.如权利要求I所述的方法,其特征在于,多个视图被指定为视图的集合。4.如权利要求I所述的方法,其特征在于,还包括接收与所述提取技术有关的附加选项。5.如权利要求I所述的方法,其特征在...

【专利技术属性】
技术研发人员:P·D·德罗塞
申请(专利权)人:微软公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1