当前位置: 首页 > 专利查询>波音公司专利>正文

用于处理数据的系统和方法技术方案

技术编号:8300827 阅读:192 留言:0更新日期:2013-02-07 04:19
本发明专利技术提供一种用于处理至少部分未结构化数据的方法。该方法包括在数据处理工具从至少一个数据源接收至少部分未结构化数据,以及处理该至少部分未结构化数据以生成包括标签化数据的至少部分结构化的数据,其中处理至少部分未结构化数据包括以下中的至少一个:利用关联存储器应用程序来处理至少部分未结构化数据;以及利用正则表达式处理程序来处理至少部分未结构化数据。该方法进一步包括传输至少部分结构化数据到主应用程序,以及至少部分基于标签化数据来合并至少部分结构化数据到主应用程序,其中合并该至少部分结构化数据包括基于标签的存在、内容和/或类型来进行以下中的至少一个:包括数据和排除数据。

【技术实现步骤摘要】

本公开的领域总体涉及数据分析,尤其是涉及处理未结构化数据和/或部分结构化数据以生成结构化数据,以便由应用程序处理。正如本文所使用的,未结构化数据指为自由形式以及基于生成该数据人员的语法/语言而变化的数据。
技术介绍
在数据分析系统中,数据,例如未结构化文本和/或部分结构化文本或其他数据类型(例如字母数字串和非字母数字数据(图像、元数据等))在被添加到系统之前,常常需要被处理和/或组织成更结构化的形式。然而,从未结构化文本和/或部分结构化数据中识别、语法分析和提取相关信息会是困难的和耗时的。利用类属语法分析器(generic parsers)和/或提取器(extractor)来识别这类信息,数据会被忽略、错误识别和/或不适当地解构。为了纠正这些错误,常常编写专用代码以正确地识别该信息。然而,编写和实现这类专用代码会是耗时的,而且得到的代码仅适用特定情形。进一步地,定期更新未结构化文本和/或部分结构化数据会加重这些问题,因为其引入了可能需要其他专用代码的新情形。进一步地,专用代码通常仅能由有经验的人员编写和更新。也可以实现自然语言方法来处理和/或组织未结构化数据和/或部分结构化数据。然而,根据未结构化数据和/或部分结构化数据的来源,自然语言在组织未结构化数据和/或部分结构化数据时可能不是有效的。进一步的,自然语言方法要求需要本体论(ontology)专家和数据挖掘专家,以便正确地编程和更新。最后,可以使用人工智能工具(例如基于规则的系统、神经网络和/或Bayesian网络)来处理和/或组织未结构化数据和/或部分结构化数据。然而这些系统也要求有经验的人员来实现和/或更新。
技术实现思路
一方面,提供了用于处理至少部分未结构化数据的方法。该方法包括在数据处理工具从至少一个数据源接收至少部分未结构化数据并处理该至少部分未结构化数据以生成包括标签化数据的至少部分结构化数据,其中标签化数据包括至少一个感兴趣的项目,以及其中处理该至少部分未结构化数据包括以下中的至少一个利用关联存储器应用程序来处理该至少部分未结构化数据;以及利用正则表达式处理程序来处理该至少部分未结构化数据。该方法进一步包括传送至少部分结构化数据到主应用程序,并且至少部分基于标签化数据合并至少部分结构化数据到主应用程序中,其中合并至少部分结构化数据包括基于标签的存在、内容和/或类型来进行以下中的至少一个包括数据和排除数据。另一方面,提供了一种具有体现在其上的计算机可执行指令的一个或更多计算机可读存储介质。当由至少一个处理器执行时,计算机可执行指令使该至少一个处理器在数据处理工具处从至少一个数据源接收至少部分未结构化数据,并处理至少部分未结构化数据以生成包括标签化数据的至少部分结构化数据,其中标签化数据包括至少一个感兴趣的项目,并且其中处理至少部分未结构化数据,计算机可执行指令使处理器执行以下中的至少一个利用关联存储器的应用程序来处理至少部分未结构化数据;以及利用正则表达式处理程序来处理至少部分未结构化数据。该指令进一步使至少一个处理器传送至少部分结构化数据到主应用程序中,并且至少部分基于标签化数据合并至少部分结构化数据到主应用程序中,其中合并至少部分结构化数据包括基于标签的存在进行以下中的至少一个包括数据和排除数据。 在又一个方面,提供了一种用于处理至少部分未结构化数据的系统。该系统包括处理装置、通信耦合到处理装置的用户接口以及通信耦合到处理装置的存储器和通信耦合到处理装置的通信接口中的至少一个。处理装置被编程为从存储器和通信接口中的至少一个接收至少部分未结构化数据;利用在其上执行的数据处理工具来通过以下中的至少一个处理至少部分未结构化数据以生成包括标签化数据的至少部分结构化数据,标签化数据包括至少一个感兴趣的项目利用在其上执行的关联存储器应用程序来处理至少部分未结构化数据;和利用在其上执行的正则表达式处理程序来处理至少部分未结构化数据;以及基于标签化合并至少部分结构化数据到主应用程序中,其中合并至少部分结构化数据包括基于标签的存在来进行以下中的至少一个包括数据和排除数据。已经讨论的特征、功能和优点可以在各种实施例中独立实现或可以在其他实施例中组合,其进一步细节可以参考下列描述和绘图看出。附图说明图I是用于处理文本的方法的流程图。图2A-2D是图解说明在图I示出的方法的图示。图3是用于对未结构化文本标签化以生成结构化文本的示例性方法的流程图。图4是图解说明利用正则表达式处理程序来标签化未结构化文本的示例性方法的图示。图5是图解说明利用关联存储器应用程序来标签化未结构化文本的示例性方法的图示。图6是利用关联存储器应用程序来识别和标签化未结构化文本的示例性方法的图示。图7是用于生成识别得分的示例性方法的流程图。图8A-图SC是识别和选择错误识别的文本的示例性用户接口的实施例。图9是示例性文本处理系统的框图。图10是数据处理系统的图示。具体实施例方式本文所述的方法和系统涉及可能在数据源(例如,文本文件、数据库字段(database field))中发现的感兴趣项目的识别。虽然本文所述的示例和实施例涉及文本处理,但是应当理解,实施例不应该解释为如此限制。描述文本处理的示例和实施例是为了清晰起见。本文使用的示例无意被视为限制性的,而仅仅用作说明性示例。更确切说,这里描述的实施例涉及包括任何类型信息和/或数据的处理,包括文本、字母数字数据(alphanumeric data)、嵌入式对象、图像、元数据、视频、音频、多媒体和所有类型的数据和信息流中的一个或多个,而不限于任何特定形式或类型的这类数据和信息。因此该方法和系统涉及,例如利用数据处理工具来提供数据的标签化,这给数据提供了 “结构”,以及发生在处理期间的数据的任何结构化的验证。虽然本文做了进一步描述,但是应当理解,实施例不仅涉及在文件内的未结构化数据的“结构化”,而且涉及包含部分结构化数据的文件的进一步结构化。为了进一步清晰起见,正如本文所使用的,未结构化数据是指通常由人员输入的数据,例如文本,其为自由形式并且基于该人的语法/语言而变化。例如,电子邮件和注记字段通常使用户能够输入自由形式的响应。进一步地,正如本文所使用的,若数据中的信息被标签化或以有组织化方式调用(call out),那么结构化数据被称为结构化的和/或部分结构化的。前述将标签添加到文件内感兴趣的项目类似于将文件内的数据结构化。与现有的数据处理方法相比,这类实施例提供了改进的效率和性能。正如本文进 一步所述的,可以利用关联存储器应用程序(associative memory application)和/或正则表达式处理程序中的一个或两者来识别数据内的感兴趣项目,通过标签化来结构化数据内的感兴趣项目,以及验证数据内的感兴趣项目。关联存储器包括多个数据和该多个数据之间的多个联合。关联存储器应用程序还指代利用关联存储器引擎将数据源合并在一起从而创建的关联存储器。关联存储器引擎是控制关联存储器创建、维护和存取的应用程序,类似于数据库软件如何控制多个数据库。关联存储器包括与其他实体和属性相关和/或关联的实体和属性。实体是在感兴趣的特定项目的关联存储器中的实例,属性是关联的实体的特性和/或描述。关联存储器记住属性、实体以及他们之间的联合。进一本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/201210227570.html" title="用于处理数据的系统和方法原文来自X技术">用于处理数据的系统和方法</a>

【技术保护点】
一种处理至少部分未结构化数据的方法,该方法包括:在数据处理工具处从至少一个数据源接收至少部分未结构化数据;处理所述至少部分未结构化数据,以实现包括标签化数据的至少部分结构化数据的生成,其中所述标签化数据包括至少一个感兴趣的项目,并且其中处理所述至少部分未结构化数据包括下列中的至少一个:利用关联存储器应用程序来处理所述至少部分未结构化数据;以及利用正则表达式处理程序来处理所述至少部分未结构化数据;传输所述至少部分结构化数据到主应用程序;以及至少部分基于所述标签化数据合并所述至少部分结构化数据到主应用程序,其中合并所述至少部分结构化数据包括基于标签的存在、内容和类型中的至少一个来进行以下中的至少一个:包括数据和排除数据。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:L·J·夸特西K·M·纳卡摩德B·沃恩
申请(专利权)人:波音公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1