用于处理数据的系统和方法技术方案

技术编号：8300827 阅读：192 留言：0更新日期：2013-02-07 04:19

本发明专利技术提供一种用于处理至少部分未结构化数据的方法。该方法包括在数据处理工具从至少一个数据源接收至少部分未结构化数据，以及处理该至少部分未结构化数据以生成包括标签化数据的至少部分结构化的数据，其中处理至少部分未结构化数据包括以下中的至少一个：利用关联存储器应用程序来处理至少部分未结构化数据；以及利用正则表达式处理程序来处理至少部分未结构化数据。该方法进一步包括传输至少部分结构化数据到主应用程序，以及至少部分基于标签化数据来合并至少部分结构化数据到主应用程序，其中合并该至少部分结构化数据包括基于标签的存在、内容和/或类型来进行以下中的至少一个：包括数据和排除数据。

全部详细技术资料下载

【技术实现步骤摘要】

本公开的领域总体涉及数据分析，尤其是涉及处理未结构化数据和/或部分结构化数据以生成结构化数据，以便由应用程序处理。正如本文所使用的，未结构化数据指为自由形式以及基于生成该数据人员的语法/语言而变化的数据。
技术介绍
在数据分析系统中，数据，例如未结构化文本和/或部分结构化文本或其他数据类型(例如字母数字串和非字母数字数据(图像、元数据等))在被添加到系统之前，常常需要被处理和/或组织成更结构化的形式。然而，从未结构化文本和/或部分结构化数据中识别、语法分析和提取相关信息会是困难的和耗时的。利用类属语法分析器(generic parsers)和/或提取器(extractor)来识别这类信息，数据会被忽略、错误识别和/或不适当地解构。为了纠正这些错误，常常编写专用代码以正确地识别该信息。然而，编写和实现这类专用代码会是耗时的，而且得到的代码仅适用特定情形。进一步地，定期更新未结构化文本和/或部分结构化数据会加重这些问题，因为其引入了可能需要其他专用代码的新情形。进一步地，专用代码通常仅能由有经验的人员编写和更新。也可以实现自然语言方法来处理和/或组织未结构化数据和/或部分结构化数据。然而，根据未结构化数据和/或部分结构化数据的来源，自然语言在组织未结构化数据和/或部分结构化数据时可能不是有效的。进一步的，自然语言方法要求需要本体论(ontology)专家和数据挖掘专家，以便正确地编程和更新。最后，可以使用人工智能工具(例如基于规则的系统、神经网络和/或Bayesian网络)来处理和/或组织未结构化数据和/或部分结构化数据。然而这些系统也要求有经验的人员来实现...
<a href="http://www.xjishu.com/zhuanli/55/201210227570.html" title="用于处理数据的系统和方法原文来自X技术">用于处理数据的系统和方法</a>

【技术保护点】
一种处理至少部分未结构化数据的方法，该方法包括：在数据处理工具处从至少一个数据源接收至少部分未结构化数据；处理所述至少部分未结构化数据，以实现包括标签化数据的至少部分结构化数据的生成，其中所述标签化数据包括至少一个感兴趣的项目，并且其中处理所述至少部分未结构化数据包括下列中的至少一个：利用关联存储器应用程序来处理所述至少部分未结构化数据；以及利用正则表达式处理程序来处理所述至少部分未结构化数据；传输所述至少部分结构化数据到主应用程序；以及至少部分基于所述标签化数据合并所述至少部分结构化数据到主应用程序，其中合并所述至少部分结构化数据包括基于标签的存在、内容和类型中的至少一个来进行以下中的至少一个：包括数据和排除数据。

【技术特征摘要】
...

【专利技术属性】
技术研发人员：L·J·夸特西，K·M·纳卡摩德，B·沃恩，
申请(专利权)人：波音公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人