提供信息管理制造技术

技术编号:8805793 阅读:192 留言:0更新日期:2013-06-13 22:43
本发明专利技术提供一种以实时信息管理环境处理数据质量的计算机可实现的方法。该方法包括利用概率自然语言处理(pNLP)引擎从非结构化数据源获得第一数据集,第一数据集包括第一元组,第一元组描述关系和该关系是准确的对应概率。该方法还包括从结构化数据源获得第二数据集,第二数据集包括第二元组,第二元组描述第二关系和表示第二关系是准确的概率。该方法还包括利用包括与第一数据集和所述第二数据集相对应的概率的通用数据格式将第一数据集和第二数据集存储到通用数据存储区中。

【技术实现步骤摘要】
【国外来华专利技术】提供信息管理
技术介绍
企业利用商业智能(BI)技术来做出战略和战术决策。在很多情况下,决策环可能持续几周的时间周期,诸如在活动管理方面,或者可能持续数月的时间周期,诸如在提高客户满意度方面。然而,竞争压力迫使公司要做出更快的反应,以快速的改变营业状况和客户需求。因此,越来越渴望利用商业智能来协助每天(在一些情况下近乎实时)获得并优化经营活动。这种类型的商业智能被称作操作型商业智能。在传统的商业智能体系中,利用数据提取、转换和装载的应用程序来从包括结构化数据源和非结构化数据源的多种数据源中收集企业的交易数据。处理所收集的数据,例如,从非结构化数据中提取语义,并且将该数据作为结构化数据载入数据仓库中。用户然后可以对数据仓库运行查询,产生来自数据仓库的报告等。将结构化数据和非结构化数据集成到公用数据存储库中的处理能够掩盖结构化数据和非结构化数据之间的数据质量差异。查询这种数据将产生质量几乎为最低标准的结果,进而破坏通常与结构化数据相关的高数据质量。另外,从非结构化数据源中提取语义的过程可能是不完整的,并且其可能使结构化数据和非结构化数据之间的联合运算失真而导致错误结果。附图说明在以下的具体描述中并结合附图描述某些示例性实施例,其中:图1是根据本专利技术实施例的被配置为集成来自不同数据质量的数据源的数据的系统的框图。图2是根据本专利技术实施例的用于在处理不同数据源之间的数据质量差异的同时提供实时商业智能的图1的更详细框图。图3是根据本专利技术实施例的用于集成来自不同数据质量的多个数据源的数据的方法的处理流程图。图4是根据本专利技术实施例的示出存储用于集成来自不同数据质量的数据源的数据的代码的非临时性计算机可读介质的框图。具体实施例方式本专利技术各实施例提供来自不同数据质量的数据源的数据的集成。根据各实施例,提供一种对所集成的结构化数据和非结构化数据执行实时信息管理的新模式。通过将准确性概率与从不同数据源提取的事实相关联来处理数据质量。今天,大部分自然语言处理(NLP)引擎是以规则和语法为基础的。然而,存在新一代概率的或随机的NLP引擎(pNLP),其可以基于事实的准确性概率从非结构化文本中提取事实。PNLP引擎可以确定与文件的文字相关的一个或多个可能的含义,将不同的概率与每个可能的含义相关联,并且返回具有最高准确性概率的含义。事实的准确性指的是从文件中提取的事实是否正确地传达了该文件的作者所意指的含义并且是否会被该文件的读者所理解。换句话说,具有高概率度的事实由于例如就将数据输入文件的人而言的人为失误而实际上可能仍然是错误的。然而,该事实在其向文件的读者传达与之相关的含义的意义上来说却是“准确的”。传统的PNLP计算所给文字的可能含义的概率,选择具有最高概率的含义,并且返回具有最高概率的含义作为事实。根据各实施例,修改PNLP引擎,以将文字的所有不同含义与它们的对应概率一起导出。可以以在本文中被称为“元组”的数据格式来表示PNLP引擎所返回的每个事实。每个元组包括事实是准确的对应概率。从结构化数据和非结构化数据产生的元组可以被组合到集成数据集中,然后可以利用其中客户可以指定他们答案的预期准确度的信息模型来对元组进行查询。信息模型可以将可能的不同答案与相关联的准确性概率一起返回。在这个模型中,来自低质量数据和高质量数据的混合数据将不会影响答案质量。即可以从结构化数据源又可以从非结构化数据源中收集信息。从结构化数据源收集的信息可以与信息是准确的高概率度(例如100%)相关联。从非结构化数据源收集的信息的数据质量通常容易变化。因此,不同的概率可以与从不同的非结构化数据源返回的不同的元组相关联。这些元组和它们的关联概率可以被存储到公用数据存储区。利用概率作为结果的属性的查询语言可以应用于该公用数据存储区。另外,模糊推理也可以应用于该公用数据存储区,以获得若干个可能的答案,答案中的每一个具有关联的准确性概率。根据各实施例的信息模型提供比现有信息模型更多的数据,这是因为其揭示了来自同一数据集的更多信息。在各实施例中,利用信息管理系统来提供实时的操作型商业智能。该信息管理系统使能够以并行方式直接从多个操作型数据源收集具体数据,作为对诸如查询或报告请求等的被请求的商业智能客户端操作的响应。通过这种方法,整个企业网络上的数据可以直接从这些数据的数据源实时访问,而不是仅仅依靠已经被事先存储到数据仓库的数据。图1是根据本专利技术各实施例的被配置为提供一种新的用于实时操作型商业智能的信息模型的系统的框图。该系统大体上以附图标记100来表示。如图1所示,系统100可以包括计算设备102,计算设备102可以被视为运行诸如Linux或Windows的传统操作系统的传统服务器集群。计算设备102可以包括一个或多个处理部件(PE) 104。例如,除其它配置之外,计算设备102还可以包括中央处理单元(CPU)或者对称式多处理器(SMP)集群。处理部件104运行用于从企业中的不同数据源收集相关数据的专门应用软件。在实施例中,计算设备102是通用计算设备,例如一个或多个处理部件104集群。计算设备102能够可操作地联接到企业网络108,企业网络108可以是局域网(LAN)、广域网(WAN)或者另一个网络结构。计算设备102通过企业网络108可以访问多种操作型数据源110,多种操作型数据源110包括结构化数据源和非结构化数据源,诸如数据仓库112、数据集市、客户关系管理(CRM)系统118、企业资源计划(ERP)系统114和文件存储库120等。数据集市是被配置为支持企业中部门的商业需求的数据存储系统,诸如数据库。如在本文中所使用的,术语“结构化数据”指代其中所存储的数据的语义被明确定义的数据。例如,结构化数据源包括关系数据库和XML数据库等。术语“非结构化数据”用于指代其中数据的语义未被明确定义的数据源。例如,非结构化数据可以指代纯文本文件、扫描文件、ADOBE 可携式文档文件(PDF)、Microsoft Word文件。术语“非结构化数据”在本文中还指代其中数据的语义(例如使用元数据标签)被编码的半结构化数据。半结构化文件的示例包括可扩展标记语言(XML)文档和超文本标记语言(HTML)文档等等。在各实施例中,系统100包括用于管理内部资源和外部资源的企业资源计划(ERP)系统114,内部资源和外部资源例如为财政资源、人力资源、材料、器材以及其他有形和无形资产。企业资源计划系统114可以用于提供企业未来商业计划(诸如计划的产品、月艮务和收购等)的策略,并且便于信息在整个企业流动以及协调企业的商业操作。系统100可以包括用于管理提供给终端客户的产品和服务的产量的供应链管理(SCM)系统116。供应链管理系统116可以用于跟踪和管理原材料、在制品存货和成品从供应商到客户的移动和存储。系统100还可以包括用于跟踪和管理与企业的客户、商业客户端和销售前景的关系的客户关系管理(CRM)系统118。例如,客户关系管理系统118可以用于保持跟踪销售活动、市场活动、客户服务互动、客户控诉和技术支持等。在各实施例中,系统100包括用于存储重要企业文件的一个或多个文件存储库120,重要企业文件例如为员工工作产品、技术论文、信件、合同、发票和法律文件等。存储到该文件存储库的文件本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】

【专利技术属性】
技术研发人员:艾哈迈德·K·伊扎特
申请(专利权)人:惠普发展公司有限责任合伙企业
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1