利用分布式计算图快速预测分析超大型数据集制造技术

技术编号:19077389 阅读:25 留言:0更新日期:2018-09-29 18:35
已经开发了利用分布式计算图预测分析超大型数据集的系统。数据接收软件从一个或多个源接收流数据。在批处理数据路径中,数据形式化软件对输入数据格式化以进行存储。批处理事件分析服务器检查存储的数据的趋势、情况或知识。汇总的数据被传递给消息处理软件。系统健全软件从消息处理程序接收状态信息并优化系统性能。在流路径中,转换流水线软件操纵数据流、将结果提供回系统、接收来自系统健全和再调试软件的指令。

【技术实现步骤摘要】
【国外来华专利技术】利用分布式计算图快速预测分析超大型数据集相关申请的交叉引用本申请是于2015年10月28日提交的序列号为14/925,974、标题为“利用分布式计算图快速预测分析超大型数据集”的美国专利申请的PCT申请并且要求其优先权,其整个说明书通过引用全部并入本文。
本专利技术属于利用分布式计算图工具分析超大型数据集的领域,该分布式计算图工具通过线性转换流水线(pipeline)和非线性转换流水线允许数据转换。
技术介绍
即使在远距离的情况下,在个体之间传递信息的能力归因于使人类能够从灵长类采集者-拾荒者种类上升到形成简单群落。稳定记录信息的能力以便可以分析重复性事件和趋势,并作为扩展和构建的基础。可以肯定地说,可获得允许与其积累过程属于同一时期的个体以及下一代分析和添加的格式的信息是人类可以利用的最有力工具,并且能够推动我们进入我们已经实现的社会和技术成就的水平。没有任何东西能够增强我们收集和存储类似于电子和计算机技术的兴起信息的能力。存在可以测量任何可以想象的条件的各种类型的传感器。已经允许计算机存储和访问大部分人口的健康信息。同样,可以对关于车辆事故、环境因素以及车辆部件因素、航空事故和坠毁的详细数据进行详尽地重新创建和研究。为大多数消费者购买记录条目信息。虽然更多的示例比比皆是,但已经提出重点。计算机数据库技术已经允许所有这些信息都被可靠地存储起来,用于将来检索和分析。数据库技术的好处非常强大,以至于很少有不使用数据和知识存储解决方案的大型或小型企业,该数据和知识存储解决方案要么直接用于诸如库存控制和预测或客户关系之类的任务,要么间接用于订购。随着计算机网络的迅速崛起,由于现在庞大的人口可以交换意见、数据和想法,甚至被邀请这样做,所以因特网只能将信息的积累转换为急流;大量的传感器可以能被存储以供将来分析和使用的有意义的方式连接在一起。接收和存储数据已经达到了专家(谷歌的埃里克·施密特)估计的目前在两天内积累的数据达到了在2003年之前所有历史上积累的数据的程度。已经开发出诸如Hadoop和映射(map)/归约(reduce)的全新的分布式数据存储和检索技术;以及以图形和列为基础的数据存储组织以适应信息的涌入并以引导的方式提供检索信息的一些能力,但是这样的检索在除较肤浅且简单的活动之外的所有活动中已被证明均是劳动密集型和僵化的。目前,我们每天都积累大量信息,但是我们没有可以分析所有信息的工具,而只是融入知识或知情行动。我们需要的是一种系统,该系统允许在与积累的大量存储数据有关的情况下,分析当前可能非常复杂和不断变化的流数据,使得可以得出有意义的结论并采取有效的行动(action)。为了使用,这样的系统还将需要具有自我评估其自身操作以及在数据流和存储的信息中起关键中间因素的能力,并且改变其自身的功能以优化功能并使可靠结论的可能性最大化。作为各自对数据流执行一些行动或转换的函数的累进(progression)的数据流水线提供了处理上面直接讨论数量的数据的机制。但是,迄今为止,数据流水线在例如“将数据从基于Web的商户站点移动到分布式数据存储区;提取所有购得物并按产品类型和地区分类;存储结果日志”的所做事情方面仍然非常有限或已经被严格编程,并且可能需要使用非常具体的远程协议调用来执行所需的任务。即使有了这些新增功能,但是它们的功能也非常有限,并且它们都已经是线性配置,这就排除了它们在大多数需要分支或甚至经常修改的复杂情况下用于分析和总结或行动发现的可能性。需要一种将处理当前数据流与检索相关存储的数据的能力智能地结合的系统,这样可以预测的方式得出结论或行动。为了及时且有效地工作,系统需要监控部件内的操作问题,并且应该能够学习其所运行的分析的中间决定且对其做出反应,并且还应该能够自我修改以保持最佳操作。
技术实现思路
本专利技术人已经开发了一种利用分布式计算图用于快速预测分析超大型数据集的系统,该系统将处理当前数据流与检索相关存储的数据的能力智能地结合,这样可以预测的方式得出结论或行动。根据本专利技术的优选实施例,公开一种利用分布式计算图快速预测分析超大型数据集的系统,其包括数据接收软件模块、数据过滤软件模块、数据形式化软件模块、输入事件数据存储模块、批处理事件分析服务器、系统健全和再调试(retrain)软件模块、消息传送软件模块、转换流水线软件模块以及输出软件模块。数据接收软件模块:从多个数据源中的一个或多个数据源接收输入流,并将数据流发送至数据过滤模块。过滤软件模块:从数据接收软件模块接收数据流;由于包括但不限于以下集合的多种原因从数据流中去除数据记录:缺少所有信息、记录中的数据损坏,以及存在使数据记录无效的不一致信息或缺失信息;将过滤的数据流分割成两个或多个相同的部分;将一个相同的数据流发送至数据形式化软件模块;并将另一个相同的数据流发送至分布式图计算模块的转换流水线模块。数据形式化模块:从数据过滤软件模块接收数据流;基于一组预定参数对数据流内的数据格式化,以准备有意义地存储在数据存储装置中有意义的存储;并将格式化的数据流放入输入事件数据存储模块中。输入事件数据存储装置:从数据形式化模块接收格式正确的数据;并且通过适合长期可获得、及时检索和分析累积的数据的方法存储数据。批处理事件分析服务器:基于一组预定参数访问数据存储装置以获得感兴趣的信息;将从数据存储装置检索的数据预先确定地汇总,该数据表示诸如重要性趋势、系统内待分析的事件或一组事件的过去事例或者在许多迭代中两个或更多个变量之间的可能因果关系等兴趣点;向消息传送软件模块提供基于分析数据的广度的汇总信息;并且从消息传送软件模块接收通信,该通信可以是关于当时提供的信息的特定信息或指令的请求的形式。转换流水线软件模块:从数据过滤软件模块接收流数据;对数据流内的数据应用一个或多个函数;向系统提供由该组函数流水线产生的数据;并且从系统健全和再调试模块接收指令以修改流水线的函数。消息传送软件模块:从进行分析的目标接收管理指令;从批处理事件分析服务器接收数据存储分析汇总;从转换流水线软件模块接收流水线数据函数的结果;并向系统健全和再调试软件模块发送数据分析状态和进度相关信息以及管理执行指令。系统健全和再调试软件模块:从消息传送软件模块接收数据分析状态和进度信息;将所有输入信息与预先分配的参数进行比较以确保系统稳定性;利用预先存在的准则来改变系统的其它软件模块内的操作行为以返回所需的系统功能;根据需要通过输出模块发送关于系统状态退化的警报信号;接收并应用改变系统功能的任何管理请求。最后,输出模块:接收指定给系统外部的信息;基于指定的最终目标对该信息进行格式化;并将该信息按路线发送至适当的端口以便进一步行动。根据本专利技术的另一优选实施例,公开一种利用分布式计算图快速预测分析超大型数据集的方法,其包括以下步骤:从多个数据源中的一个或多个数据源接收流输入;过滤不完整、错误配置或损坏的输入;利用预先设计的标准将输入数据形式化以用在方法的批处理和流部分中;对形式化输入执行一组或多组数据转换;对流数据的转换流水线分析的结果执行健全性检查以及基于对输入数据的批处理分析执行分析处理再调试;最后,以分析者预先确定的格式输出分析过程的结果。附图说明附图说明了本专利技术的几个实施例,并且与说明书一起用本文档来自技高网
...

【技术保护点】
1.一种利用分布式计算图预测分析超大型数据集的系统,其包括:数据接收软件模块,其存储在计算装置的存储器中并在所述计算装置的处理器上运行;数据过滤软件模块,其存储在所述计算装置的存储器中并在所述计算装置的处理器上运行;数据形式化软件模块,其存储在所述计算装置的存储器中并在所述计算装置的处理器上运行;输入事件数据存储模块,其存储在所述计算装置的存储器中并在所述计算装置的处理器上运行;批处理事件分析服务器,其存储在所述计算装置的存储器中并在所述计算装置的处理器上运行;系统健全和再调试软件模块,其存储在所述计算装置的存储器中并在所述计算装置的处理器上运行;消息传送模块软件,其存储在所述计算装置的存储器中并在所述计算装置的处理器上运行;转换流水线软件模块,其存储在所述计算装置的存储器中并在所述计算装置的处理器上运行;和输出软件模块,其存储在所述计算装置的存储器中并在所述计算装置的处理器上运行;其中所述数据接收软件模块:(a)从多个数据源中的一个或多个接收输入流;(b)向所述数据过滤模块发送所述数据流;以及其中所述过滤软件模块:(c)从所述数据接收软件模块接收数据流;(d)由于包括但不限于下列集合的多种原因从所述数据流中去除数据记录:缺少所有信息、所述记录中的数据损坏,以及存在使所述数据记录无效的不一致信息或缺失信息;(e)将过滤的数据流分割成两个或多个相同的部分;(f)向所述数据形式化软件模块发送一个相同的数据流;以及(g)向所述分布式图计算模块的转换流水线模块发送另一个相同的数据流;以及其中所述数据形式化模块:(h)从所述数据过滤软件模块接收数据流;(i)基于一组预定参数对所述数据流内的数据格式化,以准备有意义地存储在数据存储装置中;以及(j)将格式化的数据流放入所述输入事件数据存储模块中;和其中所述输入事件数据模块:(k)从所述数据形式化模块接收格式正确的数据;以及(l)通过适合长期可获得、及时检索和分析累积的数据的方法存储所述数据;和其中所述批处理事件分析服务器:(m)基于一组预定参数访问所述数据存储装置以获得感兴趣的信息;(n)将从所述数据存储装置检索的数据预先确定地汇总,所述数据表示诸如重要性趋势、系统内待分析的事件或一组事件的过去事例或者在许多迭代中两个或更多个变量之间的可能因果关系等兴趣点;和(o)向所述消息传送软件模块提供基于分析的数据的广度的汇总信息;和(p)从所述消息传送软件模块接收通信,所述通信可以是关于当时提供的信息的特定信息或指令的请求的形式;和其中所述转换流水线软件模块:(q)从所述数据过滤软件模块接收流数据;(r)对数据流内的数据应用一个或多个函数;(s)将由一组流水线的函数产生的数据提供回所述系统;以及(t)从所述系统健全和再调试模块接收指令以修改所述流水线的函数;以及其中所述消息传送软件模块:(u)从进行分析的目标接收管理指令;(v)从所述批处理事件分析服务器接收数据存储分析汇总;(w)从所述转换流水线软件模块接收流水线数据函数的结果;和(x)向所述系统健全和再调试软件模块发送数据分析状态和进度相关信息以及管理执行指令;以及其中所述系统健全和再调试软件模块:(y)从所述消息传送软件模块接收数据分析状态和进度信息;(z)将所有输入信息与预先分配的参数进行比较以确保系统稳定性;(aa)利用预先存在的准则来改变系统的其它软件模块内的操作行为以返回所需的系统功能;(ab)根据需要通过所述输出模块发送关于系统状态退化的警报信号;和(ac)接收并应用改变系统功能的任何管理请求;和进一步地,其中所述输出模块:(ad)接收指定给所述系统外部的信息;(ae)基于指定的最终目标将所述信息进行格式化;和(af)将所述信息按路线发送至适当的端口以便进一步操作。...

【技术特征摘要】
【国外来华专利技术】2015.10.28 US 14/925,9741.一种利用分布式计算图预测分析超大型数据集的系统,其包括:数据接收软件模块,其存储在计算装置的存储器中并在所述计算装置的处理器上运行;数据过滤软件模块,其存储在所述计算装置的存储器中并在所述计算装置的处理器上运行;数据形式化软件模块,其存储在所述计算装置的存储器中并在所述计算装置的处理器上运行;输入事件数据存储模块,其存储在所述计算装置的存储器中并在所述计算装置的处理器上运行;批处理事件分析服务器,其存储在所述计算装置的存储器中并在所述计算装置的处理器上运行;系统健全和再调试软件模块,其存储在所述计算装置的存储器中并在所述计算装置的处理器上运行;消息传送模块软件,其存储在所述计算装置的存储器中并在所述计算装置的处理器上运行;转换流水线软件模块,其存储在所述计算装置的存储器中并在所述计算装置的处理器上运行;和输出软件模块,其存储在所述计算装置的存储器中并在所述计算装置的处理器上运行;其中所述数据接收软件模块:(a)从多个数据源中的一个或多个接收输入流;(b)向所述数据过滤模块发送所述数据流;以及其中所述过滤软件模块:(c)从所述数据接收软件模块接收数据流;(d)由于包括但不限于下列集合的多种原因从所述数据流中去除数据记录:缺少所有信息、所述记录中的数据损坏,以及存在使所述数据记录无效的不一致信息或缺失信息;(e)将过滤的数据流分割成两个或多个相同的部分;(f)向所述数据形式化软件模块发送一个相同的数据流;以及(g)向所述分布式图计算模块的转换流水线模块发送另一个相同的数据流;以及其中所述数据形式化模块:(h)从所述数据过滤软件模块接收数据流;(i)基于一组预定参数对所述数据流内的数据格式化,以准备有意义地存储在数据存储装置中;以及(j)将格式化的数据流放入所述输入事件数据存储模块中;和其中所述输入事件数据模块:(k)从所述数据形式化模块接收格式正确的数据;以及(l)通过适合长期可获得、及时检索和分析累积的数据的方法存储所述数据;和其中所述批处理事件分析服务器:(m)基于一组预定参数访问所述数据存储装置以获得感兴趣的信息;(n)将从所述数据存储装置检索的数据预先确定地汇总,所述数据表示诸如重要性趋势、系统内待分析的事件或一组事件的过去事例或者在许多迭代中两个或更多个变量之间的可能因果关系等兴趣点;和(o)向所述消息传送软件模块提供基于分析的数据的广度的汇总...

【专利技术属性】
技术研发人员:杰森·克拉布特里安德鲁·塞勒斯
申请(专利权)人:分形工业有限公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1