用于快速数据分析的系统和方法技术方案

技术编号：14689120 阅读：99 留言：0更新日期：2017-02-23 11:32

用于快速数据分析的方法，包括接收并解释查询、收集来自第一组数据碎片中的第一数据样本、基于第一数据样本的分析来计算查询的中间结果、基于中间结果识别第二组数据碎片、收集来自第二组数据碎片中的第二数据样本、以及基于第二数据样本的分析来计算查询的最终结果。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】相关申请的交叉引用本申请要求于2014年3月10日提交的序列号为61/950,827的美国临时申请的权益，其以引用的方式全部并入本文中。
本专利技术通常涉及数据分析领域，且更具体地涉及用于数据分析领域中的快速数据分析的新的和实用的系统和方法。背景如今的商业收集涉及销售、市场和其他关键业务的大量的数据。查询这样的数据往往是困难且资源密集的过程，特别是对于复杂的查询来说。在一定程度上，查询性能可通过预计算数据聚合和数据索引得以改善，但是在跨越大的数据集中的所有维度上完成这样的预计算是不可行的。由于这样的原因，查询性能问题往往使数据分析缓慢。因此，在数据分析领域有创建用于快速数据分析的系统和方法的需要。本专利技术提供了这样的新的和实用的系统和方法。附图简述图1是优选的实施例的系统的图示视图；图2是优选的实施例的系统的事件流的示例性表格视图；图3是优选的实施例的系统的示例实施的图示视图；以及图4是优选的实施例的方法的图表视图。优选的实施例的描述本专利技术的优选实施例的以下描述不旨在将本专利技术限制到这些优选实施例，而是使本领域中的任何技术人员能够执行并使用本专利技术。1.用于快速数据分析的系统如图1所示，用于快速数据分析的系统100包括事件数据库110、字符串查找数据库120、字符串译码器130以及查询引擎140。系统100可附加地或可替代地包括接口模块150、配置数据库160和/或数据管理器170。系统100用于通过利用分布式计算来实现快速数据分析，以激励专门设计用于提高大量数据的查询速度的架构。系统100优选用于事件数据；事件数据库110中的每个条目优选包...
用于快速数据分析的系统和方法

【技术保护点】
一种用于快速数据分析的方法，包括：·接收并解释查询，其中，解释所述查询包括使用字符串译码器将所述查询的字符串译为整数，其中，解释所述查询还包括识别第一组数据碎片，所述第一组数据碎片包含涉及所述查询的数据；·收集来自所述第一组数据碎片的第一数据样本，其中收集所述第一数据样本包括收集来自所述第一组数据碎片中的每一个的数据，其中，收集来自所述第一组数据碎片中的每一个的数据包括仅收集被包含在所述第一组数据碎片中的每一个内的数据的子集；·基于所述第一数据样本的分析来计算所述查询的中间结果；·基于所述中间结果识别第二组数据碎片；·收集来自所述第二组数据碎片的第二数据样本，其中收集所述第二数据样本包括收集来自所述第二组数据碎片中的每一个的数据，其中，收集来自所述第二组数据碎片中的每一个的数据包括收集被包含在所述第二组数据碎片中的每一个内的完整的数据集；以及·基于所述第二数据样本的分析来计算所述查询的最终结果。

【技术特征摘要】
【国外来华专利技术】2014.03.10 US 61/950,8271.一种用于快速数据分析的方法，包括：·接收并解释查询，其中，解释所述查询包括使用字符串译码器将所述查询的字符串译为整数，其中，解释所述查询还包括识别第一组数据碎片，所述第一组数据碎片包含涉及所述查询的数据；·收集来自所述第一组数据碎片的第一数据样本，其中收集所述第一数据样本包括收集来自所述第一组数据碎片中的每一个的数据，其中，收集来自所述第一组数据碎片中的每一个的数据包括仅收集被包含在所述第一组数据碎片中的每一个内的数据的子集；·基于所述第一数据样本的分析来计算所述查询的中间结果；·基于所述中间结果识别第二组数据碎片；·收集来自所述第二组数据碎片的第二数据样本，其中收集所述第二数据样本包括收集来自所述第二组数据碎片中的每一个的数据，其中，收集来自所述第二组数据碎片中的每一个的数据包括收集被包含在所述第二组数据碎片中的每一个内的完整的数据集；以及·基于所述第二数据样本的分析来计算所述查询的最终结果。2.根据权利要求1所述的方法，其中，收集来自所述第一组数据碎片的所述第一数据样本包括收集来自所述第一组数据碎片的分列数据集的数据。3.根据权利要求2所述的方法，其中，所述第一组数据碎片包括按时间组织的事件数据。4.根据权利要求1所述的方法，其中，接收和解释所述查询还包括解释对隐式数据的参考。5.根据权利要求4所述的方法，其中，接收和解释所述查询还包括选择排序函数和分组函数中的至少一个。6.根据权利要求1所述的方法，其中，识别第一组数据碎片包括使用配置数据库识别所述第一组数据碎片的节点位置。7.根据权利要求1所述的方法，其中使用字符串译码器将所述查询的字符串译为整数包括使用以使能前缀匹配的格式存储的字符串标识符来译码字符串。8.根据权利要求1所述的方法，其中，所述查询包括至少一个时间范围和至少一个事件数据源。9.根据权利要求8所述的方法，其中，计算所述查询的所述最终结果还包括基于采样数据的统计分布的分析来计算关于估计的结果的准确度的...

【专利技术属性】
技术研发人员：罗伯特·约翰逊，利奥尔·亚伯拉罕，安·约翰逊，鲍里斯·迪米特罗夫，唐·弗斯格林，
申请(专利权)人：因特拉纳公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人