【技术实现步骤摘要】
【国外来华专利技术】异步处理顺序数据块
概括而言,所描述的实施例涉及在计算机系统中处理数据,并且具体而言,涉及异步处理从存储设备取回的数据块。
技术介绍
数据分析涉及从大数据集中提取具有商业价值的信息。例如,小型企业可以利用第三方数据分析环境,其采用专用的计算和人力资源来收集、处理和分析来自各种来源(例如,外部数据提供者、内部数据源(例如,本地计算机上的文件)、大数据存储库和基于云的数据(例如,社交媒体信息)的大量数据。以提取有用的定量和定性信息的方式处理数据分析中使用的这样的大数据集通常需要在功能强大的计算平台上实现的复杂软件工具。另外,需要有效的数据处理技术来访问、处理和分析来自不同数据源的大数据集。否则,可能会出现性能瓶颈,并阻碍数据分析平台的功能,延迟数据处理并降低从数据中提取的信息质量。例如,处理数据记录以输入到数据分析系统中的吞吐量是一个重要的考虑因素。如果数据记录处理缓慢,则数据分析平台的消费数据记录的部分可能需要等待记录,从而导致整个平台中的延迟
技术实现思路
通过用于在数据分析系统中处理数据块的方法、计算机实现的数据分析系统和计算机可读存储器解决了以上和其他问题。该方法的实施例包括在块高速缓存中存储多个顺序的数据块。每个数据块包含一个或多个数据记录。每个数据记录包含一个或多个值以及记录标记,所述记录标记对数据记录的末尾进行标记。该方法还包括将块高速缓存中的数据块分配给工作线程。该方法还包括由所述工作线程解析所述数据块,以识别所述数据块内包含的一个或多个数据记录。该方法还包括确定所述数据块是否 ...
【技术保护点】
1.一种在数据分析系统中处理数据块的计算机实现的方法,包括:/n在块高速缓存中存储多个顺序的数据块,每个数据块包含一个或多个数据记录,每个数据记录包含一个或多个值以及记录标记,所述记录标记对所述数据记录的末尾进行标记;/n将所述块高速缓存中的数据块分配给工作线程;/n由所述工作线程解析所述数据块,以识别所述数据块内包含的所述一个或多个数据记录;/n确定所述数据块是否被正确解析;以及/n响应于确定所述数据块被正确解析,将所述数据块内包含的所述一个或多个数据记录提供给在所述数据分析系统上执行的数据分析工作流。/n
【技术特征摘要】
【国外来华专利技术】20171016 US 15/785,3571.一种在数据分析系统中处理数据块的计算机实现的方法,包括:
在块高速缓存中存储多个顺序的数据块,每个数据块包含一个或多个数据记录,每个数据记录包含一个或多个值以及记录标记,所述记录标记对所述数据记录的末尾进行标记;
将所述块高速缓存中的数据块分配给工作线程;
由所述工作线程解析所述数据块,以识别所述数据块内包含的所述一个或多个数据记录;
确定所述数据块是否被正确解析;以及
响应于确定所述数据块被正确解析,将所述数据块内包含的所述一个或多个数据记录提供给在所述数据分析系统上执行的数据分析工作流。
2.根据权利要求1所述的方法,其中,在所述块高速缓存中存储所述多个顺序数据块包括:
向数据源发出多个输入/输出(I/O)请求,所述多个I/O请求对多个顺序排序的数据块进行请求;
响应于所述多个I/O请求,从所述数据源接收所述多个顺序排序的数据块,其中,所述多个顺序排序的数据块以不同于所述数据块的顺序次序的次序从所述数据源接收;
将所接收的多个顺序排序的数据块存储在所述块高速缓存中。
3.根据权利要求2所述的方法,其中,所述多个顺序排序的数据块被存储在响应于所述数据块的顺序次序而确定的所述块高速缓存中的位置处。
4.根据权利要求1所述的方法,其中,存在多个工作线程,并且将所述块高速缓存中的数据块分配给工作线程包括:
将多个数据块分配给多个工作线程,所述多个工作线程适于同时解析所分配的多个数据块。
5.根据权利要求1所述的方法,其中,由所述工作线程解析所述数据块以识别所述数据块内包含的所述一个或多个数据记录包括:
扫描所述数据块以识别所述数据块内的第一记录标记位置;
解析所述数据块中的位于所述第一记录标记位置之后的数据记录;以及
由所述工作线程解析下一顺序数据块中的在所述下一顺序数据块内的第一记录标记位置之前发生的数据记录。
6.根据权利要求1所述的方法,其中,确定所述数据块是否被正确解析包括:
存储通过所述工作线程解析所述数据块找到的所述数据块的估计的第一记录标记位置;
由另一工作线程确定所述数据块中的真实的第一记录标记位置;
确定所存储的估计的第一记录标记位置是否与所述真实的第一记录标记位置匹配;以及
如果所存储的估计的第一记录标记位置与所述真实的第一记录标记位置匹配,则确定所述数据块被正确解析。
7.根据权利要求1所述的方法,其中,确定所述数据块是否被正确解析包括:
存储所述数据块的估计的第一记录标记位置,其中,所述数据块是响应于所述估计的第一记录标记位置来解析的;
确定所述数据块中的真实的第一记录标记位置;
确定所存储的估计的第一记录标记位置是否与所述真实的第一记录标记位置匹配;
如果所存储的估计的第一记录标记位置与所述真实的第一记录标记位置不匹配,则确定所述数据块被错误地解析;以及
响应于确定所述数据块被错误地解析,使用所述数据块中的所述真实的第一记录标记位置来重新解析所述数据块。
8.一种用于处理数据块的计算机实现的数据分析系统,包括:
计算机处理器,其用于执行计算机程序指令;以及
非暂时性计算机可读存储器,其存储计算机程序指令,所述计算机程序指令能够由所述计算机处理器执行以执行操作,所述操作包括:
在块高速缓存中存储多个顺序的数据块,每个数据块包含一个或多个数据记录,每个数据记录包含一个或多个值以及记录标记,所述记录标记对所述数据记录的末尾进行标记;
将所述块高速缓存中的数据块分配给工作线程;
由所述工作线程解析所述数据块,以识别所述数据块内包含的所述一个或多个数据记录;
确定所述数据块是否被正确解析;以及
响应于确定所述数据块被正确解析,将所述数据块内包含的所述一个或多个数据记录提供给在所述数据分析系统上执行的数据分析工作流。
9.根据权利要求8所述的系统,其中,在所述块高速缓存中存储所述多个顺序数据块包括:
向数据源发出多个输入/输出(I/O)请求,所述多个I/O请求对多个顺序排序的数据块进行请求;
响应于所述多个I/O请求,从所述数据源接收所述多个顺序排序的数据块,其中,所述多个顺序排序的数据块以不同于所述数据块的顺序次序的次序从所述数据源接收;
将所接收的多个顺序排序的数据块存储在所述块高速缓存中。
10.根据权利要求9所述的系统,其中,所述多个顺序排序的数据块被存储在响应于所述数据块的顺序次序而确定的所述块高速缓存中的位置处。
11.根据权利要求8所述的系统,其中,存在多个工作线程,并且将所述块高速缓存中的数据块分配给工作线程包...
【专利技术属性】
技术研发人员:E·P·小哈丁,A·D·赖利,C·H·金斯利,
申请(专利权)人:奥特瑞克斯股份有限公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。