用于处理大数据的方法和装置制造方法及图纸

技术编号：18367427 阅读：22 留言：0更新日期：2018-07-05 08:43

本发明专利技术实施例提供了一种用于处理大数据的方法和装置。该方法包括：获取源数据；根据所述源数据创建大数据模型的第一数据分片，其中，所述第一数据分片包括数据存储位置、存储数据源、数据范围、聚合维度中的至少一项。本发明专利技术实施例的用于处理大数据的方法和装置，能够统一进行批量离线处理和流数据实时处理，降低编码工作量。

Methods and devices for processing large data

The embodiment of the invention provides a method and device for processing large data. The method includes: obtaining source data; creating a first data slice of a large data model based on the source data, in which the first data slice includes at least one of the data storage locations, the storage data source, the data range, and the aggregation dimension. The method and device for processing large data in the embodiment of the invention can carry out batch off-line processing and real-time processing of stream data in a unified manner, thereby reducing coding workload.

全部详细技术资料下载

【技术实现步骤摘要】
用于处理大数据的方法和装置
本专利技术实施例涉及数据处理领域，并且更具体地，涉及用于处理大数据的方法和装置。
技术介绍
大数据是指一般数据库无法处理的海量数据，对于这类海量数据一般包含两种处理方法：批量离线处理、流数据实时处理。其中，批量离线处理是指：数据积累到一定时间，比如一天或一个星期，批量的计算这批数据以获得想要的结果；流数据实时处理是指：每时每刻都在产生新的数据，需要很快速的立即计算出想要的结果。目前，对于批量处理和流数据实时处理采用两套处理机制，无法拉通实现，并且相应的编码工作量也比较大。因此，尚无可以统一进行批量离线处理和流数据实时处理的处理机制。
技术实现思路
本专利技术实施例提供一种用于处理大数据的方法和装置，能够统一进行批量离线处理和流数据实时处理，降低编码工作量。第一方面，提供了一种用于处理大数据的方法，包括：获取源数据；根据所述源数据创建大数据模型的第一数据分片，其中，所述第一数据分片包括数据存储位置、存储数据源、数据范围、聚合维度中的至少一项。在本专利技术实施例中，系统在获取源数据后，可以根据所述源数据创建第一数据分片，以便于后续处理源数据，能够统一进行批量离线处理和流数据实时处理，降低编码工作量。在本专利技术实施例中，第一数据分片还可以包括数据字段或字段类型，或其他存储信息，对此不作限定。可选地，源数据可以是通过系统中的采集模块采集入库的，以便于系统根据采集的源数据创建数据分片。可选地，所述源数据可以是原始数据。可选地，所述第一数据分片可以是比较细小的粒度(或可以理解为大数据模型的最基础的维度或粒度)，后续可以根据该第一数据分片获得更...
用于处理大数据的方法和装置

【技术保护点】
1.一种用于处理大数据的方法，其特征在于，包括：获取源数据；根据所述源数据创建大数据模型的第一数据分片，其中，所述第一数据分片包括数据存储位置、存储数据源、数据范围、聚合维度中的至少一项。

【技术特征摘要】
1.一种用于处理大数据的方法，其特征在于，包括：获取源数据；根据所述源数据创建大数据模型的第一数据分片，其中，所述第一数据分片包括数据存储位置、存储数据源、数据范围、聚合维度中的至少一项。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：持续监听多个所述第一数据分片；在多个所述第一数据分片满足所述大数据模型的第二数据分片的分片条件时，对多个所述第一数据分片进行批量处理。3.根据权利要求2所述的方法，其特征在于，所述对多个所述第一数据分片进行批量处理，包括：汇聚多个所述第一数据分片，得到所述第二数据分片，所述第一数据分片的分片条件与所述第二数据分片的分片条件不同。4.根据权利要求2或3所述的方法，其特征在于，所述方法还包括：配置所述大数据模型的处理策略，所述处理策略包括所述第一数据分片的分片条件和所述第二数据分片的分片条件。5.根据权利要求3或4所述的方法，其特征在于，所述汇聚多个所述第一数据分片，得到所述第二数据分片，包括：基于预定维度或预定粒度，对多个所述第一数据分片进行汇聚，得到所述第二数据分片。6.根据权利要求1至5中任一项所述的方法，其特征在于，所述根据所述源数据创建大数据模型的第一数据分片，包括：在所述源数据满足所述第一数据分片的分片条件时，对所述源数据进行实时处理。7.根据权利要求1至6中任一项所述的方法，其特征在于，所述源数据是离散数据，或基于卡夫卡Kafka消息中的连续数据。8.根据权利要求2至7中任一项所述的方法，其特征在于，所述分片条件是基于结构化查询语言SQL的分片表达式。9.一种用于处理...

【专利技术属性】
技术研发人员：李嘉陵，
申请(专利权)人：华为技术服务有限公司，
类型：发明
国别省市：河北,13

全部详细技术资料下载我是这个专利的主人