用于处理大数据的方法和装置制造方法及图纸

技术编号:18367427 阅读:22 留言:0更新日期:2018-07-05 08:43
本发明专利技术实施例提供了一种用于处理大数据的方法和装置。该方法包括:获取源数据;根据所述源数据创建大数据模型的第一数据分片,其中,所述第一数据分片包括数据存储位置、存储数据源、数据范围、聚合维度中的至少一项。本发明专利技术实施例的用于处理大数据的方法和装置,能够统一进行批量离线处理和流数据实时处理,降低编码工作量。

Methods and devices for processing large data

The embodiment of the invention provides a method and device for processing large data. The method includes: obtaining source data; creating a first data slice of a large data model based on the source data, in which the first data slice includes at least one of the data storage locations, the storage data source, the data range, and the aggregation dimension. The method and device for processing large data in the embodiment of the invention can carry out batch off-line processing and real-time processing of stream data in a unified manner, thereby reducing coding workload.

【技术实现步骤摘要】
用于处理大数据的方法和装置
本专利技术实施例涉及数据处理领域,并且更具体地,涉及用于处理大数据的方法和装置。
技术介绍
大数据是指一般数据库无法处理的海量数据,对于这类海量数据一般包含两种处理方法:批量离线处理、流数据实时处理。其中,批量离线处理是指:数据积累到一定时间,比如一天或一个星期,批量的计算这批数据以获得想要的结果;流数据实时处理是指:每时每刻都在产生新的数据,需要很快速的立即计算出想要的结果。目前,对于批量处理和流数据实时处理采用两套处理机制,无法拉通实现,并且相应的编码工作量也比较大。因此,尚无可以统一进行批量离线处理和流数据实时处理的处理机制。
技术实现思路
本专利技术实施例提供一种用于处理大数据的方法和装置,能够统一进行批量离线处理和流数据实时处理,降低编码工作量。第一方面,提供了一种用于处理大数据的方法,包括:获取源数据;根据所述源数据创建大数据模型的第一数据分片,其中,所述第一数据分片包括数据存储位置、存储数据源、数据范围、聚合维度中的至少一项。在本专利技术实施例中,系统在获取源数据后,可以根据所述源数据创建第一数据分片,以便于后续处理源数据,能够统一进行批量离线处理和流数据实时处理,降低编码工作量。在本专利技术实施例中,第一数据分片还可以包括数据字段或字段类型,或其他存储信息,对此不作限定。可选地,源数据可以是通过系统中的采集模块采集入库的,以便于系统根据采集的源数据创建数据分片。可选地,所述源数据可以是原始数据。可选地,所述第一数据分片可以是比较细小的粒度(或可以理解为大数据模型的最基础的维度或粒度),后续可以根据该第一数据分片获得更大维度或粒度的数据分片,以便于减少需要查询或处理的数据量(原因在于维度或粒度越大,相应地数据量会减少)。可选地,所述大数据模型包括至少一个数据分片。其中,所述第一数据分片可以用于描述数据的存储信息,包括数据的存储地点、存储内容等。可选地,比如,所述数据的存储信息包括数据存储位置、存储数据源、数据范围、聚合维度中的至少一项。可选地,所述大数据模型可以用于描述字段内容、存储结构等。在一些可能的实现方式中,所述方法还包括:持续监听多个所述第一数据分片;在多个所述第一数据分片满足所述大数据模型的第二数据分片的分片条件时,对多个所述第一数据分片进行批量处理。这里,系统可以对多个所述第一数据分片进行持续监听。如果多个所述第一数据分片满足第二数据分片的分片条件,则系统可以启动批量处理程序,对多个所述第一数据分片进行批量处理。这里,具体可以在Spark系统中进行批量处理。在一些可能的实现方式中,对多个所述第一数据分片进行批量处理,包括:汇聚多个所述第一数据分片,得到所述第二数据分片,其中,所述第二数据分片是所述大数据模型的数据分片,所述第一数据分片的分片条件与所述第二数据分片的分片条件不同。应理解,所述大数据模型可以包括至少一个数据分片,上面只是以第一数据分片和第二数据分片为例进行说明,比如,系统可以继续对多个第二数据分片进行处理,得到第三数据分片等,本专利技术对此不作限定。在一些可能的实现方式中,所述方法还可以包括:配置所述大数据模型的处理策略,所述处理策略包括所述第一数据分片的分片条件和所述第二数据分片的分片条件。系统可以预先配置好所述大数据模型的处理策略(具体形式可以是:处理语句或处理程序),所述处理策略包括所述第一数据分片对应的分片条件和所述第二数据分片对应的分片条件。这里,系统可以为大数据模型配置相应的处理逻辑,比如,采用类SQL的语法描述批量处理、实时数据处理的处理逻辑。这样,由于系统预先配置好了相关的处理语句或处理逻辑,使得开发人员不需要学习大量的Spark技术和Storm技术,只需要简单编写SQL即可,大大减少了学习成本,降低了技术门槛。在一些可能的实现方式中,所述汇聚多个所述第一数据分片,得到所述第二数据分片,包括:基于预定粒度或预定维度,对多个所述第一数据分片进行汇聚,得到所述第二数据分片。可选地,所述预定粒度可以是时间粒度或其他粒度,对此不作限定。在一些可能的实现方式中,根据所述源数据创建大数据模型的第一数据分片,还包括:在所述源数据满足所述第一数据分片的分片条件时,对所述源数据进行实时处理。在一些可能的实现方式中,所述源数据是离散数据,或基于卡夫卡Kafka消息中的连续数据。可选地,源数据的类型可以在分片表达式中体现。在一些可能的实现方式中,所述分片条件是基于结构化查询语言SQL的分片表达式。这里,大数据模型的数据分片的分片条件,比如第一数据分片的分片条件或第二数据分片的分片条件,都可以是基于SQL的分片表达式。第二方面,提供了一种用于处理大数据的装置,用于执行上述第一方面或第一方面的任意可能的实现方式的方法。具体地,该装置包括用于执行第一方面或第一方面的任意可能的实现方式中的方法的模块或单元。第三方面,提供了一种用于处理大数据的装置。该用于处理大数据的装置包括处理器、存储器和通信接口。处理器与存储器和通信接口连接。存储器用于存储指令,处理器用于执行该指令,通信接口用于在处理器的控制下与其他网元进行通信。该处理器读取该存储器存储的指令,执行上述第一方面或第一方面的任意可能的实现方式提供的方法。第四方面,提供了一种计算机可读介质,用于存储计算机程序,该计算机程序包括用于执行上述第一方面或第一方面的任意可能的实现方式中的方法对应的指令。附图说明图1是根据本专利技术实施例的一个应用场景图。图2是根据本专利技术实施例的用于处理大数据的方法的示意性流程图。图3是根据本专利技术实施例的一个例子的示意图。图4是根据本专利技术实施例的网络性能数据的网元汇聚的例子的示意图。图5是根据本专利技术实施例的用于处理大数据的装置的示意性框图。图6是根据本专利技术又一实施例的用于处理大数据的装置的结构图。具体实施方式下面将结合附图,对本专利技术实施例中的技术方案进行描述。本专利技术的技术方案,可以应用于各种计算系统中,例如,Storm系统、Spark系统等。本专利技术实施例仅以Storm系统、Spark系统为例进行描述,而不应对本专利技术实施例构成任何限制,换言之,本专利技术实施例也同样适用于其他的计算系统中。其中,Storm系统是一套分布式的、容错的实时计算系统,可以用来处理流数据。Spark系统是基于内存计算的开源集群计算系统,目的是更快速的进行数据分析。另外,Storm系统和Spark系统均提供了应用程序编程接口(ApplicationProgrammingInterface,API)。本专利技术的技术方案,可用于用于处理大数据。大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。比如,网络性能管理中的大数据、经营分析场景中的销售数据等。目前,对于大数据的处理可以包括批量离线处理和流数据实时处理。其中,批量离线处理可以在Spark系统中运用(StructuredQueryLanguage,SQL)语句处理数据;流数据实时处理可以在Storm系统中实时处理。但是这样需要非常熟悉Spark技术和Storm技术才能开发相应的大数据处理程序,编码工作量较大。并且,Spark系统对应的处理机制和Stor本文档来自技高网...
用于处理大数据的方法和装置

【技术保护点】
1.一种用于处理大数据的方法,其特征在于,包括:获取源数据;根据所述源数据创建大数据模型的第一数据分片,其中,所述第一数据分片包括数据存储位置、存储数据源、数据范围、聚合维度中的至少一项。

【技术特征摘要】
1.一种用于处理大数据的方法,其特征在于,包括:获取源数据;根据所述源数据创建大数据模型的第一数据分片,其中,所述第一数据分片包括数据存储位置、存储数据源、数据范围、聚合维度中的至少一项。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:持续监听多个所述第一数据分片;在多个所述第一数据分片满足所述大数据模型的第二数据分片的分片条件时,对多个所述第一数据分片进行批量处理。3.根据权利要求2所述的方法,其特征在于,所述对多个所述第一数据分片进行批量处理,包括:汇聚多个所述第一数据分片,得到所述第二数据分片,所述第一数据分片的分片条件与所述第二数据分片的分片条件不同。4.根据权利要求2或3所述的方法,其特征在于,所述方法还包括:配置所述大数据模型的处理策略,所述处理策略包括所述第一数据分片的分片条件和所述第二数据分片的分片条件。5.根据权利要求3或4所述的方法,其特征在于,所述汇聚多个所述第一数据分片,得到所述第二数据分片,包括:基于预定维度或预定粒度,对多个所述第一数据分片进行汇聚,得到所述第二数据分片。6.根据权利要求1至5中任一项所述的方法,其特征在于,所述根据所述源数据创建大数据模型的第一数据分片,包括:在所述源数据满足所述第一数据分片的分片条件时,对所述源数据进行实时处理。7.根据权利要求1至6中任一项所述的方法,其特征在于,所述源数据是离散数据,或基于卡夫卡Kafka消息中的连续数据。8.根据权利要求2至7中任一项所述的方法,其特征在于,所述分片条件是基于结构化查询语言SQL的分片表达式。9.一种用于处理...

【专利技术属性】
技术研发人员:李嘉陵
申请(专利权)人:华为技术服务有限公司
类型:发明
国别省市:河北,13

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1