一种海量数据处理方法、装置、介质及电子设备制造方法及图纸

技术编号:31318476 阅读:16 留言:0更新日期:2021-12-12 23:59
本申请实施例公开了一种海量数据处理方法、装置、介质及电子设备。该方法包括:根据预先确定的标签规则对海量数据进行处理,得到标签数据;其中,所述海量数据用于表征数据量较大的数据;所述标签规则用于表征对所述海量数据进行打标的规则;通过归并模型对所述标签数据进行分类处理,得到分类数据,并对所述分类数据进行压缩处理,得到目标数据,以用于对所述目标数据进行对比处理;其中,所述归并模型是根据预先配置的模型文件生成的。本技术方案,能够提高海量数据处理效率高,优化大数据应用分析性能。应用分析性能。应用分析性能。

【技术实现步骤摘要】
一种海量数据处理方法、装置、介质及电子设备


[0001]本申请实施例涉及大数据分析
,尤其涉及一种海量数据处理方法、装置、介质及电子设备。

技术介绍

[0002]随着互联网的发展,各种数据呈爆炸式增长,互联网海量数据其主要特点是价值密度较低,这些数据中随时会出现我们想要的信息,如何高效提取这些信息成为很多人迫切的需求。其中,海量数据可以是指所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的数据。
[0003]目前,往往都会采用大数据技术对海量数据进行分析处理,从而提取有效信息。例如,采用Hadoop+Hive架构,通过Hive SQL实现数据的分析与查询。Hive是基于Hadoop构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop分布式文件系统中的数据。可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能。
[0004]通过Hive SQL实现数据的分析与查询,没有对海量数据进行预先处理,数据量巨大时导致执行时间过长。

技术实现思路

[0005]本申请实施例提供一种海量数据处理方法、装置、介质及电子设备,能够提高海量数据处理效率高,优化大数据应用分析性能。
[0006]第一方面,本申请实施例提供了一种海量数据处理方法,该方法包括:
[0007]根据预先确定的标签规则对海量数据进行处理,得到标签数据;其中,所述海量数据用于表征数据量较大的数据;所述标签规则用于表征对所述海量数据进行打标的规则;
[0008]通过归并模型对所述标签数据进行分类处理,得到分类数据,并对所述分类数据进行压缩处理,得到目标数据,以用于对所述目标数据进行对比处理;其中,所述归并模型是根据预先配置的模型文件生成的。
[0009]第二方面,本申请实施例提供了一种海量数据处理装置,该装置包括:
[0010]标签数据得到模块,用于根据预先确定的标签规则对海量数据进行处理,得到标签数据;其中,所述海量数据用于表征数据量较大的数据;所述标签规则用于表征对所述海量数据进行打标的规则;
[0011]目标数据得到模块,用于通过归并模型对所述标签数据进行分类处理,得到分类数据,并对所述分类数据进行压缩处理,得到目标数据,以用于对所述目标数据进行对比处理;其中,所述归并模型是根据预先配置的模型文件生成的。
[0012]第三方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例所述的海量数据处理方法。
[0013]第四方面,本申请实施例提供了一种电子设备,包括存储器,处理器及存储在存储
器上并可在处理器运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请实施例所述的海量数据处理方法。
[0014]本申请实施例所提供的技术方案,根据预先确定的标签规则对海量数据进行处理,得到标签数据;通过归并模型对标签数据进行分类处理,得到分类数据,并对分类数据进行压缩处理,得到目标数据,以用于对目标数据进行对比处理。本技术方案,能够提高海量数据处理效率高,优化大数据应用分析性能。
附图说明
[0015]图1是本申请实施例一提供的海量数据处理方法的流程图;
[0016]图2是本申请实施例一提供的模型实例调度执行的流程图;
[0017]图3是本申请实施例二提供的海量数据处理过程的示意图;
[0018]图4是本申请实施例二提供的可视化界面的结构示意图;
[0019]图5是本申请实施例三提供的海量数据处理装置的结构示意图;
[0020]图6是本申请实施例五提供的一种电子设备的结构示意图。
具体实施方式
[0021]下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
[0022]在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
[0023]实施例一
[0024]图1是本申请实施例一提供的海量数据处理方法的流程图,本实施例可适用于对海量数据进行对比处理的情况,该方法可以由本申请实施例所提供的海量数据处理装置执行,该装置可以由软件和/或硬件的方式来实现,并可集成于用于数据处理的智能终端等设备中。
[0025]如图1所示,所述海量数据处理方法包括:
[0026]S110、根据预先确定的标签规则对海量数据进行处理,得到标签数据;其中,所述海量数据用于表征数据量较大的数据;所述标签规则用于表征对所述海量数据进行打标的规则;
[0027]其中,海量数据可以是指基于互联网获得的数据量较大的数据。例如,购物网站中用户的购买记录、用户的电话通讯记录或者用户的出行轨迹等。
[0028]在本方案中,标签规则可以是由其他系统发送的用于对数据进行打标的规则。其中,标签规则可以是JSON(JavaScript Object Notation)格式的规则。可以根据标签规则的内容对海量数据进行标签打标,得到标签数据。
[0029]在本技术方案中,可选的,根据预先确定的标签规则对海量数据进行处理,得到标
签数据,包括:
[0030]获取标签规则,并对所述标签规则进行解析,生成标签打标条件;其中,所述标签打标条件包括数据集、打标依据字段、打标逻辑以及打标字段;
[0031]根据所述标签打标条件,按照预设任务调度计划对海量数据进行打标,得到标签数据。
[0032]其中,数据集可以是指海量数据的来源。例如,来源于用户的购物记录、用户的电话通讯记录或者用户的出行轨迹等。
[0033]在本实施例中,打标依据字段可以是指区分不同类别海量数据的字段,用于对海量数据进行分类。每条数据是由多个字段构成的,打标依据字段可以是数据中的一个字段,可以预先确定每条数据中的打标依据字段。
[0034]其中,打标逻辑可以是指具体的打标规则。例如,假设数据集为购物记录,打标依据字段是服饰,打标逻辑可以是大于等于100,即对购买量大于等于100的服饰进行打标。
[0035]在本方案中,打标字段可以是指数据中用于添加标签的字段。可以预先对打标字段进行确定。
[0036]在本实施例中,可以根据任务运行周期、起始时间等运行控制信息生成任务调度计划表,海量数据接入过程中,根据打标任务对海量数据进行打标,得到标签数据,并将标签数据输入到指定位置,并有其他入库程序实现数据入Hive库。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种海量数据处理方法,其特征在于,包括:根据预先确定的标签规则对海量数据进行处理,得到标签数据;其中,所述海量数据用于表征数据量较大的数据;所述标签规则用于表征对所述海量数据进行打标的规则;通过归并模型对所述标签数据进行分类处理,得到分类数据,并对所述分类数据进行压缩处理,得到目标数据,以用于对所述目标数据进行对比处理;其中,所述归并模型是根据预先配置的模型文件生成的。2.根据权利要求1所述的方法,其特征在于,根据预先确定的标签规则对海量数据进行处理,得到标签数据,包括:获取标签规则,并对所述标签规则进行解析,生成标签打标条件;其中,所述标签打标条件包括数据集、打标依据字段、打标逻辑以及打标字段;根据所述标签打标条件,按照预设任务调度计划对海量数据进行打标,得到标签数据。3.根据权利要求2所述的方法,其特征在于,在对所述标签规则进行解析,生成标签打标条件之后,所述方法还包括:对所述标签打标条件进行校验,若校验通过,则根据所述标签打标条件,按照预设任务调度计划对海量数据进行打标。4.根据权利要求1所述的方法,其特征在于,通过归并模型对所述标签数据进行分类处理,得到分类数据,包括:从预先配置的模型目录中获取模型描述文件和模型参数;将所述模型参数添加至所述模型描述文件,生成模型文件;对所述模型文件进行校验,若校验通过,则根据所述模型文件创建归并模型,并根据任务调度计划执行所述归并模型,对所述标签数据进行分类处理,得到分类数据。5.根据权利要求1所述的方法,其特征在于,在对所述分类数据进行压缩处理,得到目标数据之后,所述方法还包括:响应于输入操作,从所述目标数据中提取待处理数据,并响应于信息配置操作,对所述...

【专利技术属性】
技术研发人员:王涛刘立兰王梅
申请(专利权)人:北京锐安科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1