一种海量数据处理方法、装置、介质及电子设备制造方法及图纸

技术编号：31318476 阅读：16 留言：0更新日期：2021-12-12 23:59

本申请实施例公开了一种海量数据处理方法、装置、介质及电子设备。该方法包括：根据预先确定的标签规则对海量数据进行处理，得到标签数据；其中，所述海量数据用于表征数据量较大的数据；所述标签规则用于表征对所述海量数据进行打标的规则；通过归并模型对所述标签数据进行分类处理，得到分类数据，并对所述分类数据进行压缩处理，得到目标数据，以用于对所述目标数据进行对比处理；其中，所述归并模型是根据预先配置的模型文件生成的。本技术方案，能够提高海量数据处理效率高，优化大数据应用分析性能。应用分析性能。应用分析性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种海量数据处理方法、装置、介质及电子设备

[0001]本申请实施例涉及大数据分析
，尤其涉及一种海量数据处理方法、装置、介质及电子设备。

技术介绍

[0002]随着互联网的发展，各种数据呈爆炸式增长，互联网海量数据其主要特点是价值密度较低，这些数据中随时会出现我们想要的信息，如何高效提取这些信息成为很多人迫切的需求。其中，海量数据可以是指所涉及的数据量规模巨大到无法通过人工，在合理时间内达到截取、管理、处理、并整理成为人类所能解读的数据。
[0003]目前，往往都会采用大数据技术对海量数据进行分析处理，从而提取有效信息。例如，采用Hadoop+Hive架构，通过Hive SQL实现数据的分析与查询。Hive是基于Hadoop构建的一套数据仓库分析系统，它提供了丰富的SQL查询方式来分析存储在Hadoop分布式文件系统中的数据。可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能。
[0004]通过Hive SQL实现数据的分析与查询，没有对海量数据进行预先处理，数据量巨大时导致执行时间过长。

技术实现思路

[0005]本申请实施例提供一种海量数据处理方法、装置、介质及电子设备，能够提高海量数据处理效率高，优化大数据应用分析性能。
[0006]第一方面，本申请实施例提供了一种海量数据处理方法，该方法包括：
[0007]根据预先确定的标签规则对海量数据进行处理，得到标签数据；其中，所述海量数据用于表征数据量较大的数据；所述标签规则用于表征对所述海量数...

【技术保护点】

【技术特征摘要】
1.一种海量数据处理方法，其特征在于，包括：根据预先确定的标签规则对海量数据进行处理，得到标签数据；其中，所述海量数据用于表征数据量较大的数据；所述标签规则用于表征对所述海量数据进行打标的规则；通过归并模型对所述标签数据进行分类处理，得到分类数据，并对所述分类数据进行压缩处理，得到目标数据，以用于对所述目标数据进行对比处理；其中，所述归并模型是根据预先配置的模型文件生成的。2.根据权利要求1所述的方法，其特征在于，根据预先确定的标签规则对海量数据进行处理，得到标签数据，包括：获取标签规则，并对所述标签规则进行解析，生成标签打标条件；其中，所述标签打标条件包括数据集、打标依据字段、打标逻辑以及打标字段；根据所述标签打标条件，按照预设任务调度计划对海量数据进行打标，得到标签数据。3.根据权利要求2所述的方法，其特征在于，在对所述标签规则进行解析，生成标签打标条件之后，所述方法还包括：对所述标签打标条件进行校验，若校验通过，则根据所述标签打标条件，按照预设任务调度计划对海量数据进行打标。4.根据权利要求1所述的方法，其特征在于，通过归并模型对所述标签数据进行分类处理，得到分类数据，包括：从预先配置的模型目录中获取模型描述文件和模型参数；将所述模型参数添加至所述模型描述文件，生成模型文件；对所述模型文件进行校验，若校验通过，则根据所述模型文件创建归并模型，并根据任务调度计划执行所述归并模型，对所述标签数据进行分类处理，得到分类数据。5.根据权利要求1所述的方法，其特征在于，在对所述分类数据进行压缩处理，得到目标数据之后，所述方法还包括：响应于输入操作，从所述目标数据中提取待处理数据，并响应于信息配置操作，对所述...

【专利技术属性】
技术研发人员：王涛，刘立兰，王梅，
申请(专利权)人：北京锐安科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人