一种数据处理的方法、装置、设备及存储介质制造方法及图纸

技术编号:26730527 阅读:28 留言:0更新日期:2020-12-15 14:31
本发明专利技术公开了一种数据处理的方法、装置、设备及存储介质。一种数据处理方法,包括:接收实时流数据;根据数据去重规则对所述实时流数据进行去重处理,得到去重数据;根据正确性检测规则对所述去重数据进行正确性检测,得到有效数据,并将所述有效数据进行存储。实现了降低数据的存储压力以及保证了数据有效性。

【技术实现步骤摘要】
一种数据处理的方法、装置、设备及存储介质
本专利技术实施例涉及数据处理技术,尤其涉及一种数据处理的方法、装置、设备及存储介质。
技术介绍
随着互联网技术的快速发展,互联网中的数据量呈现爆发式指数级别增长模式,数据的处理和存储面临着巨大的考验。互联网时代,存储海量数据需要占用大量的存储空间,然而被占用的存储空间存在着空间无意义占用的现象,同时从海量数据中查找有效数据变得越来越困难,目前的处理方法是通过人工方式对数据进行处理。面对互联网中海量数据,采用人工方式对数据进行过滤以获取有效的数据,需要花费大量时间,处理后的数据中往往混有一些无效的数据。
技术实现思路
本专利技术提供一种数据处理的方法、装置、设备及存储介质,以实现海量数据处理,完成有效数据的提取操作。第一方面,本专利技术实施例提供了一种数据处理方法,包括:接收实时流数据;根据数据去重规则对所述实时流数据进行去重处理,得到去重数据;根据正确性检测规则对所述去重数据进行正确性检测,得到有效数据,并将所述有效数据进行存储。第二方面,本专利技术实施例还提供了一种数据处理装置,该装置包括:数据采集模块,用于接收实时流数据;数据去重模块,用于根据数据去重规则对所述实时流数据进行去重处理,得到去重数据;正确性验证模块,用于根据正确性检测规则对所述去重数据进行正确性检测,得到有效数据;数据存储模块,用于将所述有效数据进行存储。第三方面,本专利技术实施例还提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术任意实施例所提供的数据处理方法。第四方面,本专利技术实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行如本专利技术任意实施例所提供的数据处理方法。本专利技术通过检验数据重复性和数据属性正确性的方法,解决数据重复和数据中存在无效数据的问题,实现数据清洗,到达保证数据有效性的效果。附图说明图1是本专利技术实施例一中的一种数据处理方法的流程图;图2是本专利技术实施例二中的一种数据处理方法的流程图;图3是本专利技术实施例三中的一种数据处理装置的功能模块示意图;图4是本专利技术实施例四提供的一种电子设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1为本专利技术实施例一提供的一种数据处理方法的流程图,本实施例可适用于在海量数据中获取有效数据的情况,该方法可以由数据处理装置来执行,数据处理装置可通过软件和/或硬件方式实现,该数据处理装置可集成于诸如计算机或者服务器等的电子设备中,具体包括如下步骤:S110、接收实时流数据。其中,流是由一系列不可变相似类型的消息组成,例如,一个流可以是网站所有的点击事件,可以是一个特定数据库的所有更新操作,可以是一个服务产生的所有日志,也可以是其他类型的时间数据。流数据是一组顺序、大量、快速、连续到达的数据序列,一般情况下,流数据可以被视为一个随时间延续而无限增长的动态数据集合。实时流数据表示流数据具有时间属性,从时间戳角度可知,实时流数据可以是数据产生于某一时刻,那么这一时刻的取值可以是数据源产生的数据的时间,也可以是数据流入处理引擎所产生的流数据处理系统的时间。接收实时流数据可以是通过高吞吐、低延迟的Kafka流处理平台接收互联网中的所有动作流数据,这种动作可以是网页浏览、搜索和其他用户的行动等。在上述技术方案的基础上,接收实时流数据可以是基于Flink流式框架接收所述实时流数据。这样设置的好处在于基于Flink流式框架高性能、处理数据速度快,还具有容错性,其容错机制会降低流处理框架的性能和吞吐量。S120、根据数据去重规则对所述实时流数据进行去重处理,得到去重数据。其中,数据去重规则可以采用人工的方式配置,将接收到的实时流数据通过配置数据去重规则进行数据去重操作。在一些实施例中,去重操作可以是将流数据中的各个数据分别进行比对,确定数据重复的至少两个数据,保留其中一个数据,删除其他重复数据,得到去重数据。可选的,可以是将任意两个数据中的数据内容进行逐一匹配,确定数据内容完全相同的两个数据为重复数据。可选的,去重操作还可以是通过对任意两个数据按照数据类型对数据内容进行比对,将具有相同类型的数据进行数据属性比对,选取任一具有相同数据类型且其数据属性一致的实时流数据作为重复数据。通过对接收的流数据进行去重处理,去除流数据中的重复数据,减少重复数据对存储资源的占用。S130、根据正确性检测规则对所述去重数据进行正确性检测,得到有效数据,并将所述有效数据进行存储。其中,正确性检测规则可以是预先配置的,例如可以是将正确性检测代码输入至正确性检测规则模板形成的,正确性检测规则可以是数据属性正确性检测规则,不同的数据属性对应不同的检测规则,通过配置不同数据属性值相对应的数据检测规则,将获取到的去重数据相对应数据属性值进行正确性检测,选取任一符合正确性检测的去重数据作为有效数据。可选的,各数据属性的正确性检测规则可以是分别独立存储的,例如可以存储在正确性检测规则数据库中,根据流数据中包括的数据属性调用对应的正确性检测规则。当正确性检测规则数据库不存在与当前流数据的数据属性对应的正确性检测规则时,生成提示信息,以提示配置新的正确性检测规则。通过对去重数据进行正确性验证,删除数据错误的无效数据,避免无效数据对存储空间的占用。可选的,基于无效数据生成提示信息,将所述提示信息进行显示或者发送至关联终端,以使关联终端或者操作用户对无效数据进行修正。可选的,数据去重规则和/或正确性检测规则可以为XML文件格式。配置规则采用XML文件格式,这样设置的好处在于XML是以文本形式来描述的一件文件格式,具有良好的可读性以及面向对象。该数据处理方法的工作原理:通过接受实时流数据,配置数据去重规则对流数据进行初步去重操作对流数据过滤获得去重数据,再次通过配置正确性检测规则对去重数据进行数据正确性性检测,在去重数据的基础上对数据进行再一次的无效数据过滤,得到有效数据,将有效数据进行数据存储,可以存储到本地数据库以及云端等。本实施例的技术方案,将接收到的实时流数据通过数据去重的方法和数据正确性检测的方法对数据进行两次连续处理,以去除流数据中的重复数据以及错误数据,避免了无效数据对存储空间的占用,解决了数据存储压力大和无效数据的问题,达到了减轻数据存储的压力和提高数据有效性的问题的效果。实施例二图2是本专利技术实施例二中的一种数据处理方法的流程图,在上述实施例的基础上进行了细化,获取有效数据的本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,包括:/n接收实时流数据;/n根据数据去重规则对所述实时流数据进行去重处理,得到去重数据;/n根据正确性检测规则对所述去重数据进行正确性检测,得到有效数据,并将所述有效数据进行存储。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
接收实时流数据;
根据数据去重规则对所述实时流数据进行去重处理,得到去重数据;
根据正确性检测规则对所述去重数据进行正确性检测,得到有效数据,并将所述有效数据进行存储。


2.根据权利要求1所述的方法,其特征在于,所述实时流数据包括数据类型标识和至少一个数据属性。


3.根据权利要求2所述的方法,其特征在于,所述根据数据去重规则对所述实时流数据进行去重处理,得到去重数据,包括:
分别将任意两数据的各个数据属性进行比对,当所述任意两数据中各数据属性均相同时,确定所述任意两数据为重复数据,对所述重复数据进行去重处理;
当所述任意两数据中至少一个数据属性不相同时,确定所述任意两数据不是重复数据,保留所述任意两数据。


4.根据权利要求2所述的方法,其特征在于,所述根据数据去重规则对所述实时流数据进行去重处理,得到去重数据,包括:
确定各数据的去重关键属性;
分别将任意两数据的各个数据属性进行比对,当所述任意两数据中各去重关键属性均相同时,确定所述任意两数据为重复数据,对所述重复数据进行去重处理。


5.根据权利要求2所述的方法,其特征在于,根据正确性检测规则对所述去重数据进行正确性检测,得到有效数据,包括:...

【专利技术属性】
技术研发人员:周志刚万月亮火一莽
申请(专利权)人:北京锐安科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1