数据处理方法、装置、设备和存储介质制造方法及图纸

技术编号：20763945 阅读：27 留言：0更新日期：2019-04-03 14:19

本发明专利技术实施例公开了一种数据处理方法、装置、设备和存储介质，该方法包括：实时获取至少一个数据源的数据，数据中包括数据类型；根据数据的存储形式和数据类型，对数据进行格式转换；根据数据类型，对格式转换后的数据进行清洗。本发明专利技术实施例提高了实时性，保证数据的吞吐量、完整性的基础上实现了数据的清洗。

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法、装置、设备和存储介质
本专利技术实施例涉及数据处理
，尤其涉及一种数据处理方法、装置、设备和存储介质。
技术介绍
对于专业分析数据的企业来说，每天都会接收到大量的数据。这些数据来源可能多种多样，不同的数据来源可能会映射到企业相同或不同的表中。这些数据要想被使用，必须先进行数据清洗工作。数据清洗的目的是经过一系列清洗过程把来源数据存放到目的表中，并保证数据尽可能的干净,有用。大部分数据清洗是按照固定的时间间隔进行数据的清洗，这样方式会导致数据不具备实时性或实时性差(如果时间间隔很小)。在很多业务场景中，需要对数据更加精准和更加快速的进行分析、预警，这就对数据清洗的实时性要求更高。
技术实现思路
本专利技术实施例提供一种数据处理方法、装置、设备和存储介质，可以解决现有技术中实时性差的技术问题。第一方面，本专利技术实施例提供了一种数据处理方法，包括：实时获取至少一个数据源的数据，所述数据中包括数据类型；根据所述数据的存储形式和所述数据类型，对所述数据进行格式转换；根据所述数据类型，对格式转换后的数据进行清洗。第二方面，本专利技术实施例还提供了一种数据处理装置，该装置包括：获取模块，用于实时获取至少一个数据源的数据，所述数据中包括数据类型；转换模块，用于根据所述数据的存储形式和所述数据类型，对所述数据进行格式转换；清洗模块，用于根据所述数据类型，对格式转换后的数据进行清洗。第三方面，本专利技术实施例还提供了一种设备，所述设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处...

【技术保护点】
1.一种数据处理方法，其特征在于，包括：实时获取至少一个数据源的数据，所述数据中包括数据类型；根据所述数据的存储形式和所述数据类型，对所述数据进行格式转换；根据所述数据类型，对格式转换后的数据进行清洗。

【技术特征摘要】
1.一种数据处理方法，其特征在于，包括：实时获取至少一个数据源的数据，所述数据中包括数据类型；根据所述数据的存储形式和所述数据类型，对所述数据进行格式转换；根据所述数据类型，对格式转换后的数据进行清洗。2.根据权利要求1所述的方法，其特征在于，所述对格式转换后的数据进行清洗，包括：对所述格式转换后的数据进行全局去重以及根据预设字段进行过滤，得到清洗数据。3.根据权利要求2所述的方法，其特征在于，对所述格式转换后的数据进行全局去重，包括：基于基数估算方法或者布隆过滤算法计算所述格式转换后的数据的重复率；根据所述重复率以及预设去重要求对所述格式转换后的数据进行全局去重。4.根据权利要求2所述的方法，其特征在于，对所述格式转换后的数据进行全局去重以及根据预设字段进行过滤，得到清洗数据之后，还包括：提取所述清洗数据中两条或两条以上关联的数据的各关键字段；间隔预设时间间隔将各所述关键字段互相回填入所述两条或两条以上关联的数据。5.根据权利要求2所述的方法，其特征在于，对所述格式转换后的数据进行全局去重以及根据预设字段进行过滤，得到清洗数...

【专利技术属性】
技术研发人员：张志远，万月亮，李佳昌，
申请(专利权)人：北京锐安科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人