一种基于大数据的数据信息一致性处理方法、系统及装置制造方法及图纸

技术编号:16334840 阅读:25 留言:0更新日期:2017-10-03 15:08
本发明专利技术提供了本发明专利技术提供一种基于大数据的数据信息一致性处理方法、系统及装置,该方法通过获取至少一个待处理的数据表的业务主键;将所述业务主键转换为统一的标准格式,生成验证码;采用海明距离算法,确定所述验证码数据相似性;采用抽屉原理算法,顺序生成所述验证码数据的标识码;将排在首位的标识码与每个后续的标识码进行比对,后续的标识码与排在首位的标识码相同时,将后续的标识码的区分码记为第二区分码;删除所述标识码中的区分码为第二区分码的数据。本发明专利技术在对多行或者多列且数据规模在亿级以上的数据进行处理时,节省了大量的处理时间,提高了数据处理的效率。

Data information consistency processing method, system and device based on big data

The invention provides a big data consistency processing method, system and device based on this method, by acquiring at least one pending data table to primary key; the service key conversion for the unified standard format, generated verification code; Hamming distance is adopted to determine the algorithm. Verification code data similarity; the principle of drawer sequence generation algorithm, the verification code identification data; will be ranked in the first identification code identification code with each subsequent comparison, subsequent identification code and identification code in the first row of the same, will further distinguish identification codes recorded as second distinguished code; delete the identification code in the code for second yards to distinguish between data. The invention saves a large amount of processing time and improves the efficiency of data processing when processing data of multiple rows or more columns and data sizes of more than one hundred million or more.

【技术实现步骤摘要】

本专利技术涉及大数据
,尤其涉及一种基于大数据的数据信息一致性处理方法、系统及装置
技术介绍
随着互联网、移动互联网的发展,数据的不断剧增形成大数据时代的显著特征。企业对于大数据的重视度也在不断加强,无论是从数据的存储、计算和运用角度,都投入较多的人力和物力进行尝试探索。大数据的生产和使用的重要前提之一是数据的清洗。数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为\脏数据\。我们要按照一定的规则把\脏数据\″洗掉\,这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。不符合要求的数据主要是有不完整的数据和重复的数据。目前,我国已经形成了基本的数据清洗技术格局,但因各自利益的追求,导致仍存在不少问题。到目前为止,数据清洗的规范和标准还没有一个比较权威的版本。目前常用的数据清洗的方法是,通过对浏览器网页以及客户端APP使用埋点技术进行数据采集,采集平台的访问、触发、提交等数据,进行结构化的存储,形成用户标识与行为和属性之间的关联关系,构建成用户行为基础信息库。来自各个系统之间的数据,通过数据同步方式加载到基础信息库中。在数据清洗过程中,对来自各个数据源的数据进行数据一致性检验,需要针对各个表中的多个字段组合来判断数据的唯一性,过程处理复杂,执行时间过长。因此,急需一种新的数据一致性处理方式,以减少执行时间,提供处理效率,来保障数据的及时性、准确性,从而为后续服务质量提供及时有力的保障。
技术实现思路
本专利技术的主要目的在于提供一种基于大数据的数据信息一致性处理方法、系统及装置,提供了一套通用的互联网大数据数据一致性处理方法的应用模式,实现各类数据的一致性问题,提升数据处理效率,从而更快速的实现数据的准确性。本专利技术一方面提供了一种基于大数据的数据信息一致性处理方法,包括:获取至少一个待处理的数据表的业务主键;将所述业务主键转换为统一的标准格式,生成验证码;采用海明距离算法,确定所述验证码数据相似性;采用抽屉原理算法,顺序生成所述验证码数据的标识码;将排在首位的标识码与每个后续的标识码进行比对,后续的标识码与排在首位的标识码相同时,将后续的标识码的区分码记为第二区分码;删除所述标识码中的区分码为第二区分码的数据。进一步的,所述业务主键,包括但不限于:代表数据唯一性的字段,或者代表数据唯一性的多个字段的组合。进一步的,所述将所述业务主键转换为统一的标准格式,生成验证码,包括:根据SimHash算法原理,结合MD5算法原理中分组数据处理方式,将所述业务主键精简优化为统一的标准格式,通过最优验证码格式得到指纹数据,生成最优验证码格式,比较数据的一致性。进一步的,所述根据SimHash算法原理,结合MD5算法原理中分组数据处理方式,将所述业务主键精简优化为统一的标准格式,生成最优验证码格式,包括:将所述业务主键进行分词,得到n维的分词向量,并给定每组分词向量的权重;其中,n≥1;计算每组分词向量的哈希值;计算每组哈希值的向量加权值;将每组向量加权值合并,向量累加,精简优化为统一的标准格式,并降维得指纹数据,生成最优验证码格式。进一步的,所述采用海明距离算法,确定验证码的数据相似性,包括:计算待验证的验证码数据中的码字与数据库中的基准码字的海明距离,根据计算的海明距离确定验证码的数据相似性。进一步的,所述采用抽屉原理算法,顺序生成所述验证码数据的标识码,包括:将验证码数据均匀分布,得到随机组合量;基于抽屉原理算法,计算随机组合量与原数据的比值,计算倒排返回的验证码数据中的最大数量的候选结果,通过截断索引计算候选结果的比对结果,标记为标识码。本专利技术另一方面还提供了一种基于大数据的数据信息一致性处理系统,包括:获取模块,用于获取至少一个待处理的数据表的业务主键;转换模块,用于将所述业务主键转换为统一的标准格式,生成验证码;确定模块,用于采用海明距离算法,确定所述验证码数据相似性;生成模块,用于采用抽屉原理算法,顺序生成所述验证码数据的标识码;对比模块,用于将排在首位的标识码与每个后续的标识码进行比对,后续的标识码与排在首位的标识码相同时,将后续的标识码的区分码记为第二区分码;删除模块,用于删除所述标识码中的区分码为第二区分码的数据。进一步的,所述业务主键,包括但不限于:代表数据唯一性的字段,或者代表数据唯一性的多个字段的组合。进一步的,所述转换模块,包括:转换单元,用于根据SimHash算法原理,结合MD5算法原理中分组数据处理方式,将所述业务主键精简优化为统一的标准格式,通过最优验证码格式得到指纹数据,生成最优验证码格式,比较数据的一致性。进一步的,所述转换单元,包括:分词单元,用于将所述业务主键进行分词,得到n维的分词向量,并给定每组分词向量的权重;其中,n≥1;第一计算单元,用于计算每组分词向量的哈希值;第二计算单元,用于计算每组哈希值的向量加权值;优化单元,用于将每组向量加权值合并,向量累加,精简优化为统一的标准格式,并降维得指纹数据,生成最优验证码格式。进一步的,所述确定模块,包括:确定单元,用于计算待验证的验证码数据中的码字与数据库中的基准码字的海明距离,根据计算的海明距离确定验证码的数据相似性。进一步的,所述生成模块,包括:生成单元,用于将验证码数据均匀分布,得到随机组合量;基于抽屉原理算法,计算随机组合量与原数据的比值,计算倒排返回的验证码数据中的最大数量的候选结果,通过截断索引计算候选结果的比对结果,标记为标识码。本专利技术另一方面还提供了一种基于大数据的数据信息一致性处理装置,包括前述任一项所述的系统。本专利技术提供一种基于大数据的数据信息一致性处理方法、系统及装置,该专利技术通过获取至少一个待处理的数据表的业务主键;将所述业务主键转换为统一的标准格式,生成验证码;采用海明距离算法,确定所述验证码数据相似性;采用抽屉原理算法,顺序生成所述验证码数据的标识码;将排在首位的标识码与每个后续的标识码进行比对,后续的标识码与排在首位的标识码相同时,将后续的标识码的区分码记为第二区分码;删除所述标识码中的区分码为第二区分码的数据。通过本专利技术提供的一种基于大数据的数据信息一致性处理方法、系统及装置,提供了一套通用的互联网大数据数据一致性处理方法的应用模式,在对多行或者多列且数据规模在亿级以上的数据进行处理时,该检查方法配置简单、使用方便、可操作性强,并且能够实现多行或多列的同时数据唯一性处理,节省了大量的处理时间,提高了数据处理的效率。附图说明图1为根据本专利技术的一种基于大数据的数据信息一致性处理方法的实施例一的流程图;图2为根据本专利技术的一种基于大数据的数据信息一致性处理系统的实施例二的结构框图;图3为根据本专利技术的一种基于大数据的数据信息一致性处理装置的实施例三的结构框图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的本文档来自技高网
...
一种基于大数据的数据信息一致性处理方法、系统及装置

【技术保护点】
一种基于大数据的数据信息一致性处理方法,其特征在于,包括:获取至少一个待处理的数据表的业务主键;将所述业务主键转换为统一的标准格式,生成验证码;采用海明距离算法,确定所述验证码数据相似性;采用抽屉原理算法,顺序生成所述验证码数据的标识码;将排在首位的标识码与每个后续的标识码进行比对,后续的标识码与排在首位的标识码相同时,将后续的标识码的区分码记为第二区分码;删除所述标识码中的区分码为第二区分码的数据。

【技术特征摘要】
1.一种基于大数据的数据信息一致性处理方法,其特征在于,包括:获取至少一个待处理的数据表的业务主键;将所述业务主键转换为统一的标准格式,生成验证码;采用海明距离算法,确定所述验证码数据相似性;采用抽屉原理算法,顺序生成所述验证码数据的标识码;将排在首位的标识码与每个后续的标识码进行比对,后续的标识码与排在首位的标识码相同时,将后续的标识码的区分码记为第二区分码;删除所述标识码中的区分码为第二区分码的数据。2.如权利要求1所述的方法,其特征在于,所述业务主键,包括但不限于:代表数据唯一性的字段,或者代表数据唯一性的多个字段的组合。3.如权利要求1或2所述的方法,其特征在于,所述将所述业务主键转换为统一的标准格式,生成验证码,包括:根据SimHash算法原理,结合MD5算法原理中分组数据处理方式,将所述业务主键精简优化为统一的标准格式,通过最优验证码格式得到指纹数据,生成最优验证码格式,比较数据的一致性。4.如权利要求3所述的方法,其特征在于,所述根据SimHash算法原理,结合MD5算法原理中分组数据处理方式,将所述业务主键精简优化为统一的标准格式,生成最优验证码格式,包括:将所述业务主键进行分词,得到n维的分词向量,并给定每组分词向量的权重;其中,n≥1;计算每组分词向量的哈希值;计算每组哈希值的向量加权值;将每组向量加权值合并,向量累加,精简优化为统一的标准格式,并降维得指纹数据,生成最优验证码格式。5.如权利要求1-4之一所述的方法,其特征在于,所述采用海明距离算法,确定验证码的数据相似性,包括:计算待验证的验证码数据中的码字与数据库中的基准码字的海明距离,根据计算的海明距离确定验证码的数据相似性。6.如权利要求1-5之一所述的方法,其特征在于,所述采用抽屉原理算法,顺序生成所述验证码数据的标识码,包括:将验证码数据均匀分布,得到随机组合量;基于抽屉原理算法,计算随机组合量与原数据的比值,计算倒排返回的验证码数据中的最大数量的候选结果,通过截断索引计算候选结果的比对结果,标记为标识码。7.一种基于大数据的数据信息一...

【专利技术属性】
技术研发人员:顾喜德
申请(专利权)人:北京红马传媒文化发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1