The invention provides a big data consistency processing method, system and device based on this method, by acquiring at least one pending data table to primary key; the service key conversion for the unified standard format, generated verification code; Hamming distance is adopted to determine the algorithm. Verification code data similarity; the principle of drawer sequence generation algorithm, the verification code identification data; will be ranked in the first identification code identification code with each subsequent comparison, subsequent identification code and identification code in the first row of the same, will further distinguish identification codes recorded as second distinguished code; delete the identification code in the code for second yards to distinguish between data. The invention saves a large amount of processing time and improves the efficiency of data processing when processing data of multiple rows or more columns and data sizes of more than one hundred million or more.
【技术实现步骤摘要】
本专利技术涉及大数据
,尤其涉及一种基于大数据的数据信息一致性处理方法、系统及装置。
技术介绍
随着互联网、移动互联网的发展,数据的不断剧增形成大数据时代的显著特征。企业对于大数据的重视度也在不断加强,无论是从数据的存储、计算和运用角度,都投入较多的人力和物力进行尝试探索。大数据的生产和使用的重要前提之一是数据的清洗。数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为\脏数据\。我们要按照一定的规则把\脏数据\″洗掉\,这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。不符合要求的数据主要是有不完整的数据和重复的数据。目前,我国已经形成了基本的数据清洗技术格局,但因各自利益的追求,导致仍存在不少问题。到目前为止,数据清洗的规范和标准还没有一个比较权威的版本。目前常用的数据清洗的方法是,通过对浏览器网页以及客户端APP使用埋点技术进行数据采集,采集平台的访问、触发、提交等数据,进行结构化的存储,形成用户标识与行为和属性之间的关联关系,构建成用户行为基础信息库。来自各个系统之间的数据,通过数据同步方式加载到基础信息库中。在数据清洗过程中,对来自各个数据源的数据进行数据一致性检验,需要针对各个表中的多个字段组合来判断 ...
【技术保护点】
一种基于大数据的数据信息一致性处理方法,其特征在于,包括:获取至少一个待处理的数据表的业务主键;将所述业务主键转换为统一的标准格式,生成验证码;采用海明距离算法,确定所述验证码数据相似性;采用抽屉原理算法,顺序生成所述验证码数据的标识码;将排在首位的标识码与每个后续的标识码进行比对,后续的标识码与排在首位的标识码相同时,将后续的标识码的区分码记为第二区分码;删除所述标识码中的区分码为第二区分码的数据。
【技术特征摘要】
1.一种基于大数据的数据信息一致性处理方法,其特征在于,包括:获取至少一个待处理的数据表的业务主键;将所述业务主键转换为统一的标准格式,生成验证码;采用海明距离算法,确定所述验证码数据相似性;采用抽屉原理算法,顺序生成所述验证码数据的标识码;将排在首位的标识码与每个后续的标识码进行比对,后续的标识码与排在首位的标识码相同时,将后续的标识码的区分码记为第二区分码;删除所述标识码中的区分码为第二区分码的数据。2.如权利要求1所述的方法,其特征在于,所述业务主键,包括但不限于:代表数据唯一性的字段,或者代表数据唯一性的多个字段的组合。3.如权利要求1或2所述的方法,其特征在于,所述将所述业务主键转换为统一的标准格式,生成验证码,包括:根据SimHash算法原理,结合MD5算法原理中分组数据处理方式,将所述业务主键精简优化为统一的标准格式,通过最优验证码格式得到指纹数据,生成最优验证码格式,比较数据的一致性。4.如权利要求3所述的方法,其特征在于,所述根据SimHash算法原理,结合MD5算法原理中分组数据处理方式,将所述业务主键精简优化为统一的标准格式,生成最优验证码格式,包括:将所述业务主键进行分词,得到n维的分词向量,并给定每组分词向量的权重;其中,n≥1;计算每组分词向量的哈希值;计算每组哈希值的向量加权值;将每组向量加权值合并,向量累加,精简优化为统一的标准格式,并降维得指纹数据,生成最优验证码格式。5.如权利要求1-4之一所述的方法,其特征在于,所述采用海明距离算法,确定验证码的数据相似性,包括:计算待验证的验证码数据中的码字与数据库中的基准码字的海明距离,根据计算的海明距离确定验证码的数据相似性。6.如权利要求1-5之一所述的方法,其特征在于,所述采用抽屉原理算法,顺序生成所述验证码数据的标识码,包括:将验证码数据均匀分布,得到随机组合量;基于抽屉原理算法,计算随机组合量与原数据的比值,计算倒排返回的验证码数据中的最大数量的候选结果,通过截断索引计算候选结果的比对结果,标记为标识码。7.一种基于大数据的数据信息一...
【专利技术属性】
技术研发人员:顾喜德,
申请(专利权)人:北京红马传媒文化发展有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。