【技术实现步骤摘要】
一种分布式数据采集入库用的多级校验系统及校验方法
[0001]本专利技术属于数据校验
,具体涉及一种分布式数据采集入库用的多级校验系统及校验方法。
技术介绍
[0002]随着信息化时代的到来,越来越多的线上数据需要整合并传输,但是由于现在社会信息爆炸,数据来源多,数据重复性高,尤其是当有多数据来源时,需要短时间处理数据的统一性,还要满足处理数据的高效性,就变得尤为重要,同时重复性的数据会占用较多的存储空间,不仅会拖慢数据传输的速度,还会影响数据的调阅。
[0003]现有的框架结构已经不能满足这样的需求,无法快速、灵活的清洗及规整数据,进而就会导致冗余数据越来越多,数据的及时性也得不都保障,进而便会堆积大量的失效数据,为解决这一问题,本方案提供了一种利用三级校验,减少后续数据处理的难度,另外加上灵活的配置信息,解决框架的适用程度的多级校验系统。
技术实现思路
[0004]本专利技术的目的是提供一种分布式数据采集入库用的多级校验系统及校验方法,能够利用三级校验,减少后续数据处理的难度,另外加上灵活的配置信息,解决框架的适用程度。
[0005]本专利技术采取的技术方案具体如下:一种分布式数据采集入库用的多级校验方法,包括:获取输入数据,并对其进行拆解处理,得到多个消息体;在所述消息体中加入至标识信息,得到待校验数据,其中,所述标识信息包括日期、来源、目的地、大小、区段、名称、行ID以及文件名;将所述待校验数据输入至多级校验模型中,判断所述待校验数据是否通过校验;若是,则将所述待校验数据 ...
【技术保护点】
【技术特征摘要】
1.一种分布式数据采集入库用的多级校验方法,其特征在于:包括:获取输入数据,并对其进行拆解处理,得到多个消息体;在所述消息体中加入至标识信息,得到待校验数据,其中,所述标识信息包括日期、来源、目的地、大小、区段、名称、行ID以及文件名;将所述待校验数据输入至多级校验模型中,判断所述待校验数据是否通过校验;若是,则将所述待校验数据通过数据库操作引擎上传至在线数据库;若否,则对所述待校验数据进行分词处理,得到待优化数据,并同步将所述待优化数据上传至离线数据库;将所述待优化数据输入至数据转换模型中,得到唯一性数据,再将所述唯一性数据进行集群计算,并将其计算结果进行聚类合并,且将合并结果上传至在线数据库。2.根据权利要求1所述的一种分布式数据采集入库用的多级校验方法,其特征在于:所述输入数据的拆解方式为按行拆解。3.根据权利要求1所述的一种分布式数据采集入库用的多级校验方法,其特征在于:所述将所述待校验数据输入至多级校验模型中,判断所述待校验数据是否通过校验的步骤,包括:获取待校验数据;从所述校验模型中调用校验条件,其中,所述校验条件包括内容重复校验、内容缺失校验以及内容疑问校验;将所述待校验数据依次输入至校验条件中,并将符合校验条件的确定为通过校验,再同步上传至在线数据库,将不符合校验条件的确定为未通过校验,且同步上传至离线数据库。4.根据权利要求3所述的一种分布式数据采集入库用的多级校验方法,其特征在于:所述内容重复校验的优先级高于内容缺失校验的优先级,所述内容缺失校验的优先级高于内容疑问校验的优先级;其中,所述待校验数据根据内容重复校验、内容缺失校验以及内容疑问校验的优先级逐级执行校验,且所述待校验通过优先级高的校验条件时,不再执行优先级低的校验条件。5.根据权利要求3所述的一种分布式数据采集入库用的多级校验方法,其特征在于:所述内容重复校验执行时的步骤,包括:获取待校验数据,并上传至在线数据库,判断所述在线数据库中是否存在与待校验数据一致的重复数据;若存在,则保留待校验数据,并将重复数据从在线数据库中筛除;若不存在,则获取待校验数据的结构信息,并将其标定为一级校验数据,并判断所述一级校验数据中是否存在新增字段;若所述一级校验数据中存在新增字段,则根据结构变化时间查询其全量数据报送时间,并判断是否存在重复报送记录;若是,则清理该时间节点之前的重复数据,并保留一级校验数据,且汇总为一级数据集合,反之则直接将其汇总至一级数据集合;若所述一级校验数据中未存在新增字段,则获取所述一级校验数据的日期信息,并基于一级数据集合设置日期核准字段,并判断所述一级校验信息中是否仅存在核准字段与日
期信息不一致;若是,则判定所述待校验数据通过内容重复校验,并将其汇总至一级数据集合;若否,则判定所述待校验数据未通过内容重复校验,并将其标定为二级校验数据,且汇总为二级数据集合。6.根据权...
【专利技术属性】
技术研发人员:姚含,方红渊,崔冬祥,李鸿羽,黄少意,王惠云,
申请(专利权)人:南京莫愁智慧信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。