The invention provides a method and system for asynchronous large data cleaning conversion, which adopts adding large buffer technology at the data cleaning end to exchange space for time efficiency, and suppresses the difference of conversion rate caused by management factors, thereby effectively solving the problem of low efficiency of current data cleaning conversion tools. The system mainly includes the following steps: first, configure the data source, then determine the cleaning range, configure the cleaning algorithm and strategy, start the data cleaning conversion task, and finally record the cleaning conversion task log.
【技术实现步骤摘要】
一种异步大数据清洗转换的方法和系统
本专利技术涉及大数据领域,具体而言,属于大数据清洗转换领域。
技术介绍
随着近年来以大数据技术为代表的新兴信息技术的飞速发展,越来越多的机构和组织渴望利用大数据技术进行精益化管理,从而实现经营效益的提升。数据的充分融合、共享和分析将为企业带来潜在的巨大商业价值,然而数据质量问题始终是困扰数据分析与应用的关键性问题。数据清洗(DataCleaning)作为改善数据质量的关键技术,是指对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性,是一种必不可少的数据预处理技术。在许多大型组织或企业中,通常需要在生产信息系统之外,额外搭建数据仓库用来开展数据分析工作。在数据由生产系统进入到数据仓库之前,需要对数据进行清洗转换等预处理,以便后续进行数据分析处理之用。目前市面上已有很多数据清洗转换系统或具备数据清洗转换功能的ETL工具,其一般工作流程如下:第一步,数据抽取,从生产数据库中读取原始数据;第二步,数据清洗,对抽取的原始数据按照预设的清洗规则进行处理;第三步,数据装载,将清洗后的数据装载至数据仓库当中。 ...
【技术保护点】
1.一种异步大数据清洗转换的方法,所述方法如下:数据源配置:接入待清洗的生产系统数据库和清洗后数据写入的数据仓库,需在数据清洗转换系统中配置其I P地址、登录用户名和口令信息;确定清洗范围:选择需要导入数据仓库的数据范围,包括筛选相应的行和列;配置清洗算法和策略:根据目标数据质量的要求,确定清洗该批数据的清洗算法和策略;启动数据清洗转换任务:将数据从生产系统经清洗转换后写入至预先选定的数据仓库;清洗转换任务日志记录:数据清洗转换任务结束,将清洗转换任务的具体信息记录至系统日志当中。
【技术特征摘要】
1.一种异步大数据清洗转换的方法,所述方法如下:数据源配置:接入待清洗的生产系统数据库和清洗后数据写入的数据仓库,需在数据清洗转换系统中配置其IP地址、登录用户名和口令信息;确定清洗范围:选择需要导入数据仓库的数据范围,包括筛选相应的行和列;配置清洗算法和策略:根据目标数据质量的要求,确定清洗该批数据的清洗算法和策略;启动数据清洗转换任务:将数据从生产系统经清洗转换后写入至预先选定的数据仓库;清洗转换任务日志记录:数据清洗转换任务结束,将清洗转换任务的具体信息记录至系统日志当中。2.根据权利要求1所述的方法,其特征在于,配置清洗算法和策略采用自动化配置或人工配置。3.根据权利要求1或2所述的方法,其特征在于,启动数据清洗转换任务的步骤为:a)启动数据读取线程,从待清洗的生产系统数据库读取数据;b)将读取到的数据交由清洗转换线程进行处理,并将清洗处理...
【专利技术属性】
技术研发人员:程国艮,李欣杰,
申请(专利权)人:中译语通科技股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。