一种基于人工智能的大数据清洗方法及系统技术方案

技术编号:41102122 阅读:21 留言:0更新日期:2024-04-25 13:58
本发明专利技术提供了一种基于人工智能的大数据清洗方法及系统,属于数据清洗技术领域,其方法包括:获取待清洗数据,并按照数据来源对待清洗数据进行数据划分,得到若干子数据集,同时,基于人工智能的清洗任务对每个数据来源进行路径挖掘,确定相应数据来源的来源路径,进而构建干扰机制,确定相应来源路径的第一清洗方式;对清洗任务进行规范条件的提取,获取得到每个子数据集的初始清洗方式,并获取与相应子数据集匹配的清洗优化因子对初始清洗方式进行优化,得到第二清洗方式;根据所有第一清洗方式以及第二清洗方式构建洗规则,对待清洗数据进行清洗处理。一定程度上实现了对数据的灵活清洗,提高了数据质量。

【技术实现步骤摘要】

本专利技术涉及数据清洗术领域,特别涉及一种基于人工智能的大数据清洗方法及系统


技术介绍

1、在人工智能的世界里,数据的质量对模型的准确性和有效性至关重要。 在人工智能方面其数据清洗的目的在于提高数据质量,为后续的数据分析奠定基础,其重要性不言而喻。且数据清洗(data机制cleaning)是指通过一系列的技术和工具,对原始数据进行处理,以消除错误、异常和不一致性的过程。然而这些错误和异常可能源于数据采集机制、存储机制、传输机制等过程中的各种问题。

2、然而目前常见的数据清洗是对,如缺失值、重复记录、格式不统一等的清洗,由于数据来源以及清洗任务的不同,在一定程度不能对数据进行灵活清洗,使得数据质量降低。

3、因此,本专利技术提出一种基于人工智能的大数据清洗方法及系统


技术实现思路

1、本专利技术提供一种基于人工智能的大数据清洗方法及系统,用以从数据来源清洗方面以及清洗任务对数据本身清洗方面,来综合构建基于两方面的清洗规则,一定程度上实现了对数据的灵活清洗,提高了数据质量。

本文档来自技高网...

【技术保护点】

1.一种基于人工智能的大数据清洗方法,其特征在于,包括:

2.根据权利要求1所述的基于人工智能的大数据清洗方法,其特征在于,步骤1,包括:

3.根据权利要求1所述的基于人工智能的大数据清洗方法,其特征在于,步骤2,包括:

4.根据权利要求3所述的基于人工智能的大数据清洗方法,其特征在于,判断对应子数据集基于相应数据来源是否采集可靠,包括:

5.根据权利要求4所述的基于人工智能的大数据清洗方法,其特征在于,根据采集可靠的判断过程对干扰机制进行优化得到新机制,包括:

6.根据权利要求1所述的基于人工智能的大数据清洗方法,其特征在于,...

【技术特征摘要】

1.一种基于人工智能的大数据清洗方法,其特征在于,包括:

2.根据权利要求1所述的基于人工智能的大数据清洗方法,其特征在于,步骤1,包括:

3.根据权利要求1所述的基于人工智能的大数据清洗方法,其特征在于,步骤2,包括:

4.根据权利要求3所述的基于人工智能的大数据清洗方法,其特征在于,判断对应子数据集基于相应数据来源是否采集可靠,包括:

5.根据权利要求4所述的基于人工智能的大数据清洗方法,其特征在于,根据采集可靠的判...

【专利技术属性】
技术研发人员:申吉宁姚满
申请(专利权)人:北京数字一百信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1