一种利用AI模型智能化的实现数据清洗方法及系统技术方案

技术编号:42601555 阅读:80 留言:0更新日期:2024-09-03 18:12
本发明专利技术涉及数据清洗技术领域,尤其涉及一种利用AI模型智能化的实现数据清洗方法及系统。本系统实现了元数据的快速采集、数据标准与元数据映射和多种质检规则的开发。系统内置多种数据质量检查规则,并支持AI自动质检功能。AI质检模块能智能识别异常数据并给出整改建议。系统能够生成详细的报告,并标记问题记录与显示整改值,提升数据管理的效率和准确性。AI质检不仅能大幅提高质检效率,减少人工干预,还能通过深度学习技术,自动发现数据中存在的异常数据。AI的自学习和训练能够持续提升质检和修复的准确度,助力企业持续改进数据质量,确保业务决策的准确性和可靠性。

【技术实现步骤摘要】

本专利技术涉及数据清洗,尤其涉及一种利用ai模型智能化的实现数据清洗方法及系统。


技术介绍

1、在工业互联网迅速发展的今天,工业数据呈现爆炸式增长,成为企业决策的重要依据。然而,由于设备多样性、数据采集误差等原因,工业数据质量参差不齐,给数据分析和应用带来了极大挑战。数据清洗作为提高数据质量的关键环节,其重要性日益凸显。通过数据清洗,可以有效去除异常值、填补缺失值、纠正错误数据,确保数据的准确性、完整性和一致性,为工业领域的数据分析和决策提供有力支持。

2、然而,现有技术面临挑战。人工清洗效率低下且易出错,自动化清洗在处理复杂数据时准确性不足。此外,规则配置和参数调整需要专业知识,对用户而言门槛较高。因此,需要探索更高效、智能的数据清洗技术,以满足工业领域对数据质量的严格需求。


技术实现思路

1、鉴于上述现有技术中存在的问题,提出了本专利技术。

2、因此,本专利技术提供了一种利用ai模型智能化的实现数据清洗方法,能够解决传统的数据清洗效率低、灵活性差、容易出错、工具门槛高、人工修复易出本文档来自技高网...

【技术保护点】

1.一种利用AI模型智能化的实现数据清洗方法,其特征在于:包括,

2.如权利要求1所述的一种利用AI模型智能化的实现数据清洗方法,其特征在于:所述元数据自动采集包括要配置数据源,元数据采集任务中关联配置好的数据源,采集任务根据关联的数据源,使用Java原生JDBC提供的DriverManager、Connection和DatabaseMetaData类提取数据库中表和字段的所有元数据信息;

3.如权利要求2所述的一种利用AI模型智能化的实现数据清洗方法,其特征在于:所述元数据映射通过数据标准管理程序配置数据标准检查规则,根据数据标准配置对应的属性和属性值,配置完成...

【技术特征摘要】

1.一种利用ai模型智能化的实现数据清洗方法,其特征在于:包括,

2.如权利要求1所述的一种利用ai模型智能化的实现数据清洗方法,其特征在于:所述元数据自动采集包括要配置数据源,元数据采集任务中关联配置好的数据源,采集任务根据关联的数据源,使用java原生jdbc提供的drivermanager、connection和databasemetadata类提取数据库中表和字段的所有元数据信息;

3.如权利要求2所述的一种利用ai模型智能化的实现数据清洗方法,其特征在于:所述元数据映射通过数据标准管理程序配置数据标准检查规则,根据数据标准配置对应的属性和属性值,配置完成后通过数据标准管理列表页面提供的元数据映射操作按钮和自动采集到的元数据进行映射,点击元数据映射按钮弹出关联的元数据列表,通过添加操作选择提取到的元数据进行关联,完成元数据映射操作;

4.如权利要求3所述的一种利用ai模型智能化的实现数据清洗方法,其特征在于:所述数据质量检查规则通过规则类型、问题级别、规则描述、检测表、检测字段、过滤条件、修复策略信息、ai质检定义标准的数据质量检查规则;

5.如权利要求4所述的一种利用ai模型智能化的实现数据清洗方法,其特征在于:所述使用fasttext框架训练的匹配度计算模型进行检查包括去除html标签、url、特殊字符无关信息,确保数据的纯净性,利用分词工具将文本切分为单独的单词或词组,去除常见且无具体语义的停用词,对文本进行编码和标准化处理,完成数据处理后把数据分为训练数据集和测试数...

【专利技术属性】
技术研发人员:魏小庆郑豹袁存发张海东张强毛旭初
申请(专利权)人:朗坤智慧科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1