【技术实现步骤摘要】
本专利技术涉及数据清洗,尤其涉及一种利用ai模型智能化的实现数据清洗方法及系统。
技术介绍
1、在工业互联网迅速发展的今天,工业数据呈现爆炸式增长,成为企业决策的重要依据。然而,由于设备多样性、数据采集误差等原因,工业数据质量参差不齐,给数据分析和应用带来了极大挑战。数据清洗作为提高数据质量的关键环节,其重要性日益凸显。通过数据清洗,可以有效去除异常值、填补缺失值、纠正错误数据,确保数据的准确性、完整性和一致性,为工业领域的数据分析和决策提供有力支持。
2、然而,现有技术面临挑战。人工清洗效率低下且易出错,自动化清洗在处理复杂数据时准确性不足。此外,规则配置和参数调整需要专业知识,对用户而言门槛较高。因此,需要探索更高效、智能的数据清洗技术,以满足工业领域对数据质量的严格需求。
技术实现思路
1、鉴于上述现有技术中存在的问题,提出了本专利技术。
2、因此,本专利技术提供了一种利用ai模型智能化的实现数据清洗方法,能够解决传统的数据清洗效率低、灵活性差、容易出错、工具
...【技术保护点】
1.一种利用AI模型智能化的实现数据清洗方法,其特征在于:包括,
2.如权利要求1所述的一种利用AI模型智能化的实现数据清洗方法,其特征在于:所述元数据自动采集包括要配置数据源,元数据采集任务中关联配置好的数据源,采集任务根据关联的数据源,使用Java原生JDBC提供的DriverManager、Connection和DatabaseMetaData类提取数据库中表和字段的所有元数据信息;
3.如权利要求2所述的一种利用AI模型智能化的实现数据清洗方法,其特征在于:所述元数据映射通过数据标准管理程序配置数据标准检查规则,根据数据标准配置对应的属
...【技术特征摘要】
1.一种利用ai模型智能化的实现数据清洗方法,其特征在于:包括,
2.如权利要求1所述的一种利用ai模型智能化的实现数据清洗方法,其特征在于:所述元数据自动采集包括要配置数据源,元数据采集任务中关联配置好的数据源,采集任务根据关联的数据源,使用java原生jdbc提供的drivermanager、connection和databasemetadata类提取数据库中表和字段的所有元数据信息;
3.如权利要求2所述的一种利用ai模型智能化的实现数据清洗方法,其特征在于:所述元数据映射通过数据标准管理程序配置数据标准检查规则,根据数据标准配置对应的属性和属性值,配置完成后通过数据标准管理列表页面提供的元数据映射操作按钮和自动采集到的元数据进行映射,点击元数据映射按钮弹出关联的元数据列表,通过添加操作选择提取到的元数据进行关联,完成元数据映射操作;
4.如权利要求3所述的一种利用ai模型智能化的实现数据清洗方法,其特征在于:所述数据质量检查规则通过规则类型、问题级别、规则描述、检测表、检测字段、过滤条件、修复策略信息、ai质检定义标准的数据质量检查规则;
5.如权利要求4所述的一种利用ai模型智能化的实现数据清洗方法,其特征在于:所述使用fasttext框架训练的匹配度计算模型进行检查包括去除html标签、url、特殊字符无关信息,确保数据的纯净性,利用分词工具将文本切分为单独的单词或词组,去除常见且无具体语义的停用词,对文本进行编码和标准化处理,完成数据处理后把数据分为训练数据集和测试数...
【专利技术属性】
技术研发人员:魏小庆,郑豹,袁存发,张海东,张强,毛旭初,
申请(专利权)人:朗坤智慧科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。