System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据清洗,尤其涉及一种利用ai模型智能化的实现数据清洗方法及系统。
技术介绍
1、在工业互联网迅速发展的今天,工业数据呈现爆炸式增长,成为企业决策的重要依据。然而,由于设备多样性、数据采集误差等原因,工业数据质量参差不齐,给数据分析和应用带来了极大挑战。数据清洗作为提高数据质量的关键环节,其重要性日益凸显。通过数据清洗,可以有效去除异常值、填补缺失值、纠正错误数据,确保数据的准确性、完整性和一致性,为工业领域的数据分析和决策提供有力支持。
2、然而,现有技术面临挑战。人工清洗效率低下且易出错,自动化清洗在处理复杂数据时准确性不足。此外,规则配置和参数调整需要专业知识,对用户而言门槛较高。因此,需要探索更高效、智能的数据清洗技术,以满足工业领域对数据质量的严格需求。
技术实现思路
1、鉴于上述现有技术中存在的问题,提出了本专利技术。
2、因此,本专利技术提供了一种利用ai模型智能化的实现数据清洗方法,能够解决传统的数据清洗效率低、灵活性差、容易出错、工具门槛高、人工修复易出错等问题。
3、为解决上述技术问题,本专利技术提供如下技术方案,一种利用ai模型智能化的实现数据清洗方法,包括:采集元数据,并对元数据进行数据标准检查;
4、配置数据标准检查规则,并将元数据映射到配置的数据标准检查规则中,执行检查任务,生成落标报告并进行整改;
5、根据数据质量检查规则进行数据质量检查;
6、将质检业务记录输入匹配
7、作为本专利技术所述的一种利用ai模型智能化的实现数据清洗方法的一种优选方案,其中:所述元数据自动采集包括要配置数据源,元数据采集任务中关联配置好的数据源,采集任务根据关联的数据源,使用java原生jdbc提供的drivermanager、connection和databasemetadata类提取数据库中表和字段的所有元数据信息;
8、所述数据源包含数据库名称、类型、地址和账号密码;
9、drivermanager类提供获取数据库连接的方法getconnection(),根据配置信息把数据库地址,账号密码传入方法中获取到数据库连接connection对象,使用connect类提供的getmetadata()方法获取到databasemetadata对象,通过databasemetadata对象实现元数据的自动提取并写入到元数据管理程序中,用户通过元数据管理程序进行元数据信息的确认;
10、所述databasemetadata对象包括数据库表、字段、视图的所有元数据信息。
11、作为本专利技术所述的一种利用ai模型智能化的实现数据清洗方法的一种优选方案,其中:所述元数据映射通过数据标准管理程序配置数据标准检查规则,根据数据标准配置对应的属性和属性值,配置完成后通过数据标准管理列表页面提供的元数据映射操作按钮和自动采集到的元数据进行映射,点击元数据映射按钮弹出关联的元数据列表,通过添加操作选择提取到的元数据进行关联,完成元数据映射操作;
12、所述数据标准中选择系统预置的标准名称、数据长度、数据类型、数据精度、是否可为空、值域范围、字符规范、管理部门属性;
13、所述数据标准检查规则包括建立数据标准检查任务,检查任务主表中提供cron组件配置任务的执行周期,子表添加行时弹出数据标准检查规则选择列表,把需要检查的数据选择后关联到当前检查任务,任务发布后根据执行周期生成定时任务,定时任务到达对应时间点后自动启动进行数据标准检查;
14、数据标准检查规则执行时生成落标整改报告,对检查任务中关联的元数据的属性和属性值进行提取,与配置信息中的属性值逐一校验,如果元数据的属性值和配置信息的属性值不相等,则判定元数据的属性落标,如果元数据的属性值和配置信息的属性值相等,则判定属性正确,并把检查项和检查结果全部记录到落标整改报告中,检查任务执行完成后在检查任务的执行日志列表记录任务执行的时间、检查元数据数量和异常数量,落标整改报告中详细记录所有检查的元数据、元数据的属性、属性值、标准值、整改值,用户通过报告对数据库中的表或字段进行整改,完成整改任务。
15、作为本专利技术所述的一种利用ai模型智能化的实现数据清洗方法的一种优选方案,其中:所述数据质量检查规则通过规则类型、问题级别、规则描述、检测表、检测字段、过滤条件、修复策略信息、ai质检定义标准的数据质量检查规则;
16、通过质检方案管理设置数据质量检查规则的执行周期、是否发起整改流程、数据管理岗位、质检规则数据,质检方案发布后根据执行周期启动定时任务,定时任务根据质检规则中配置规则类型对需要质检的业务表记录进行逐条校验;
17、所述规则类型包括空值检查,检查业务记录指定的字段不为空,如果字段记录的字段为空值,则为异常数据;值域检查,数值类型字段,判断业务数据值是否在安全值域范围内,如果字段值不在安全值域范围内,则为异常数据;标准格式检查,按照平台标准自定义java方法进行判断,由具体业务场景决定,如果不符合标准格式规范,则为异常数据;唯一性检查,校验数据是否唯一,如果不唯一则为异常数据;及时性检查,检查数据录入是否及时,根据定时任务执行时间和允许误差天数计算出最晚录入时间,如果数据录入时间大于预设的最晚录入时间,则数据为异常数据;ai质检,使用fasttext框架训练的匹配度计算模型进行检查,使用匹配度计算模型获取与业务记录相似度高于预设最高阈值的数据,将数据标记为推荐数据,业务记录指定的字段值与所有推荐数据对应的字段值比较,如果全部低于设置的预设最低阈值时,则数据定义为异常数据;
18、所述使用fasttext框架训练的匹配度计算模型进行检查包括采集历史数据,并对历史数据进行预处理,划分训练集和测试集;将训练集数据格式转换为fasttext可识别的数据类型,并通过fasttext框架训练匹配度计算模型,使用测试集数据输入匹配度计算模型,对匹配度计算模型进行匹配度准确性验证和参数调优。
19、作为本专利技术所述的一种利用ai模型智能化的实现数据清洗方法的一种优选方案,其中:所述预处理包括去除html标签、url、特殊字符无关信息,确保数据的纯净性,利用分词工具将文本切分为单独的单词或词组,去除常见且无具体语义的停用词,对文本进行编码和标准化处理,完成数据处理后把数据分为训练数据集和测试数据集;
20、fasttext分为三层结构输入层、隐藏层、输出层,输入层处理输入数据,将单词拆分为若干子词,增强词的表示能力;隐藏层是将输入层的词或子词映射到一个固定维度的向量空间;输出层进行查询,获取到匹配度最高的数据;
21、把训练集数据输入到fasttext框架中进行训练,faxttext训练完成后输出匹配度计算模型,把测试数据输入到匹本文档来自技高网...
【技术保护点】
1.一种利用AI模型智能化的实现数据清洗方法,其特征在于:包括,
2.如权利要求1所述的一种利用AI模型智能化的实现数据清洗方法,其特征在于:所述元数据自动采集包括要配置数据源,元数据采集任务中关联配置好的数据源,采集任务根据关联的数据源,使用Java原生JDBC提供的DriverManager、Connection和DatabaseMetaData类提取数据库中表和字段的所有元数据信息;
3.如权利要求2所述的一种利用AI模型智能化的实现数据清洗方法,其特征在于:所述元数据映射通过数据标准管理程序配置数据标准检查规则,根据数据标准配置对应的属性和属性值,配置完成后通过数据标准管理列表页面提供的元数据映射操作按钮和自动采集到的元数据进行映射,点击元数据映射按钮弹出关联的元数据列表,通过添加操作选择提取到的元数据进行关联,完成元数据映射操作;
4.如权利要求3所述的一种利用AI模型智能化的实现数据清洗方法,其特征在于:所述数据质量检查规则通过规则类型、问题级别、规则描述、检测表、检测字段、过滤条件、修复策略信息、AI质检定义标准的数据质量检查规则
5.如权利要求4所述的一种利用AI模型智能化的实现数据清洗方法,其特征在于:所述使用FastText框架训练的匹配度计算模型进行检查包括去除HTML标签、URL、特殊字符无关信息,确保数据的纯净性,利用分词工具将文本切分为单独的单词或词组,去除常见且无具体语义的停用词,对文本进行编码和标准化处理,完成数据处理后把数据分为训练数据集和测试数据集;
6.如权利要求5所述的一种利用AI模型智能化的实现数据清洗方法,其特征在于:所述匹配度计算模型使用TF-IDF和余弦相似度计算质检记录和训练集数据的文本匹配度,使用FastText将质检记录进行拆词,获得词语集合T,其中质检记录为质检项对应的业务记录,
7.如权利要求6所述的一种利用AI模型智能化的实现数据清洗方法,其特征在于:所述判断是否存在异常数据包括,如果质检项字符串长度大于预设长度阈值,通过余弦相似度把质检项和推荐数据集A0中记录逐条比较获取相似度,相似度最大值记为Lmax,设定相似度阈值为Lthreshold,如果相似度最大值小于阈值,即Lmax<Lthreshold,判断当前数据为异常数据A2并进行标记,获取推荐数据集A0中匹配度最高的记录值作为修复值并将结果记录到报告中,如果相似度最大值大于等于阈值,即Lmax≥Lthreshold,则判定数据为正常数据A1,并将结果记录到报告中;
8.一种基于权利要求1-7任一所述的一种利用AI模型智能化的实现数据清洗方法的系统,其特征在于:包括,元数据采集模块、数据标准检查与整改模块、数据质量检查模块、AI质检模块;
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
...【技术特征摘要】
1.一种利用ai模型智能化的实现数据清洗方法,其特征在于:包括,
2.如权利要求1所述的一种利用ai模型智能化的实现数据清洗方法,其特征在于:所述元数据自动采集包括要配置数据源,元数据采集任务中关联配置好的数据源,采集任务根据关联的数据源,使用java原生jdbc提供的drivermanager、connection和databasemetadata类提取数据库中表和字段的所有元数据信息;
3.如权利要求2所述的一种利用ai模型智能化的实现数据清洗方法,其特征在于:所述元数据映射通过数据标准管理程序配置数据标准检查规则,根据数据标准配置对应的属性和属性值,配置完成后通过数据标准管理列表页面提供的元数据映射操作按钮和自动采集到的元数据进行映射,点击元数据映射按钮弹出关联的元数据列表,通过添加操作选择提取到的元数据进行关联,完成元数据映射操作;
4.如权利要求3所述的一种利用ai模型智能化的实现数据清洗方法,其特征在于:所述数据质量检查规则通过规则类型、问题级别、规则描述、检测表、检测字段、过滤条件、修复策略信息、ai质检定义标准的数据质量检查规则;
5.如权利要求4所述的一种利用ai模型智能化的实现数据清洗方法,其特征在于:所述使用fasttext框架训练的匹配度计算模型进行检查包括去除html标签、url、特殊字符无关信息,确保数据的纯净性,利用分词工具将文本切分为单独的单词或词组,去除常见且无具体语义的停用词,对文本进行编码和标准化处理,完成数据处理后把数据分为训练数据集和测试数...
【专利技术属性】
技术研发人员:魏小庆,郑豹,袁存发,张海东,张强,毛旭初,
申请(专利权)人:朗坤智慧科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。