一种基于人工智能技术的数据质量管理方法技术

技术编号:39808474 阅读:5 留言:0更新日期:2023-12-22 02:42
本发明专利技术涉及数据管理技术领域,具体涉及一种基于人工智能技术的数据质量管理方法

【技术实现步骤摘要】
一种基于人工智能技术的数据质量管理方法


[0001]本专利技术涉及数据管理
,具体涉及一种基于人工智能技术的数据质量管理方法


技术介绍

[0002]随着企业自身的业务信息的逐渐增多,企业平台内部的系统会因业务信息产生大量的业务数据,例如,订单数据

销售数据

产品数据等,这些在形成时,通常是通过人员或系统录入的,但是在录入的过程中,数据难免会因人员的误操作

系统的故障出现一些错误,以此导致目前企业内数据库的数据质量存在问题,目前对存在质量问题的数据通常的处理方式为提取数据库内的数据,进行一一核对并矫正,但是对于海量的数据来说,并不是所有的数据均存在质量问题,于此情况下,导致目前对数据质量的分析处置产生了效率性的影响;并且,数据在录入后,需要设置录入该数据的责任人,当责任人所对应的数据出现异常时,如何能够对该责任人及数据做出相应的风险管控(避免对海量数据一一矫正的基础上进行风险管控),以降低后续数据持续异常变化的情况均是目前需要解决的问题


技术实现思路

[0003]针对现有技术所存在的上述缺点,本专利技术提供了一种基于人工智能技术的数据质量管理方法,能够有效解决现有技术中在海量的数据出现异常时,如何对海量数据质量风险管控的问题

[0004]为实现以上目的,本专利技术通过以下技术方案予以实现:本专利技术提供一种基于人工智能技术的数据质量管理方法,包括如下方法步骤:
S1、
抽取指定时间下数据库内的部分数据,并将所抽取的数据设为一次抽调数据;
S2、
分析判定一次抽调数据是否异常,当判定为异常时,确定一次抽调数据所对应的责任编号,基于责任编号在数据库内重新抽取部分数据,并设为二次抽调数据,再次判定其是否为异常,结合一次抽调数据与二次抽调数据的抽调结果判定责任编号的风险等级;
S3、
基于风险等级划定责任编号的监管方式,通过监管方式以调控当前数据库内的数据质量

[0005]进一步地,所述指定时间包括:周度

月度和季度

[0006]进一步地,所述判定一次抽调数据和二次抽调数据是否异常时,依据如下方法进行判定:数据是否存在缺失

无效

重复及异项特征,其中:数据的异项通过
Z

score
算法进行判定,其算法步骤如下:步骤一:采集与指定时间数据库内抽调数据对应的历史数据;
步骤二:求取均值:式中:为历史数据的平均值,均为历史数据,
n
为历史数据的总天数;步骤三:求取标准差:式中:为历史数据的标准差,为第
i
个历史数据;步骤四:设定阈值常数,基于
Z

score
算法进行判定:式中:
Z

score
为判定值,为当前抽取的变量数据,判定
Z

score
是否大于阈值常数,当其大于阈值常数时,为异常,并基于对异常的数据执行修正操作,当其小于等于阈值常数时,为正常

[0007]进一步地,所述风险等级包括一级

二级和三级,且一级

二级和三级的风险等级由高至低序列,其中,风险等级的判定方式如下:当一次抽调数据为异常,责任编号对应的风险等级为三级;当一次抽调数据和二次抽调数据均为异常,责任编号对应的风险等级为二级,并设定责任编号监管方式;当责任编号经过限定的监管方式监测,且监测判定其所对应的数据为异常时,责任编号对应的风险等级为一级

[0008]进一步地,所述监管方式依据风险等级进行设定,包括:风险等级为三级时,责任编号不设置监管方式;风险等级为二级时,责任编号的监管方式为实时监测责任编号对应的数据,并记录责任编号对应异常数据的数量;风险等级为一级时,责任编号的监管方式为中断限制输入状态,并实时监测责任编号对应的数据

[0009]进一步地,所述风险等级为二级,且责任编号处于监控状态下时,确定当前责任编号对应异常数据与二次抽调数据异常的数量,并设定调控区间,基于调控区间判定是否执行风险等级递减
/
递增操作,判定及执行风险等级递减
/
递增操作的方式为:式中,
p
为当前对应数据异常的数量,
y
为二次抽调数据异常的数量,设定责任编号于监控状态下对应异常数据的三次序列变化状态,
A、B、C
分别指代当
前对应数据异常的数量
p
的等级,
A、B、C
按照由少至多的数量依次序列等级,当
p
于最大三次变化后处于
A
时,暂停后台实时监测操作,执行风险等级监督操作,以抽取责任编号下一次对应的数据,并根据异常的数据量判定是否执行风险等级调控操作

[0010]进一步地,所述中断限制输入状态形成时,以抽取责任编号下一次对应的数据,并根据其异常状况判定是否执行风险等级递减
/
递增操作

[0011]进一步地,所述一次抽调数据为异常,且一次抽调数据所对应的责任编号存在多个时,划定二次抽调数据的对应抽调数据量与总抽调数据量,对应抽调数据量与总抽调数据量的判定方式如下:步骤一:求取历史数据下责任编号出现异常的数据量,获得累计异常的总数据量,并确定历史数据下责任编号出现异常的数据量于总数据量下的占比率;步骤二:基于责任编号对应异常数据的总数据量确定总抽调数据量,依据责任编号的占比率确定其在总抽调数据量中的对应抽调数据量;步骤三:设置缩减阈值,当历史数据下责任编号的数量小于一次抽调数据所对应责任编号的数量时,依据缩减阈值将步骤一中的占比率均衡缩减并重新生成占比率,依据缩减阈值和占比率确定对应抽调数据量

[0012]本专利技术提供的技术方案,与已知的现有技术相比,具有如下有益效果:
[0013]1、
通过在数据库内抽取数据评估其是否为异常,并基于所评估的异常数据来于数据库内重新抽取数据,结合第一次和第二次所抽取数据的异常状况综合判定其所对应的责任编号,并同步划定责任编号的风险等级,并以此给其设定风险管控措施,降低其后续对数据库内其他数据造成影响的情况

[0014]2、
通过判定责任编号的风险等级,并基于其后续于数据库内所输入的数据来进行监测,并对该责任编号形成监督操作,以判定是否执行风险等级切换调整,从而提升该责任编号后续管控数据的准确度,并且能够降低数据库内数据质量低的情况,以便数据库内的数据能够给企业状况提供较为精确的数据支撑决策

附图说明
[0015]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于人工智能技术的数据质量管理方法,其特征在于,包括如下方法步骤:
S1、
抽取指定时间下数据库内的部分数据,并将所抽取的数据设为一次抽调数据;
S2、
分析判定一次抽调数据是否异常,当判定为异常时,确定一次抽调数据所对应的责任编号,基于责任编号在数据库内重新抽取部分数据,并设为二次抽调数据,再次判定其是否为异常,结合一次抽调数据与二次抽调数据的抽调结果判定责任编号的风险等级;
S3、
基于风险等级划定责任编号的监管方式,并依据责任编号在监管方式下后续对应数据的异常状况,以判定是否执行风险等级调控操作,以重新判定责任编号的风险等级
。2.
根据权利要求1所述的一种基于人工智能技术的数据质量管理方法,其特征在于,所述指定时间包括:周度

月度和季度
。3.
根据权利要求1所述的一种基于人工智能技术的数据质量管理方法,其特征在于,所述判定一次抽调数据和二次抽调数据是否异常时,依据如下方法进行判定:数据是否存在缺失

无效

重复及异项特征,其中:数据的异项通过
Z

score
算法进行判定,其算法步骤如下:步骤一:采集与指定时间数据库内抽调数据对应的历史数据;步骤二:求取均值:式中:为历史数据的平均值,均为历史数据,
n
为历史数据的总天数;步骤三:求取标准差:式中:为历史数据的标准差,为第
i
个历史数据;步骤四:设定阈值常数,基于
Z

score
算法进行判定:式中:
Z

score
为判定值,为当前抽取的变量数据,判定
Z

score
是否大于阈值常数,当其大于阈值常数时,为异常,并基于对异常的数据执行修正操作,当其小于等于阈值常数时,为正常
。4.
根据权利要求1所述的一种基于人工智能技术的数据质量管理方法,其特征在于,所述风险等级包括一级

二级和三级,且一级

二级和三级的风险等级由高至低序列,其中,风险等级的判定方式如下:当一次抽调数据为异常,责任编号对应的风险等级为三级;当一次抽调数据和二次抽调数据均为异常,责任编号对应的风险等级为二级,并设定责任编号监管方式;当责任编号经过...

【专利技术属性】
技术研发人员:李保平谢超杨建荣陈木辉麦新伟黄月梅戴思敏
申请(专利权)人:广州汇通国信科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1