【技术实现步骤摘要】
一种数据贯标处理方法、设备及存储介质
[0001]本专利技术涉及自然语言处理
,尤其是涉及一种基于智能推荐算法的自动化数据贯标处理方法。
技术介绍
[0002]现有的数据贯标方案是通过人工线下或线上方式进行排摸映射,并根据数据结构与数据标准比对进行非标字段排查标注。这种方式对工作人员要求较高,并且工作量大、遗漏错误率高,只能应用于中小企业,不适用于大型企业。
[0003]数据量大,随着业务系统数量及规模的不断扩张,逐渐积累的数据量已经是一个很大的基数,依靠人工去逐一排摸贯标很难去实施并且及其耗费人力资源;
[0004]数据识别困难,庞大复杂的数据存量及企业数据标准库需要一批业务熟练人员去进行识别匹配,存在业务门槛高、识别遗漏的难题;
[0005]数据更新频率高,对于快速迭代的系统,数据结构可能每周都有发生变化,线下贯标无法保证数据更新的及时性。
[0006]增量数据污染问题,现有数据贯标无法实现在数据结构设计阶段的精准贯标识别,导致存在不符合数据标准数据流转到生产环境并且污染下游系统。< ...
【技术保护点】
【技术特征摘要】
1.一种数据贯标处理方法,其特征在于,所述方法步骤包括:对业务库进行自动化元数据采集;调用标准规则库,通过智能推荐贯标模型计算出采集元数据的推荐分,进行数据贯标;贯标结果自动纠正,将现有贯标结果分为红、黄、绿三个等级,当检测原业务库字段发生变化时进行贯标等级重新评估修正;基于数据标贯结果,对规则进行训练,根据规则意愿度模型,对规则库中的规则进行新增与废弃操作。2.根据权利要求1所述的一种数据贯标处理方法,其特征在于,所述自动化元数据采集步骤包括:配置业务系统数据源,定时抽取元数据信息;配置备份表过滤规则,通过正则表达式匹配进行备份表标识,命中备份表中过滤规则的元数据不纳入贯标范围;元数据比对,将抽取的元数据与现有数据字典进行比对,进行增删改。3.根据权利要求1所述的一种数据贯标处理方法,其特征在于,所述智能推荐贯标模型根据多维度乘以权重计算出的推荐分进行贯标,当推荐分达到设定数值,则系统自动贯标;当推荐分小于设定数值,则只进行推荐不直接贯标;所述维度包括匹配度分、规则精准度、同样本比较和其他规则。4.根据权利要求3所述的一种数据贯标处理方法,其特征在于,所述匹配度为:通过IK分词技术,将数据中文名称进行拆分与标准规则库中的规则进行匹配得到匹配度分。5.根据权利要求3所述的一种数据贯标处理方法,其特征在于,所述规则精准度为:标准规则库中规则命中数据标准数占推荐数的比例。6.根据权利要求3所述的一种数据贯标处理方法,其特征在于,所述同样本比较为:相同业务库或者相同来源数据,同字段的其他标准映射情况比例。7.根据权利要求3所述的一种数据贯标处理方法,其特征在于,所述其他规则包括:系统是否涉标、表是否涉标以及其他附加判断。8.根据权利要求1所...
【专利技术属性】
技术研发人员:铁锦程,范桢,周佳佳,
申请(专利权)人:上海浦东发展银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。