【技术实现步骤摘要】
一种基于机器学习的数据智能识别的方法
[0001]本专利技术涉及数据治理
,具体提供一种基于机器学习的数据智能识别的方法。
技术介绍
[0002]在大数据时代,由于分散的数据源、巨大的数据量和非结构化的数据类型使组织的数据管理复杂性进一步复杂化,增加了数据识别的难度。同一行业的不同数据源,或者不同行业的数据,如何做到快速识别来完成数据治理,需要借助机器学习算法。数据识别由元数据驱动,结合机器学习算法,高效准确的完成数据智能识别,同时在保证快速识别数据的同时,提高了数据识别的准确性具有重要的价值。
技术实现思路
[0003]本专利技术的技术任务是针对上述存在的问题,提供一种能够降低人工操作,使数据识别更加高效,并且提高数据识别的准确性及可信度的基于机器学习的数据智能识别的方法。
[0004]为实现上述目的,本专利技术提供了如下技术方案:
[0005]一种基于机器学习的数据智能识别的方法,通过完成元数据采集,根据指定机器学习算法匹配数据元,获得数据元集合,根据数据元集合匹配到标准资源目录,完
【技术保护点】
【技术特征摘要】
1.一种基于机器学习的数据智能识别的方法,其特征在于:该方法通过完成元数据采集,根据指定机器学习算法匹配数据元,获得数据元集合,根据数据元集合匹配到标准资源目录,完成数据识别。2.根据权利要求1所述的基于机器学习的数据智能识别的方法,其特征在于:包括以下步骤:S1、采集元数据;S2、元数据识别数据元算法;S3、根据机器学习算法匹配数据元,获得数据元集合;S4、识别标准资源目录算法;S5、根据数据元集合匹配到标准资源目录。3.根据权利要求2所述的基于机器学习的数据智能识别的方法,其特征在于:元数据识别数据元算法包括以下过程:1)基础识别,根据字段中文、英文名称及类型识别数据元;2)值域识别;3)正则识别;4)识别结果加权。4.根据权利要求3所述的基于机器学习的数据智能识别的方法,其特征在于:基础识别包括以下过程:a、根据字段中文、英文名称查询数据元,获取结果,若结果为空,执行b,否则执行c;b、根据字段中文名称查询同义词,获取结果,若结果为空,执行2),否则执行c;c、根据字段类型与获取结果的类型进行一致性校验,将类型不一致的数据元去除。5.根据权利要求4所述的基于机器学习的数据智能识别的方法,其特征在于:值域识别过程中抽取表中抽样数据,...
【专利技术属性】
技术研发人员:王文文,路国隋,
申请(专利权)人:浪潮软件科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。