【技术实现步骤摘要】
代码字段识别方法、装置、电子设备及存储介质
[0001]本专利技术涉及数据处理
,尤其涉及一种代码字段识别方法、装置、电子设备及存储介质。
技术介绍
[0002]在政务、企业的大数据平台建设过程中,需要从众多的业务系统中抽取大量的业务系统表到数据仓库中,然后再对表中的业务数据进行清洗加工,使其成为可以再使用的数据资源。在数据治理的过程中,识别出业务系统表中的代码字段是一项重要任务,只有识别出代码字段,才能对该字段的数据质量进行判断,再通过加工处理,形成关键、标准的数据资源。
[0003]相关技术中,通过人工方式识别代码字段,效率低下。
技术实现思路
[0004]为克服相关技术中存在的问题,本专利技术提供了一种代码字段识别方法、装置、电子设备及存储介质,提高代码字段识别的效率。
[0005]根据本专利技术实施例的第一方面,提供一种代码字段识别方法,所述方法包括:
[0006]对数据表的目标字段的值进行统计,得到统计数据;
[0007]若所述统计数据满足预设条件,根据所述统计 ...
【技术保护点】
【技术特征摘要】
1.一种代码字段识别方法,其特征在于,所述方法包括:对数据表的目标字段的值进行统计,得到统计数据;若所述统计数据满足预设条件,根据所述统计数据获得所述目标字段对应的预设字段特征的特征值;将所述特征值输入已训练好的代码字段识别模型,根据所述代码字段识别模型的输出结果确定所述目标字段是否为代码字段。2.根据权利要求1所述的方法,其特征在于,根据所述统计数据获得所述目标字段对应的预设字段特征的特征值,包括:对所述统计数据进行清洗,得到目标数据;根据所述目标数据,确定所述目标字段对应的预设字段特征的特征值。3.根据权利要求1所述的方法,其特征在于,所述代码字段识别模型的获取过程,包括:设置机器学习模型;获取样本数据,所述样本数据包括样本字段对应的预设字段特征的特征值和样本字段对应的标签值,所述标签值用于指示样本字段是否为代码字段;利用所述样本数据对所述机器学习模型进行训练,得到训练完毕的机器学习模型,以所述训练完毕的机器学习模型作为代码字段识别模型。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述目标字段对应的目标词向量;将所述特征值输入已训练好的代码字段识别模型,根据所述代码字段识别模型的输出结果确定所述目标字段是否为代码字段,包括:将所述特征值和所述目标词向量输入已训练好的代码字段识别模型,根据所述代码字段识别模型的输出结果确定所述目标字段是否为代码字段。5.根据权利要求1所述的方法,其特征在于,所述预设字段特征包括字段的统计记录数、代码种类数、各代码出现次数中的最大值和最小值、实际记录数;其中,实际记录数等于统计记录数与第一比值的乘积,第一比值为目标字段的实际总记录数与统计中采样的记录数的比值。6.根据权利要求1所述的方法,其特征在于,所述统计数据包括统计记录数、空置率、代码分布。7.根据权利要求1所述的方法,其特征在于,所述预设条件为所述统计结果中所述目标字段的值的空置率小于预设的空置率阈值、且所述统计结果中所述目标字段的代码分布数据不为空。8.根据权利要求1所述的方法,其特征在于,还包括:若确定所述目标字段是代码字段,根据所述目标字段中包含的字典名和对应的字典值,生成字典表。9.根据权利要求1所述的方法,其特征在于,还包括:若确定所述目标字段是代码字段,根据所述目标字段中包含的字典名和对应的字典值,修改已有的字典表。10.根据权利要求1所述的方法,其特征在于,根据所述目标字段中包含的字典名和对应的字典值,修改已有的字典表,包括:
...
【专利技术属性】
技术研发人员:李云锋,李鹏飞,王倩,
申请(专利权)人:杭州数梦工场科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。