代码字段识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:29210543 阅读:23 留言:0更新日期:2021-07-10 00:47
本发明专利技术实施例提供一种代码字段识别方法、装置、电子设备及存储介质。本发明专利技术实施例通过对数据表的目标字段的值进行统计,得到统计数据,若所述统计数据满足预设条件,根据所述统计数据获得所述目标字段对应的预设字段特征的特征值,将所述特征值输入已训练好的代码字段识别模型,根据所述代码字段识别模型的输出结果确定所述目标字段是否为代码字段,减少了人工投入,提高了代码字段识别的效率。提高了代码字段识别的效率。提高了代码字段识别的效率。

【技术实现步骤摘要】
代码字段识别方法、装置、电子设备及存储介质


[0001]本专利技术涉及数据处理
,尤其涉及一种代码字段识别方法、装置、电子设备及存储介质。

技术介绍

[0002]在政务、企业的大数据平台建设过程中,需要从众多的业务系统中抽取大量的业务系统表到数据仓库中,然后再对表中的业务数据进行清洗加工,使其成为可以再使用的数据资源。在数据治理的过程中,识别出业务系统表中的代码字段是一项重要任务,只有识别出代码字段,才能对该字段的数据质量进行判断,再通过加工处理,形成关键、标准的数据资源。
[0003]相关技术中,通过人工方式识别代码字段,效率低下。

技术实现思路

[0004]为克服相关技术中存在的问题,本专利技术提供了一种代码字段识别方法、装置、电子设备及存储介质,提高代码字段识别的效率。
[0005]根据本专利技术实施例的第一方面,提供一种代码字段识别方法,所述方法包括:
[0006]对数据表的目标字段的值进行统计,得到统计数据;
[0007]若所述统计数据满足预设条件,根据所述统计数据获得所述目标字段对应的预设字段特征的特征值;
[0008]将所述特征值输入已训练好的代码字段识别模型,根据所述代码字段识别模型的输出结果确定所述目标字段是否为代码字段。
[0009]根据本专利技术实施例的第二方面,提供一种代码字段识别装置,所述装置包括:
[0010]统计模块,用于对数据表的目标字段的值进行统计,得到统计数据;
[0011]特征值获得模块,用于若所述统计数据满足预设条件,根据所述统计数据获得所述目标字段对应的预设字段特征的特征值;
[0012]确定模块,用于将所述特征值输入已训练好的代码字段识别模型,根据所述代码字段识别模型的输出结果确定所述目标字段是否为代码字段。
[0013]根据本专利技术实施例的第三方面,提供一种电子设备,包括处理器以及用于存储所述处理器的可执行指令的存储器;
[0014]所述处理器被配置为:
[0015]对数据表的目标字段的值进行统计,得到统计数据;
[0016]若所述统计数据满足预设条件,根据所述统计数据获得所述目标字段对应的预设字段特征的特征值;
[0017]将所述特征值输入已训练好的代码字段识别模型,根据所述代码字段识别模型的输出结果确定所述目标字段是否为代码字段。
[0018]根据本专利技术实施例的第四方面,提供一种计算机可读存储介质,所述计算机可读
存储介质上存储有若干计算机指令,所述计算机指令被执行时进行如下处理:
[0019]对数据表的目标字段的值进行统计,得到统计数据;
[0020]若所述统计数据满足预设条件,根据所述统计数据获得所述目标字段对应的预设字段特征的特征值;
[0021]将所述特征值输入已训练好的代码字段识别模型,根据所述代码字段识别模型的输出结果确定所述目标字段是否为代码字段。
[0022]本专利技术实施例提供的技术方案可以包括以下有益效果:
[0023]本专利技术实施例,通过对数据表的目标字段的值进行统计,得到统计数据,若所述统计数据满足预设条件,根据所述统计数据获得所述目标字段对应的预设字段特征的特征值,将所述特征值输入已训练好的代码字段识别模型,根据所述代码字段识别模型的输出结果确定所述目标字段是否为代码字段,减少了人工投入,提高了代码字段识别的效率。
[0024]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书。
附图说明
[0025]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本说明书的实施例,并与说明书一起用于解释本说明书的原理。
[0026]图1是本专利技术实施例提供的代码字段识别方法的流程示例图。
[0027]图2是本专利技术实施例提供的代码字段识别装置的功能方块图。
[0028]图3是本专利技术实施例提供的电子设备的一个硬件结构图。
具体实施方式
[0029]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本专利技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本专利技术实施例的一些方面相一致的装置和方法的例子。
[0030]在本专利技术实施例使用的术语是仅仅出于描述特定本专利技术实施例的目的,而非旨在限制本专利技术实施例。在本专利技术实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0031]应当理解,尽管在本专利技术实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本专利技术实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
[0032]在一个业务系统中,如果一个业务字段存储的值是有限范围的数值或代码,这样的字段我们称之为代码字段。例如中国的民族,其取值不能超出56个,否则可以视为异常数据。
[0033]在数据治理过程中,识别出代码字段对数据进行标准化清洗非常的重要。相关技
术中,通过人工方式来识别代码字段。
[0034]其中的一种方式是:数据架构师通过与业务系统的建设方沟通确认代码字段。
[0035]另一种方式是:数据架构师自己去分析数据库中的记录,根据自己的经验来判断代码字段。
[0036]由上述两种方式可见,人工识别代码字段的弊端显而易见,即需要耗费大量人的精力和时间,工作量非常巨大。这不仅使得代码字段识别所需要的人力成本极高,而且需要的时间长,效率低。
[0037]下面通过实施例对本专利技术提供的代码字段识别方法进行详细说明。
[0038]图1是本专利技术实施例提供的代码字段识别方法的流程示例图。如图1所示,代码字段识别方法可以包括:
[0039]S101,对数据表的目标字段的值进行统计,得到统计数据。
[0040]S102,若所述统计数据满足预设条件,根据所述统计数据获得所述目标字段对应的预设字段特征的特征值。
[0041]S103,将所述特征值输入已训练好的代码字段识别模型,根据所述代码字段识别模型的输出结果确定所述目标字段是否为代码字段。
[0042]本实施例中,目标字段是需要进行代码字段识别的字段。例如,当需要从数据表1中识别出代码字段时,可以根据本实施例提供的代码字段识别方法对数据表1中的每个字段分别进行识别,此时,数据表中的每个字段均为目标字段。
[0043]在应用中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种代码字段识别方法,其特征在于,所述方法包括:对数据表的目标字段的值进行统计,得到统计数据;若所述统计数据满足预设条件,根据所述统计数据获得所述目标字段对应的预设字段特征的特征值;将所述特征值输入已训练好的代码字段识别模型,根据所述代码字段识别模型的输出结果确定所述目标字段是否为代码字段。2.根据权利要求1所述的方法,其特征在于,根据所述统计数据获得所述目标字段对应的预设字段特征的特征值,包括:对所述统计数据进行清洗,得到目标数据;根据所述目标数据,确定所述目标字段对应的预设字段特征的特征值。3.根据权利要求1所述的方法,其特征在于,所述代码字段识别模型的获取过程,包括:设置机器学习模型;获取样本数据,所述样本数据包括样本字段对应的预设字段特征的特征值和样本字段对应的标签值,所述标签值用于指示样本字段是否为代码字段;利用所述样本数据对所述机器学习模型进行训练,得到训练完毕的机器学习模型,以所述训练完毕的机器学习模型作为代码字段识别模型。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述目标字段对应的目标词向量;将所述特征值输入已训练好的代码字段识别模型,根据所述代码字段识别模型的输出结果确定所述目标字段是否为代码字段,包括:将所述特征值和所述目标词向量输入已训练好的代码字段识别模型,根据所述代码字段识别模型的输出结果确定所述目标字段是否为代码字段。5.根据权利要求1所述的方法,其特征在于,所述预设字段特征包括字段的统计记录数、代码种类数、各代码出现次数中的最大值和最小值、实际记录数;其中,实际记录数等于统计记录数与第一比值的乘积,第一比值为目标字段的实际总记录数与统计中采样的记录数的比值。6.根据权利要求1所述的方法,其特征在于,所述统计数据包括统计记录数、空置率、代码分布。7.根据权利要求1所述的方法,其特征在于,所述预设条件为所述统计结果中所述目标字段的值的空置率小于预设的空置率阈值、且所述统计结果中所述目标字段的代码分布数据不为空。8.根据权利要求1所述的方法,其特征在于,还包括:若确定所述目标字段是代码字段,根据所述目标字段中包含的字典名和对应的字典值,生成字典表。9.根据权利要求1所述的方法,其特征在于,还包括:若确定所述目标字段是代码字段,根据所述目标字段中包含的字典名和对应的字典值,修改已有的字典表。10.根据权利要求1所述的方法,其特征在于,根据所述目标字段中包含的字典名和对应的字典值,修改已有的字典表,包括:
...

【专利技术属性】
技术研发人员:李云锋李鹏飞王倩
申请(专利权)人:杭州数梦工场科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1