一种字段类型的确定方法、装置及电子设备制造方法及图纸

技术编号:38717415 阅读:13 留言:0更新日期:2023-09-08 15:00
本申请公开了一种字段类型的确定方法、装置及电子设备,确定方法包括:确定待识别字段所属的目标类型;在待识别字段所属的目标类型为多个的情况下,确定每个目标类型对应的目标字段模式;基于目标字段模式和字段共现数据库,从多个目标类型中确定出待识别字段所属的最终类型,其中,字段共现数据库包括多个历史字段模式,每个历史字段模式包括的多个不同类型的字段按照预设字段顺序排列。本申请通过该字段共现数据库能够准确的识别字段所属的最终类型,提高了数据的安全性;该字段共现数据库包括多个历史字段模式,每个历史字段模式包括的多个不同类型的字段按照预设字段顺序排列,也即该字段共现数据库能够根据需求进行调整,通用性较高。通用性较高。通用性较高。

【技术实现步骤摘要】
一种字段类型的确定方法、装置及电子设备


[0001]本申请涉及字段类型识别的
,特别涉及一种字段类型的确定方法、装置及电子设备。

技术介绍

[0002]数据成为新型生产要素,数据在共享和流程过程中,数据安全成为一个最重要的挑战。
[0003]目前,在识别数据是否为敏感类型的数据时,通常采用人工梳理的规则进行识别(如将包含省、市、县,且长度在10

20之间的文本识别为地址),或基于人工标注的敏感数据训练敏感类型识别模型进行识别等方法。但对于部分类型不清晰的字段,识别其所属类型会比较困难,如“程序员”即满足职业的识别规则,也满足姓名的判断规则,因此,上述识别方法中均无法准确的确定其所属的类型。

技术实现思路

[0004]本申请实施例的目的在于提供一种字段类型的确定方法、装置及电子设备,能够准确的识别字段所属的字段类型。
[0005]第一方面,本申请实施例提供了一种字段类型的确定方法,包括:
[0006]确定待识别字段所属的目标类型;
[0007]在所述待识别字段所属的目标类型为多个的情况下,确定每个所述目标类型对应的目标字段模式;
[0008]基于所述目标字段模式和字段共现数据库,从多个所述目标类型中确定出所述待识别字段所属的最终类型,其中,所述字段共现数据库包括多个历史字段模式,每个所述历史字段模式包括的多个不同类型的字段按照预设字段顺序排列。
[0009]在一种可能的实施方式中,所述确定所述待识别字段所属的目标类型,包括:/>[0010]基于识别规则和/或识别模型,对所述待识别字段进行识别,得到所述待识别字段所属的目标类型。
[0011]在一种可能的实施方式中,所述在所述待识别字段所属的目标类型为多个的情况下,确定每个所述目标类型对应的目标字段模式,包括:
[0012]在所述待识别字段所属的目标类型为多个的情况下,针对每个所述目标类型,按照所述预设字段顺序排列所述待识别字段和其他字段,得到该目标类型对应的目标字段模式;
[0013]其中,所述待识别字段与所述其他字段同属于一个待识别文本。
[0014]在一种可能的实施方式中,所述针对每个所述目标类型,按照所述预设字段顺序排列所述待识别字段和其他字段,得到该目标类型对应的目标字段模式,包括:
[0015]针对每个所述目标类型,对所述待识别字段和其他字段进行赋值,得到所述待识别字段以及每个所述其他字段对应的第一数值;
[0016]按照所述预设字段顺序排列所述第一数值和第二数值,得到该目标类型对应的目标字段模式,其中,第二数值为所述预设字段顺序中存在且所述待识别文本中未存在的字段对应的数值。
[0017]在一种可能的实施方式中,所述基于所述目标字段模式和字段共现数据库,从多个所述目标类型中确定出所述待识别字段所属的最终类型,包括:
[0018]针对每个所述目标字段模式,确定该目标字段模式与每个所述历史字段模式之间的相似度值;
[0019]将所述相似度值最高的历史字段模式中,所述待识别字段对应的类型确定为所述最终类型。
[0020]在一种可能的实施方式中,所述将所述相似度值最高的历史字段模式中,所述待识别字段对应的类型确定为所述最终类型,包括:
[0021]在所述相似度值最高的历史字段模式为多个的情况下,筛选所述字段共现数据库中数量最多的相似度值最高的历史字段模式;
[0022]将所述字段共现数据库中数量最多、相似度值最高的历史字段模式中,所述待识别字段对应的类型确定为所述最终类型。
[0023]在一种可能的实施方式中,所述确定方法还包括:
[0024]若所述字段共现数据库中数量最多、相似度值最高的历史字段模式,存在两个或两个以上,将所述字段共现数据库中数量最多、相似度值最高的历史字段模式展示给用户,以使所述用户确定所述最终类型。
[0025]在一种可能的实施方式中,在确定每个待识别字段所属的目标类型之前,还包括:
[0026]获取待识别文本;
[0027]对所述待识别文本进行语义分析,得到一个或多个待识别字段。
[0028]第二方面,本申请实施例还提供了一种字段类型的确定装置,包括:
[0029]第一确定模块,其配置为确定待识别字段所属的目标类型;
[0030]第二确定模块,其配置为在所述待识别字段所属的目标类型为多个的情况下,确定每个所述目标类型对应的目标字段模式;
[0031]第三确定模块,其配置为基于所述目标字段模式和字段共现数据库,从多个所述目标类型中确定出所述待识别字段所属的最终类型,其中,所述字段共现数据库包括多个历史字段模式,每个所述历史字段模式包括的多个不同类型的字段按照预设字段顺序排列。
[0032]第三方面,本申请实施例还提供了一种存储介质,其中,该计算机程序被处理器运行时执行如上述任意一项所述的字段类型的确定方法的步骤。
[0033]第四方面,本申请实施例还提供了一种电子设备,其中,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述任意一项所述的字段类型的确定方法的步骤。
[0034]本申请实施例中,在确定待识别字段所属的目标类型为多个的情况下,确定每个目标类型对应的目标字段模式,基于目标字段模式和字段共现数据库,从多个目标类型中确定出待识别字段所属的最终类型,通过该字段共现数据库能够准确的识别字段所属的字
段类型,在一定程度上提高了数据的安全性;并且,该字段共现数据库包括多个历史字段模式,每个历史字段模式包括的多个不同类型的字段按照预设字段顺序排列,也即该字段共现数据库能够根据需求进行调整,通用性较高。
附图说明
[0035]为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0036]图1示出了本申请所提供的一种字段类型的确定方法的流程图;
[0037]图2示出了本申请所提供的一种字段类型的确定方法中基于目标字段模式和字段共现数据库,从多个目标类型中确定出待识别字段所属的最终类型的流程图;
[0038]图3示出了本申请所提供的一种确定待识别字段所属最终类型的流程示意图;
[0039]图4示出了本申请所提供的一种字段类型的确定装置的结构示意图;
[0040]图5示出了本申请所提供的一种电子设备的结构示意图。
具体实施方式
[0041]此处参考附图描述本申请的各种方案以及特征。
[0042]应理解的是,可以对此处申请的实施例做出各种修改。因此,上述说明书不应该视为限制,而仅是作为实施例的范本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种字段类型的确定方法,包括:确定待识别字段所属的目标类型;在所述待识别字段所属的目标类型为多个的情况下,确定每个所述目标类型对应的目标字段模式;基于所述目标字段模式和字段共现数据库,从多个所述目标类型中确定出所述待识别字段所属的最终类型,其中,所述字段共现数据库包括多个历史字段模式,每个所述历史字段模式包括的多个不同类型的字段按照预设字段顺序排列。2.根据权利要求1所述的确定方法,所述确定所述待识别字段所属的目标类型,包括:基于识别规则和/或识别模型,对所述待识别字段进行识别,得到所述待识别字段所属的目标类型。3.根据权利要求1所述的确定方法,所述在所述待识别字段所属的目标类型为多个的情况下,确定每个所述目标类型对应的目标字段模式,包括:在所述待识别字段所属的目标类型为多个的情况下,针对每个所述目标类型,按照所述预设字段顺序排列所述待识别字段和其他字段,得到该目标类型对应的目标字段模式;其中,所述待识别字段与所述其他字段同属于一个待识别文本。4.根据权利要求3所述的确定方法,所述针对每个所述目标类型,按照所述预设字段顺序排列所述待识别字段和其他字段,得到该目标类型对应的目标字段模式,包括:针对每个所述目标类型,对所述待识别字段和其他字段进行赋值,得到所述待识别字段以及每个所述其他字段对应的第一数值;按照所述预设字段顺序排列所述第一数值和第二数值,得到该目标类型对应的目标字段模式,其中,第二数值为所述预设字段顺序中存在且所述待识别文本中未存在的字段对应的数值。5.根据权利要求1所述的确定方法,所述基于所述目标字段模式和字段共现数据库,从多个所述目标类型中确定出所述待识别字段所属的最终类型,包括:针对每个所述目标字段模式,确定该目标字段模式与每个所述历史字段模式之间的相...

【专利技术属性】
技术研发人员:吴高
申请(专利权)人:联想北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1