一种字段含义识别方法和装置制造方法及图纸

技术编号:21432510 阅读:21 留言:0更新日期:2019-06-22 12:00
本说明书提供一种字段含义识别方法和装置,先将不同用户调用某个字段时对应使用的不同别名汇总为所述字段的别名数据集,再对这个字段别名数据集中的各个别名进行语义解析,根据解析结果确定所述待识别字段的识别结果。本说明书提供的字段含义识别方法的数据识别的维度有别于传统方案,可以在不依赖数据自身特征和字段命名规范性的前提下,根据用户的累积性调用行为对字段的含义进行自动化识别。

【技术实现步骤摘要】
一种字段含义识别方法和装置
本说明书涉及互联网领域,尤其涉及一种字段含义识别方法和装置。
技术介绍
数据类型识别是数据库和大数据平台在做数据资产管理和数据安全管理中必不可少的一环,而数据类型的定义与其所在业务背景的相关性很强,如:交易金额,转账金额,预付金额,退款金额,虽然都是金额,但是代表着不同的业务含义。在进行数据资产管理时,获取到一个字段后,还需要分辨这个字段所对应的具体数据类型,通常来讲,每个公司在定义数据类型的场景和口径可能不一致,单个公司中不同项目在定义数据类型的场景和口径也可能不一致。因此数据管理需要面临数据类型的识别问题。目前市面上主流的字段含义识别方式有两种:一是基于数据自身特征确定数据类型(如通过数据自身结构识别出身份证、手机号、邮箱等数据类型),但可根据自身特征进行识别的数据类型相对较少,覆盖率低;二是基于字段自身的命名规则(例如交易金额的字段名可能包含了pay_amount关键字)进行识别,但这种方式非常依赖字段命名的规范性,如果命名不规范的话,会导致识别失败。综上,目前缺少一种字段含义识别机制,可以在不依赖数据自身特征和字段命名规范性的前提下,针对字段的类型进行自动化识别。
技术实现思路
针对上述技术问题,本说明书实施例提供一种字段含义识别方法和装置,技术方案如下:根据本说明书实施例的第一方面,提供一种字段含义识别方法,该方法包括:获取待识别字段;获取预设历史时间段内不同用户调用所述字段时对应使用的不同别名,所述别名为用户针对所述字段设置的自定义指令,用户在进行字段调用时,可通过输入别名代替输入包含所述字段的调用指令;将不同用户调用所述字段时对应使用的不同别名汇总为所述字段的别名数据集,对所述别名数据集中的各个别名进行语义解析,根据解析结果确定所述待识别字段的识别结果。根据本说明书实施例的第二方面,提供一种字段含义识别装置,该装置包括:字段获取模块:用于获取待识别字段;别名获取模块:用于获取预设历史时间段内不同用户调用所述字段时对应使用的不同别名,所述别名为用户针对所述字段设置的自定义指令,用户在进行字段调用时,可通过输入别名代替输入包含所述字段的调用指令;语义解析模块:用于将不同用户调用所述字段时对应使用的不同别名汇总为所述字段的别名数据集,对所述别名数据集中的各个别名进行语义解析,根据解析结果确定所述待识别字段的识别结果。根据本说明书实施例的第三方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现一种字段含义识别方法,该方法包括:获取待识别字段;获取预设历史时间段内不同用户调用所述字段时对应使用的不同别名,所述别名为用户针对所述字段设置的自定义指令,用户在进行字段调用时,可通过输入别名代替输入包含所述字段的调用指令;将不同用户调用所述字段时对应使用的不同别名汇总为所述字段的别名数据集,对所述别名数据集中的各个别名进行语义解析,根据解析结果确定所述待识别字段的识别结果。本说明书实施例所提供的技术方案,先将不同用户调用某个字段时对应使用的不同别名汇总为所述字段的别名数据集,再对这个字段别名数据集中的各个别名进行语义解析,根据解析结果确定所述待识别字段的识别结果。本说明书提供的字段含义识别方法的数据识别的维度有别于传统方案,可以在不依赖数据自身特征和字段命名规范性的前提下,根据用户的累积性调用行为对字段的含义进行自动化识别。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书实施例。此外,本说明书实施例中的任一实施例并不需要达到上述的全部效果。附图说明为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。图1是本说明书一示例性实施例示出的字段含义识别方法的一种流程图;图2是本说明书一示例性实施例示出的字段别名的一种示意图;图3是本说明书一示例性实施例示出的字段含义识别方法的另一种流程图;图4是本说明书一示例性实施例示出的字段含义识别方法的一种示意图;图5是本说明书一示例性实施例示出的一种计算机设备的结构示意图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。数据类型识别是数据库和大数据平台在做数据资产管理和数据安全管理中必不可少的一环,而数据类型的定义与其所在业务背景的相关性很强,如:交易金额,转账金额,预付金额,退款金额,虽然都是金额,但是代表着不同的业务含义。在进行数据资产管理时,获取到一个字段后,还需要分辨这个字段所对应的具体数据类型,通常来讲,每个公司在定义数据类型的场景和口径可能不一致,单个公司中不同项目在定义数据类型的场景和口径也可能不一致。因此数据管理需要面临数据类型的识别问题。目前市面上主流的字段含义识别方式有两种:一是基于数据自身特征确定数据类型(如通过数据自身结构识别出身份证、手机号、邮箱等数据类型),但可根据自身特征进行识别的数据类型相对较少,覆盖率低;二是基于字段自身的命名规则(例如交易金额的字段名可能包含了pay_amount关键字)进行识别,但这种方式非常依赖字段命名的规范性,如果命名不规范的话,会导致识别失败。综上,目前缺少一种字段含义识别机制,可以在不依赖数据自身特征和字段命名规范性的前提下,针对字段的类型进行自动化识别。针对以上问题,本说明书实施例提供一种字段含义识别方法,以及一种用于执行该方法的字段含义识别装置。下面对本实施例涉及的字段含义识别方法进行详细说明,参见图1所示,该方法可以包括以下步骤:S101,获取待识别字段;S102,获取预设历史时间段内不同用户调用所述字段时对应使用的不同别名,所述别名为用户针对所述字段设置的自定义指令,用户在进行字段调用时,可通过输入别名代替输入包含所述字段的调用指令;由于数据类型的定义与其所在业务背景的相关性很强,如:交易金额,转账金额,预付金额,退款金额,虽然都是金额,但是代表着不同的业务含义。在不同业务背景下,同样的字段也可能本文档来自技高网...

【技术保护点】
1.一种字段含义识别方法,所述方法包括:获取待识别字段;获取预设历史时间段内不同用户调用所述字段时对应使用的不同别名,所述别名为用户针对所述字段设置的自定义指令,用户在进行字段调用时,可通过输入别名代替输入包含所述字段的调用指令;将不同用户调用所述字段时对应使用的不同别名汇总为所述字段的别名数据集,对所述别名数据集中的各个别名进行语义解析,根据解析结果确定所述待识别字段的识别结果。

【技术特征摘要】
1.一种字段含义识别方法,所述方法包括:获取待识别字段;获取预设历史时间段内不同用户调用所述字段时对应使用的不同别名,所述别名为用户针对所述字段设置的自定义指令,用户在进行字段调用时,可通过输入别名代替输入包含所述字段的调用指令;将不同用户调用所述字段时对应使用的不同别名汇总为所述字段的别名数据集,对所述别名数据集中的各个别名进行语义解析,根据解析结果确定所述待识别字段的识别结果。2.如权利要求1所述的方法,对所述别名数据集中的各个别名进行语义解析,根据解析结果确定所述待识别字段的识别结果,包括:使用预定的语义拆解算法拆解别名数据集内的任一别名,以获取组成所述别名的不同语义项;使用预定的语义组合算法对同一别名数据集内拆解出的不同语义项进行筛选组合,将组合结果确定为所述待识别字段的识别结果。3.如权利要求2所述的方法,使用预定的语义组合算法对同一别名数据集内拆解出的不同语义项进行筛选组合,将组合结果确定为所述待识别字段的识别结果,包括:将同一别名数据集内拆解出的各个语义项按照语义进行归类,获取至少一个包含多个同义语义项的同义语义模块;计算同义语义模块中各个同义语义项的主题相关度,将主题相关度高于预设阈值的不同语义项组合成所述字段的识别结果。4.如权利要求1所述的方法,将不同用户调用所述字段时对应使用的不同别名汇总为所述字段的别名数据集,包括:记录预设历史时间段内,所述字段的不同别名的被调用次数;将所述字段的不同别名和任一别名的对应被调用次数汇总为所述字段的别名数据集。5.如权利要求1所述的方法,将不同用户调用所述字段时对应使用的不同别名汇总为所述字段的别名数据集后,还包括:对所述别名数据集进行同义词处理,以合并所述别名数据集中包含的同义别名。6.一种字段含义识别装置,所述装置包括:字段获取模块:用于获取待识别字段;别名获取模块:用于获取预设...

【专利技术属性】
技术研发人员:吉亚霖
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1