【技术实现步骤摘要】
一种数据标签生成方法及装置
本申请涉及数据管理
,尤其涉及一种数据标签生成方法及装置。
技术介绍
数据标签是一种能够描述业务实体特征的数据形式。其通过对业务实体的属性进行刻画,反应业务实体的特征。其中,当一个业务实体拥有多个标签时,其可以反映业务实体的多方面的特征。由于不同数据的属性代表的含义和分布情况不同,且不同业务场景需要的数据标签反映了业务实体不同的方面的特征,目前需要根据特定的业务实体的属性和业务场景的需求制定特定的分类规则,再根据该特定的分类规则生成特定的数据标签,耗费了大量的时间和精力,标签生成效率低。
技术实现思路
为了解决上述技术问题,本申请提供了一种数据标签生成方法及装置,该方法用于自动生成与业务实体属性和业务场景对应的标签。为了实现上述目的,本申请实施例提供的技术方案如下:本申请实施例提供一种数据标签生成方法,所述方法包括:获取数据库表结构中的多个表字段;逐个确定所述多个表字段的数据类型;当表字段的数据类型为主关键字时,将该表字段作 ...
【技术保护点】
1.一种数据标签生成方法,其特征在于,所述方法包括:/n获取数据库表结构中的多个表字段;/n逐个确定所述多个表字段的数据类型;/n当表字段的数据类型为主关键字时,将该表字段作为所述第一类表字段,将所述第一类表字段与第一业务实体对应的数据作为所述第一业务实体的标识;/n当表字段的数据类型不为主关键字且为数值类型时,将该表字段作为第二类表字段,根据所述第二类表字段与所述第一业务实体对应的数值所在的数值区间得到所述第一业务实体的第一标签;/n当表字段的数据类型不为主关键字且为文本类型时,将该表字段作为第三类表字段,根据所述第三类表字段与所述第一业务实体对应的文本内容得到所述第一业 ...
【技术特征摘要】
1.一种数据标签生成方法,其特征在于,所述方法包括:
获取数据库表结构中的多个表字段;
逐个确定所述多个表字段的数据类型;
当表字段的数据类型为主关键字时,将该表字段作为所述第一类表字段,将所述第一类表字段与第一业务实体对应的数据作为所述第一业务实体的标识;
当表字段的数据类型不为主关键字且为数值类型时,将该表字段作为第二类表字段,根据所述第二类表字段与所述第一业务实体对应的数值所在的数值区间得到所述第一业务实体的第一标签;
当表字段的数据类型不为主关键字且为文本类型时,将该表字段作为第三类表字段,根据所述第三类表字段与所述第一业务实体对应的文本内容得到所述第一业务实体的第二标签;
根据所述标识以及所述第一标签和/或所述第二标签生成所述第一业务实体的标签。
2.根据权利要求1所述的方法,其特征在于,所述数据库表结构中的所有业务实体的第一标签为同步生成的;
所述数据库表结构中的所有业务实体的第二标签为同步生成的。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获得数据库表结构中所述第二类表字段的数值;所述第二类表字段的数为所有业务实体对应的第二类表字段的数值;
根据所述第二类表字段的数值获得所述第二类表字段的数值的总区间;
对所述总区间进行划分,得到所述数值区间集合;
所述根据所述第二类表字段与所述第一业务实体对应的数值所在的数值区间得到所述第一业务实体的第一标签,包括:
根据所述第二类表字段与所述第一业务实体对应的数值在所述数值区间集合中的数值区间,得到所述第一业务实体的第一标签。
4.根据权利要求3所述的方法,其特征在于,所述对所述总区间进行划分,得到所述数值区间集合,包括:
通过对所述数值总区间进行等比划分,得到第一区间集合;
通过对所述数值总区间进行等差划分,得到第二区间集合;
根据所述第一区间集合中的各个第一区间包含的所述业务实体数量获得第一分布信息;
根据所述第二区间集合中的各个第二区间包含的所述业务实体数量获得第二分布信息;
当所述第一分布信息的均衡性优于所述第二分布信息的均衡性时,将所述第一区间集合作为所述数值区间集合;
当所述第二分布信息的均衡性优于所述第一分布信息的均衡性时,将所述第二区间集合作为所述数值区间集合。
5.根据权利要求1所述的方法,其特征在于,还包括:
对于同一个第二类表字段,当数据库表结构中所有业务实体的第一标签的种类数超过第一阈值时,删除所述第一标签;
对于同一个第三类表字段,当数据库表结构中所有业务实体的第二标签的种类数超过第一阈值时,删除所述第二标签。
6.根据权利要求1所述的方法,其特征在于,当...
【专利技术属性】
技术研发人员:刘惠民,孙琳,孔伟国,姚张钰,任肖军,
申请(专利权)人:中国农业银行股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。