【技术实现步骤摘要】
一种基于海量数据的字段级标签标注方法和系统
[0001]本专利技术涉及数据标签标注
,尤其涉及一种基于海量数据的字段级标签标注方法、系统、电子设备和计算机可读存储介质。
技术介绍
[0002]标签是一种用来描述业务实体特征的数据形式。通过标签对业务实体进行刻画,从多角度反映业务实体的特征。好的数据及标签体系可以转化为良好的客户体验,对客户的了解越多,就越能给他们带来他们所期望的体验。因此,标签成为了无价的商业资产,为社会发展提供更宏观且精准的数据呈现。通常,每种业务实体关联的数据非常多,并且结构复杂,这些关联数据包括结构化数据和半结构化数据等,比如对自然人进行刻画时,包含有性别、年龄、地区、兴趣爱好、产品偏好等各个角度。
[0003]当前的业务实体数据标签的标注过程中,大多基于国外开源技术加以简单包装实现,具有一定的信息安全风险;此外,在海量数据的应用场景下,对数据库和标签数据进行查询时,存在查询耗时长、内存耗费过大的问题。
[0004]因此,现有的标签标注方法在如今复杂的海量数据场景和对实时性要求颇高 ...
【技术保护点】
【技术特征摘要】
1.一种基于海量数据的字段级标签标注方法,其特征在于,包括:创建数据标签模型库;获取业务数据,根据所述标签模型库,对所述业务数据进行标签关联,得到绑定有数据标签的标签业务数据;将所述标签业务数据存放到数据库中,得到标签业务数据库。2.根据权利要求1所述的一种基于海量数据的字段级标签标注方法,其特征在于,创建数据标签模型库包括:获取样本数据;解析所述样本数据的每个字段,得到所述样本数据的属性字段;根据所述属性字段创建数据标签,并建立所述数据标签与所述属性字段的关联关系集合;根据所述数据标签和所述关联关系集合,得到标签模型库。3.根据权利要求2所述的一种基于海量数据的字段级标签标注方法,其特征在于,所述业务数据包括元数据和数据主体;根据所述标签模型库,对所述业务数据进行标签关联,包括:解析所述元数据,获取所述标签模型库中与所述元数据相关联的数据标签;根据所述数据标签对所述元数据对应的数据主体进行标签标注。4.根据权利要求3所述的一种基于海量数据的字段级标签标注方法,其特征在于,解析所述元数据,获取所述标签模型库中与所述元数据相关联的数据标签,包括:解析所述元数据的所有字段,得到所述元数据的字段列表;根据所述标签模型库中的关联关系集合,得到所述标签模型库中与所述字段列表中任一字段相关联的标签数据。5.根据权利要求1所述的一种基于海量数据的字段级标...
【专利技术属性】
技术研发人员:高伟,张永强,李亚玲,张颖,
申请(专利权)人:武汉达梦数据技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。