一种标签管理方法和装置制造方法及图纸

技术编号:35195594 阅读:15 留言:0更新日期:2022-10-12 18:24
本发明专利技术涉及标签管理技术领域,提供一种标签管理方法和装置,本发明专利技术的标签管理方法,包括:创建主体对象,后端对应地在ClickHouse仓库创建标签存储表;获取外部数据源,通过FLinkX将需要打标的数据库表结构以及数据映射到CLickHouse中,并与主体对象关联;在主体对象下创建静态标签;在主体对象下通过SQL或者拖拽模式创建动态标签;将主体对象下的动态标签和静态标签发布成API接口。根据本发明专利技术示例性实施例的标签管理方法及装置,可以加快标签数据生产速度;加快标签数据的就绪速度;减小查询请求平均响应时长;支持标签数据准实时更新;标签表达式和查询SQL对用户来说比较友好,提升系统的易维护性;打标和查询都在ClickHouse内处理,可以节约一半硬件资源。可以节约一半硬件资源。可以节约一半硬件资源。

【技术实现步骤摘要】
一种标签管理方法和装置


[0001]本专利技术涉及标签管理
,尤其涉及一种标签管理方法和装置。

技术介绍

[0002]标签是对平台业务数据的一种语义化表达,其既可以是对象的基础属性,也可以表示由原始数据进行计算、分析后得到的描述对象的某一特征属性。标签广泛运用于用户画像、产品画像等应用场景。
[0003]现有标签管理平台通过可视化的方式在界面上定义标签的计算过程,并通过大数据spark、hive、hbase等技术实现在pb级别数据中计算出复合业务需求的标签数据,进一步为用户分群、用户标签提供数据基础。标签管理平台是标签全生命周期管理平台,总体架构分为标签管理层、标签库、标签服务层三层。标签的生命周期分为创建、存储和查询。标签管理层以标签引擎为支撑,面向需求分析师提供拖拽、圈选、轻量级脚本等可视化标签规则定义模式,标签引擎自动解析标签规则,自动打标并落表,同时提供完备的标签管理及计量统计功能,实现标签的全生命周期管理。标签库是标签的载体,实现价值数据的沉淀,同时为标签对外服务提供资源支撑。标签服务层包含标签API服务、动态打标服务等一系列面向终端应用的服务,实现价值数据的快速服务化。
[0004]目前,领域内主要基于数据同步引擎(DataX)+大数据存储(Hive)+搜索引擎(ElasticSearch),实现标签创建过程的数据同步和数据存储、标签搜索,在实际应用中,标签创建过程步骤多、耗时长,并且存在以下缺陷:
[0005]1、数据同步效率低,创建标签依赖Datax平台将原始数据同步到标签存储引擎库,在大数据量场景下,同步速度较慢;标签创建成功后,需要再次借助DataX平台将数据同步至ElasticSearch,增加了系统的复杂性,降低了标签数据的使用效率。主体下标签数决定静态标签表的列数,当静态标签表列数过多,数据同步成为瓶颈。
[0006]2、数据实时性差,标签创建之前,需要根据创建规则预览部分标签数据,标签数据通过创建API服务的方式提供给外部平台使用,这要求查询响应时间不能太慢。标签存储到hive库,以用户标签为例,存储表结构为:创建一张userid为主键的画像表,表的其他字段为画像的特征字段,将圈选的人群与画像表进行in操作,然后group by操作,当增加或者删除特征字段时,画像表的表结构需要修改;当圈选的人群数量比较大时,涉及到大记录集的group by运算,hive语句执行性能差、执行延迟较高,不能快速获取查询结果,不适应实时场景。另一方面,生成的标签检索是通过将标签存储在ElasticSearch的大宽表中的,大宽表的结构是:在向大宽表插入数据时,需要等待业务的数据都准备好后才能跑关联表操作,然后将关联的结果插入到ElasticSearch。经常遇到某个业务方的任务延迟,导致插入ElasticSearch的关联任务无法执行,运营人员无法及时使用最新的画像数据。
[0007]3、数据冗余,数据规则为每个对象对应的每个标签的值占用一行存储空间,导致标签名称、标签值等数据项的大量冗余,标签打标会在静态标签表和动态标签表存储多条冗余数据。
[0008]4、标签语义单调,只能基于原始静态数据创建标签,不具备基于已有标签的聚合操作创建新标签的功能,单个标签所能描述的特征范围较小。打标过程完全依赖库表sql语句,一个主体对象只能选择一个数据源下的同一个数据库,不能用于不同源的不同库表关联查询打标。
[0009]因此,如何构建各种维度和语义的标签,并实现可以实时快速查询的标签管理平台是亟需解决的问题。
[0010]因此,如何提供一种高效、适用面更广的标签管理方法,成为亟待解决的技术问题。

技术实现思路

[0011]有鉴于此,本专利技术主要解决的是。
[0012]一方面,本专利技术提供一种标签管理方法,包括:
[0013]步骤S1:创建主体对象,后端对应地在ClickHouse仓库创建标签存储表;
[0014]步骤S2:获取外部数据源,通过FLinkX将需要打标的数据库表结构以及数据映射到CLickHouse中,并与主体对象关联;
[0015]步骤S3:在主体对象下创建静态标签;
[0016]步骤S4:在主体对象下通过SQL或者拖拽模式创建动态标签;
[0017]步骤S5:将主体对象下的动态标签和静态标签发布成API接口。进一步地,本专利技术标签管理方法的步骤S1中,标签存储表包括静态标签存储表和动态标签存储表,其中,静态标签存储表用于存储对象基本属性对应的数据,动态标签存储表用于存储经静态标签计算、聚合得到的能描述一批对象的标签。
[0018]进一步地,本专利技术标签管理方法的步骤S2,包括:
[0019]步骤S21:获取并保存外部数据源,从外部数据源中选择一张数据表作为标签数据源表;
[0020]步骤S22:获取标签数据源表中的字段信息并映射为ClickHouse字段类型;
[0021]步骤S23:根据字段组装建表语句,建立目标表并执行目标表中的建表语句;
[0022]步骤S24:将标签数据源表和目标表组装为FlinkX任务执行参数并提交至ClickHouse进行数据同步。
[0023]进一步地,本专利技术标签管理方法的步骤S3,包括:
[0024]步骤S31:选择已添加数据源表的一列或者多列作为标签数据来源;
[0025]步骤S32:静态标签存储表新增静态标签列;
[0026]步骤S33:组装打标SQL语句;
[0027]步骤S34:复制静态标签存储表的结构,创建新表;
[0028]步骤S35:执行打标SQL语句,将标签数据写入新表,删除被复制的静态标签存储表;
[0029]步骤S36:将新表表名称修改为被复制的静态标签存储表的名称。
[0030]进一步地,本专利技术标签管理方法的步骤S4,包括:结合SQL运算符对静态标签进行集合运算,创建动态标签。
[0031]进一步地,本专利技术标签管理方法的步骤S4,包括:
[0032]步骤S41:建立动态标签创建规则;
[0033]步骤S42:前端组装为一个json格式的表达式,后端将json转换为对象并校验表达式是否符合动态标签创建规则;
[0034]步骤S43:结合SQL运算符对静态标签进行集合运算,创建动态标签;解析表达式,构建动态标签的打标SQL并执行动态标签的打标SQL;
[0035]步骤S44:检查动态标签的打标SQL的执行状态,为动态标签生产值域分布情况。
[0036]进一步地,本专利技术标签管理方法的步骤S4,还包括:通过拖拽动态标签和静态标签并结合判断条件和过滤条件,创建新的动态标签。
[0037]进一步地,本专利技术标签管理方法的步骤S5,包括:根据主体对象下的动态标签或者静态标签作为入参或出参,拖拉生成API接口供第三方调用。
[0038]进一步地,本专利技术标签管理方法的步骤S5,还包括:通过拖拽主体对象到SQL编辑页,自动本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种标签管理方法,其特征在于,所述标签管理方法,包括:步骤S1:创建主体对象,后端对应地在ClickHouse仓库创建标签存储表;步骤S2:获取外部数据源,通过FLinkX将需要打标的数据库表结构以及数据映射到CLickHouse中,并与主体对象关联;步骤S3:在主体对象下创建静态标签;步骤S4:在主体对象下通过SQL或者拖拽模式创建动态标签;步骤S5:将主体对象下的动态标签和静态标签发布成API接口。2.根据权利要求1所述的标签管理方法,其特征在于,步骤S1中,标签存储表包括静态标签存储表和动态标签存储表,其中,静态标签存储表用于存储对象基本属性对应的数据,动态标签存储表用于存储经静态标签计算、聚合得到的能描述一批对象的标签。3.根据权利要求1所述的标签管理方法,其特征在于,步骤S2,包括:步骤S21:获取并保存外部数据源,从外部数据源中选择一张数据表作为标签数据源表;步骤S22:获取标签数据源表中的字段信息并映射为ClickHouse字段类型;步骤S23:根据字段组装建表语句,建立目标表并执行目标表中的建表语句;步骤S24:将标签数据源表和目标表组装为FlinkX任务执行参数并提交至ClickHouse进行数据同步。4.根据权利要求1所述的标签管理方法,其特征在于,步骤S3,包括:步骤S31:选择已添加数据源表的一列或者多列作为标签数据来源;步骤S32:静态标签存储表新增静态标签列;步骤S33:组装打标SQL语句;步骤S34:复制静态标签存储表的结构,创建新表;步骤S35:执行打标SQL语句,将标签数据写入新表,删除被复制的静态标签存储表;步骤S36:将新表表名称修改为被复制的静态标签存储表的名称。5.根据权利要求1所述的标签管理方法,其特征在于,步骤S4,包括:结合SQL运算符对静态标签进行集合运算,创建动态标签。6.根据权利要求5所述的标签管理方法,其特征在于,步骤S4,包括:步骤S41:建立动态标签创建规则;步骤S42:前端组装为一个json格式的表达式,后端将json转换为对象并校验表达式是否符合动态标签创建规则;步骤S43:结合SQL运算符对静态标签进行集合运算,创建动态标签;解析表达式,构建动态标签的打标SQL并执行动态标签的打标SQL;步骤S44:检查动态标签的打标SQL的执行状态,为动态标签生产值域分布情况。7.根据权利要求1所述的标...

【专利技术属性】
技术研发人员:陈华松邹鑫
申请(专利权)人:中电云数智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1