一种基于Flink的数据标签系统技术方案

技术编号:37305202 阅读:16 留言:0更新日期:2023-04-21 22:49
本发明专利技术涉及一种基于Flink的数据标签系统,包括:标签解析模块,通过Flink实现大流量数据的实时标注和海量数据的离线标注;标签关键字模块,实现标签关键字管理功能;标签类别模块,根据业务需求对标签体系进行分类管理;标签列表模块,将业务对象信息转化为标签数据,并对海量标签数据进行管理、去重、合并、转义操作;标签查询应用模块,通过对标签进行“与”、“或”、“非”组合条件,筛选出满足条件标签的人;标签数据表模块,用于绑定动态标签统计的数据源;动态标签支撑条件模块,用于动态标签进行统计时的支撑。本发明专利技术能实现大流量数据的实时标注和海量数据的离线标注。的实时标注和海量数据的离线标注。的实时标注和海量数据的离线标注。

【技术实现步骤摘要】
一种基于Flink的数据标签系统


[0001]本专利技术属于数据处理
,涉及一种基于Flink的数据标签系统。

技术介绍

[0002]从概念模型上讲,标签体系就是围绕多个实体对象以及实体之间的关系,建立标签化描述的方法,作为一个应用体系,各种层级的标签结合在一起使用才有意义。所以可以说标签体系是业务层面、数据特征值的集合,是基于数据层体现业务层,标签体系是数据治理及数据整合的手段和成果之一。
[0003]在标签管理方面,可围绕标签业务主题和应用主题,建设多层级的标签管理体系构建标签市场。在标签建模方面,Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算,基于Flink实现了大流量数据的实时标注和海量数据的离线标注,同时为了降低标签建模的复杂度,采用可视化拖拽实现快速标签分析模型的快速配置,并结合建模工具实现复杂的标签建模。

技术实现思路

[0004]本专利技术的目的在于提供一种基于Flink的数据标签系统,通过Flink实现大流量数据的实时标注和海量数据的离线标注。
[0005]本专利技术的技术方案如下:
[0006]一种基于Flink的数据标签系统,其特征在于,包括以下模块:
[0007]模块1,标签解析模块:通过Flink实现大流量数据的实时标注和海量数据的离线标注;
[0008]模块2,标签关键字模块:实现标签关键字管理功能,通过关键字与标签进行绑定,用于匹配出某个人应有哪些标签;
[0009]模块3,标签类别模块:根据业务需求对标签体系进行分类管理;
[0010]模块4,标签列表模块,包括:
[0011](1)数据标签化:通过制定容器、规则、条件将业务对象信息转化为标签数据;
[0012](2)标签数据管理:对海量标签数据进行管理、去重、合并、转义操作;
[0013]模块5,标签查询应用模块:通过对标签进行“与”、“或”、“非”组合条件,筛选出满足条件标签的人,同时可以统计出带有该标签的人数;
[0014]模块6,标签数据表模块:用于绑定动态标签统计的数据源;
[0015]模块7,动态标签支撑条件模块:标签支撑条件用于动态标签进行统计时的支撑;可以通过选取字段以及统计条件等生成sql,也可直接写统计sql。
[0016]本专利技术能够实现大流量数据的实时标注和海量数据的离线标注。
附图说明
[0017]图1是本专利技术的系统架构图;
[0018]图2是本专利技术的标签系统业务流程图;
[0019]图3是本专利技术方法的功能模块图。
具体实施方式
[0020]如图1所示,本专利技术的系统构架按以下思路设计:
[0021]1、设计标签体系,首先通过对原始数据库的数据进行统计分析,提取出业务对象的事实标签,然后以实体标签为基础,通过构建实体标签与业务需求之间的数据进行统计分析,得到业务对象的归纳标签。
[0022]2、对数据源分类,在标签建模时将标签数据源分为有界数据流和无界数据流,通过Flink实现大流量数据的标注,对于有界数据利用Flink的批处理能力实现标签的离线标注,对于无界数据利用Flink的实时计算能力实现标签的实时标注。
[0023]如图2所示,标签业务流程通过设置类别、关键字、数据表、以及动态条件来和标签进行绑定,之后通过Flink进行标签解析,最终实现标签的查询和统计。
[0024]如图3所示,按照上述方法设计的数据标签系统包括7个模块,各模块的功能如下:
[0025]模块1,标签解析模块:通过Flink实现大流量数据的实时标注和海量数据的离线标注。
[0026]模块2,标签关键字模块:实现标签关键字管理功能,通过关键字与标签进行绑定,用于匹配出某个人应有哪些标签。
[0027]模块3,标签类别模块:根据业务需求对标签体系进行分类管理。
[0028]模块4,标签列表模块,包括:
[0029](1)数据标签化:通过制定容器、规则、条件将业务对象信息转化为标签数据。
[0030](2)标签数据管理:对海量标签数据的管理、去重、合并、转义等标签数据操作。每个标签可以设置其自己相关的数据支撑表,以及统计支撑条件,可以设置标签分值,用于预警,积分可以累积或者覆盖。标签可以设置权重,使一些特殊的标签用鲜明的颜色显示。
[0031]模块5,标签查询应用模块:通过对标签进行“与”、“或”、“非”组合条件,筛选出满足条件标签的人,同时可以统计出带有该标签的人数,通过这些直观的数据来迅速的给使用者进行统计分析等工作。
[0032]模块6,标签数据表模块:标签数据表的作用是用于绑定动态标签统计的数据源,一个动态标签,应有其独有的数据源(数据表),通过对表的信息分析,从而得到动态标签的数据。
[0033]模块7,动态标签支撑条件模块:标签支撑条件用于动态标签进行统计时的支撑。可以通过选取字段以及统计条件等生成sql,也可直接写统计sql。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Flink的数据标签系统,其特征在于,包括以下模块:模块1,标签解析模块:通过Flink实现大流量数据的实时标注和海量数据的离线标注;模块2,标签关键字模块:实现标签关键字管理功能,通过关键字与标签进行绑定,用于匹配出某个人应有哪些标签;模块3,标签类别模块:根据业务需求对标签体系进行分类管理;模块4,标签列表模块,包括:(1)数据标签化:通过制定容器、规则、条件将业务对象信息转化为标签...

【专利技术属性】
技术研发人员:贾承翰
申请(专利权)人:北京航天长峰科技工业集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1