一种基于业务对象智能动态化实时生成关联数据图的方法技术

技术编号:35541148 阅读:22 留言:0更新日期:2022-11-09 15:09
本发明专利技术公开了一种基于业务对象智能动态化实时生成关联数据图的方法,包括以下步骤:数据实时入湖,并通过存储组件进行存储;创建入湖数据触发器;实时从mq组件中读取增量数据,提取关键信息;提取关键信息形成数据体,使用图数据库存储数据之间的关联关系;利用实时技术及时获取变动的数据;实时变动数据,通过数据关联关系正向快速查询形成关联关系图;通过数据关联关系反向快速查询形成关联关系图。本发明专利技术通过触发器提出可用于创建关联关系的结构化数据,对结构化数据利用关联关系分析算法与存量数据进行关联分析,通过查询某一个数据,可以很快的根据数据的关联关系绘制数据关联的知识图谱,可方便快捷的为业务提供有用的数据。数据。数据。

【技术实现步骤摘要】
一种基于业务对象智能动态化实时生成关联数据图的方法


[0001]本专利技术涉及大数据
,具体来说,涉及一种基于业务对象智能动态化实时生成关联数据图的方法。

技术介绍

[0002]在云原生大数据成熟技术的支撑下,数据也迎来了暴发式的增涨,数据的来源多种多样,数据存储量越来越大,同时数据的形式也更碎片化,数据间的关系也越来越复杂,如何在大数据量中快速找出数据间的关联关系,快速形成基于有价值的业务数据,当前技术主要存在以下问题:1)在数据量大的场景中,查询语句spl(结构化查询语句)使用大量的关联操作会有巨大的性能损失,因为数据本身是被存放在指定的地方,查询本身只需要用到部分数据,但是关联操作本身会遍历整个数据库,这样就会导致查询效率低到让人无法接受,当超过5层以上的关联时,会导致无法获取关联的数据问题情况;2)在大数据量下,反向查询如:反向查询一个员工的老板,需要通过员工的工号反查所在组织及其组织的负责人,再层层往上追查,最终找到最上层的关系,其间需要很多次的递归查询,非常消耗性能,无法快速查询到有关联的人与组织;3)索引是可以加速查询的效率,如常见的索引包括B

树索引和哈希索引,B

树索引简单地来说就是给每个人一个可排序的独立ID,B

树本身是一个平衡多叉搜索树,这个树会将每个元素按照索引ID进行排序,从而支持范围查找,范围查找的复杂度是O(logN),其中N是索引的文件数目。但是索引并不能解决所有的问题,如果文件更新频繁或者有很多重复的元素,就会导致很大的空间损耗,此外索引的IO消耗也值得考虑,索引IO尤其是在机械硬盘上的IO读写性能上来说非常不理想,常规的B

树索引消耗四次IO随机读,当关联操作变得越来越多时,硬盘查找更可能发生上百次;4)众多的相互有关系的大表中,基于某一条数据在多个大表中找到相关联的数据,需要通过多次的spl查询或多次的关联操作,耗时一般都需要10s及以上,对于部分过亿的大表关联时,还会出现内存溢出的情况,导致无法看到关联的数据;5)目前大部分的操作都是人找数,特别是在继续查询相关的数据时,需要靠人的记忆层层关联往下找,耗时时间长,对数据使用人员非常的不友好,没有进行数据使用习惯的关联推荐,也没有对数据相关性进行推荐使用;6)数据实时都是在发生地变化,数据很多时候因为没有实时更新关系,导致数据使用结果需要第二天或更长的时间才被发现或重新使用。
[0003]在万物互联的时代,各行各业、各类设备和应用都在不间断产生大量数据,数据的海量与多元化决定了从数据中获取有用的价值或有问题的数据变得越来越困难,如果无法从数据中获得益处或发现数据的问题,那么数据价值与问题发现就无从谈起。数据价值与问题的发现同数据处理、数据的关联关系创建有必然的联系,从海量与多元化的数据中建立数据的关系网,对获取有用或有问题的数据更加方便与容易,可以更好的协助数据价值
的兑现与数据问题的发现。如下的场景:场景一在数仓建设过程中,需要对分层的数据进行跟踪分析,找出有问题的数据,如数据分层建仓的过程有:1)明细数据有3条数据:id=1 pkey=101,score=90,org=1、id=2,pkey=101,score=20,org=1、id=3 pkey=101,score=70,org=2;2)汇聚数据可多个维度如pkey维度:(pkey=101 score=180 avg=60),pkey,org维度:pkey=101,score=180,avg=70,org=2,pkey=101,score=180,avg=110 org=;3)应用:pkey,org维度进数据关联时进行分析时,如pkey=101 score=180 avg=60对影响平均值的分数低的数据进行问题跟进分析;实现此业务场景的现有的技术主要有:1)利用关系型数据库如Mysql,oracle,Greenplum等进行关系表的设计,如明细表dwd_scores,并指定主键ID与外键(pkey,org),汇聚表设计为:dws_amount,按不同的维度(如pkey字段)进行汇聚数据,统计出:pkey=101 score=180 avg=60,根据score=180的值往下分析,查询到明细发现id=2 score=20;2)利用Nosql列式数据如(Cassandra、HBase),进k

v表示数据之间的联系,一些属性值引用了数据库中其他聚合数据,聚合存储只是以内嵌映射结构的方式装饰在聚合数据之内,如:k=101 value=180 ids=(id=1,id=2,id=3);再通过ids中的key去查询明细,然后在内存中进行分批分析;场景二在社交关系中找某人的朋友的朋友们,实现方式:1)通过关系型数据库对朋友关系的建模,创建Person(人员管理表),PersonFriends(人员的朋友管理表),查询朋友的朋友们的sql如下,需要进行多层的sql嵌套与关联:SELECT p1.Person from Person p1 join(SELECT p5.FriendID from PersonFriends p5 join(SELECT p3.FriendID from Person p2 join PersonFriend p3 on p2.ID=p3.PersonIDWHERE p2.Person=

xxx

) p4 on p4.FriendID=p5.PersonID)t6 on p1.ID=p6.FriendID可以看到只是查询三度人脉的时候,sql查询语句已经开始非常复杂,而查询过程的复杂度也变得很高、查询效率开始恶化。
[0004]现有的技术为满足关联关系的实时创建与关系的秒级分析查询的能力,大多依赖不同类型数据库自身的处理能力以及事先设计好的关联关系,对海量多元数据下创建关联关系及秒级的关联关系分析存在以下的问题:1)通过关系型数据库创建关联关系时,通常需要明确表与表之间的主外键的关系或字段名一致的隐含关系来实现关联,都是需要在设计时候指定关系,数据实时动态变化的时候无法实时识别数据之间的关联关系;2)在关系型数据库中创建关系时,一旦关联的表的主键发生变更,需要轮询修改
此主键关联的所有的外键或相同字段的值,耗时非常较长,关联表多的时候,有可能存在漏修改的情况,同时新增与删除表时候,需要同步修改关联的逻辑,耗费比较多的成本;3)通过一个数据查询层层下钻查询找到最细力度的明细数据时,需要关联各种类型的大表,查询耗费的时间成本高,对多个大表join(关联)操作需要的计算资源也很多,执行的成本高;4)实现数据的关联分析与查询时,通常通过设计关系型数据库的模型,如维度建模、星型模型等,合理利用主外键关联多表进行较深层次的数据分析,但对于过亿的大数据,如深度为3时,关系型数据库的响应时间30s,对数据使用的体验效果变得较差;当深度到4时,关系数据库需要近半个小时才能返回结果,对于在线数据处理系统影响较大,会导致无法使用;深度本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于业务对象智能动态化实时生成关联数据图的方法,其特征在于,该方法包括以下步骤:S1、通过实时或批量入湖的采集,将结构化、半结构及非结构化的数据实时入湖,并通过存储组件进行存储;S2、创建入湖数据触发器,实时抓取入源的数据,并将数据按预设的格式存储至mq组件中;S3、通过部署实时计算程序,实时从mq组件中读取增量数据,并对增量数据进行预处理,提取关键信息;S4、将提取关键信息形成数据体,并基于数据体进行数据的关联关系分析;S5、根据数据的关联关系找到对应的元数据及属性相关的数据,并使用图数据库存储数据之间的关联关系;S6、利用实时技术及时获取变动的数据,并对数据进行联动分析;S7、实时变动数据,并利用图数据库对变动的数据进行更新存储;S8、通过数据关联关系正向快速查询形成关联关系图;S9、通过数据关联关系反向快速查询形成关联关系图。2.根据权利要求1所述的一种基于业务对象智能动态化实时生成关联数据图的方法,其特征在于,所述存储组件包括Hudi存储组件和Ozone存储组件;其中,所述Hudi存储组件用于存储结构化和半结构数据;所述Ozone存储组件用于存储非结构与部分类型的半结构化数据。3.根据权利要求1所述的一种基于业务对象智能动态化实时生成关联数据图的方法,其特征在于,所述S3通过部署实时计算程序,实时从mq组件中读取增量数据,并对增量数据进行预处理,提取关键信息包括以下步骤:S31、实时监听并逐条读取或小批次的读取增量数据;S32、对读取到的增量数据进行数据格式的转换;S33、在格式转换后,构建一张内存的表;S34、通过sql语句对数据过滤;S35、生成以表记录形式为主的数据体,并在内存中进行存储。4.根据权利要求1所述的一种基于业务对象智能动态化实时生成关联数据图的方法,其特征在于,所述S4中将提取关键信息形成数据体,并基于数据体进行数据的关联关系分析通过关联关系分析算法进行数据的关联关系识别。5.根据权利要求1所述的一种基于业务对象智能动态化实时生成关联数据图的方法,其特征在于,所述S5中根据数据的关联关系找到对应的元数据及属性相关的数据,并使用图数据库存储数据之间的关联关系包括以下步骤:...

【专利技术属性】
技术研发人员:鲍钟峻刘军华赵涛
申请(专利权)人:浩鲸云计算科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1