一种图指标流批一体化处理方法及装置制造方法及图纸

技术编号:28295461 阅读:31 留言:0更新日期:2021-04-30 16:19
本申请的一种图指标流批一体化处理方法及装置,根据全图数据得到边表和点表并存储到Hive数据库中,将边表和点表输入到计算模型生成第一连通图表,将边表、点表以及第一连通图表输入到预设程序中得到图数据库底层文件,调用图指标的计算模型以及参数列表的参数组合,在图数据库底层文件中查找与参数组合匹配的目标数据,根据计算模型对目标数据进行图指标计算得到图指标计算结果,通过调用HBase的api将图指标计算结果存入Hbase。将全图数据进行拆分得到不同连通图的数据分别精确的生成了不同的图数据库底层文件,在指标计算时不必跨网络拉取数据,性能更高,能够将计算结果进行精确存储。

【技术实现步骤摘要】
一种图指标流批一体化处理方法及装置
本申请涉及图计算
,尤其涉及一种图指标流批一体化处理方法及装置。
技术介绍
在相关的图指标处理技术中,对于每个图指标的计算,业务系统需要向计算服务发起两次请求。第一次请求是获得所有的输入数据组合,并且缓存在业务系统内部,这样可能会增加业务系统的复杂性。在图数据库实例计算图指标时,会从底层分布式的存储系统里获取参与计算的数据,这样可能导致网络开销较大,且存在一些不可控的突发情况。
技术实现思路
本申请提供一种图指标流批一体化处理方法及装置,以改善上述
技术介绍
的技术问题。一种图指标流批一体化处理方法,所述方法包括:根据图数据库中的全图数据得到边表和点表,并将所述边表和所述点表存储到Hive数据库中;基于所述Hive数据库中的所述边表和所述点表以及预设Spark计算模型,生成第一连通图表;其中,所述第一连通图表中包含两列,一列为点的ID,另一列为第一连通图的ID;将所述边表、所述点表以及所述第一连通图表输入到预设Spark程序中,得到每一个第一连通图对应的图数据库底层文件;调用图指标的计算模型以及参数列表的参数组合,在所述图数据库底层文件中查找与所述参数组合匹配的目标数据,根据所述计算模型对所述目标数据进行图指标计算,得到图指标计算结果;通过调用HBase的api将所述图指标计算结果存入Hbase。进一步地,根据图数据库中的全图数据得到边表和点表,并将所述边表和所述点表存储到Hive数据库中,包括:通过数据读取接口访问所述图数据库,将所述图数据库中的目标图对应的数据全量导出,得到边表和点表,将所述边表和所述点表存储到Hive数据库中。进一步地,所述将所述边表、所述点表以及所述第一连通图表输入到预设Spark程序中,得到每一个第一连通图对应的图数据库底层文件的步骤包括:将所述边表和所述点表输入到预设Spark计算模型中时,所述Spark计算模型遍历每一个第一连通图的数据,将同一个第一连通图的数据聚合到同一份图数据库底层文件中;将每一图数据库底层文件进行压缩,得到对应的压缩包,并将所述压缩包存放到HDFS文件系统中。进一步地,根据所述计算模型对所述目标数据进行图指标计算之前,所述方法还包括:在进行图指标计算之前,提取参数列表的参数组合,判断所述参数列表的参数组合与图数据库底层文件的映射表是否存在映射关系;若存在,则遍历所述参数组合并进行图指标计算;若不存在,则遍历每一个第一连通图的底层文件,查询出所有的所述参数组合,并且将所述参数组合和所述第一连通图底层文件的映射关系固化到所述Hive数据库中,再遍历所述参数组合并进行图指标计算。进一步地,所述方法还包括:并行地将所述图指标计算结果存入所述Hive数据库中。一种图指标流批一体化处理装置,所述装置包括:数据采集模块,用于根据图数据库中的全图数据得到边表和点表,并将所述边表和所述点表存储到Hive数据库中;数据计算模块,用于基于所述Hive数据库中的所述边表和所述点表以及预设Spark计算模型,生成第一连通图表;其中,所述第一连通图表中包含两列,一列为点的ID,另一列为第一连通图的ID;数据处理模块,用于将所述边表、所述点表以及所述第一连通图表输入到预设Spark程序中,得到每一个第一连通图对应的图数据库底层文件;数据匹配模块,用于调用图指标的计算模型以及参数列表的参数组合,在所述图数据库底层文件中查找与所述参数组合匹配的目标数据,根据所述计算模型对所述目标数据进行图指标计算,得到图指标计算结果;数据存储模块,用于通过调用HBase的api将所述图指标计算结果存入Hbase。进一步地,所述数据采集模块,具体用于:通过数据读取接口访问所述图数据库,将所述图数据库中的目标图对应的数据全量导出,得到边表和点表,将所述边表和所述点表存储到Hive数据库中。进一步地,所述数据处理模块,具体用于:将所述边表和所述点表输入到预设Spark计算模型中时,所述Spark计算模型遍历每一个第一连通图的数据,将同一个第一连通图的数据聚合到同一份图数据库底层文件中;将每一图数据库底层文件进行压缩,得到对应的压缩包,并将所述压缩包存放到HDFS文件系统中。进一步地,所述数据匹配模块,具体用于:在进行图指标计算之前,提取参数列表的参数组合,判断所述参数列表的参数组合与图数据库底层文件的映射表是否存在映射关系;若存在,则遍历所述参数组合并进行图指标计算;若不存在,则遍历每一个第一连通图的底层文件,查询出所有的所述参数组合,并且将所述参数组合和所述第一连通图底层文件的映射关系固化到所述Hive数据库中,再遍历所述参数组合并进行图指标计算。进一步地,所述数据存储模块,具体用于:并行地将所述图指标计算结果存入所述Hive数据库中。应用本申请实施例一种图指标流批一体化处理方法及装置时,根据图数据库中的全图数据得到边表和点表,并存储到Hive数据库中;边表和点表输入到Spark计算模型,生成第一连通图表;将边表、点表以及第一连通图表输入到预设Spark程序中,得到图数据库底层文件;调用图指标的计算模型以及参数列表的参数组合,在图数据库底层文件中查找与参数组合匹配的目标数据,根据计算模型对目标数据进行图指标计算,得到图指标计算结果;通过调用HBase的api将图指标计算结果存入Hbase。在本专利技术中,由于本方案将图数据库中的全图数据进行拆分得到不同连通图的数据分别精确的生成了不同的图数据库底层文件,所以在指标计算时不必跨网络拉取数据,性能更高,这样能够将计算结果精确并快速的存储到Hbase中。从而能快速的对全图数据进行处理,这样能有效的降低图指标的处理时间,提高了图指标处理的效率,有效的降低了时间成本的技术问题。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并于说明书一起用于解释本专利技术的原理。图1为本专利技术实施例所提供的一种图指标流批一体化处理方法的流程图;图2为本专利技术实施例所提供的一种图指标流批一体化处理装置的功能模块框图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。请结合参阅图1,为本专利技术实施例所提供的一种图指标流批一体化处理方法的流程示意图,进一步地,所述图指标流批一体化处理方法具体可以包括以下步骤S21-步骤S25所描述的内容。步骤S21,根据图数据库中本文档来自技高网...

【技术保护点】
1.一种图指标流批一体化处理方法,其特征在于,所述方法包括:/n根据图数据库中的全图数据得到边表和点表,并将所述边表和所述点表存储到Hive数据库中;/n基于所述Hive数据库中的所述边表和所述点表以及预设Spark计算模型,生成第一连通图表;其中,所述第一连通图表中包含两列,一列为点的ID,另一列为第一连通图的ID;/n将所述边表、所述点表以及所述第一连通图表输入到预设Spark程序中,得到每一个第一连通图对应的图数据库底层文件;/n调用图指标的计算模型以及参数列表的参数组合,在所述图数据库底层文件中查找与所述参数组合匹配的目标数据,根据所述计算模型对所述目标数据进行图指标计算,得到图指标计算结果;/n通过调用HBase的api将所述图指标计算结果存入Hbase。/n

【技术特征摘要】
1.一种图指标流批一体化处理方法,其特征在于,所述方法包括:
根据图数据库中的全图数据得到边表和点表,并将所述边表和所述点表存储到Hive数据库中;
基于所述Hive数据库中的所述边表和所述点表以及预设Spark计算模型,生成第一连通图表;其中,所述第一连通图表中包含两列,一列为点的ID,另一列为第一连通图的ID;
将所述边表、所述点表以及所述第一连通图表输入到预设Spark程序中,得到每一个第一连通图对应的图数据库底层文件;
调用图指标的计算模型以及参数列表的参数组合,在所述图数据库底层文件中查找与所述参数组合匹配的目标数据,根据所述计算模型对所述目标数据进行图指标计算,得到图指标计算结果;
通过调用HBase的api将所述图指标计算结果存入Hbase。


2.根据权利要求1所述的方法,其特征在于,根据图数据库中的全图数据得到边表和点表,并将所述边表和所述点表存储到Hive数据库中,包括:
通过数据读取接口访问所述图数据库,将所述图数据库中的目标图对应的数据全量导出,得到边表和点表,将所述边表和所述点表存储到Hive数据库中。


3.根据权利要求1所述的方法,其特征在于,将所述边表、所述点表以及所述第一连通图表输入到预设Spark程序中,得到每一个第一连通图对应的图数据库底层文件,包括:
将所述边表和所述点表输入到预设Spark计算模型中时,所述Spark计算模型遍历每一个第一连通图的数据,将同一个第一连通图的数据聚合到同一份图数据库底层文件中;
将每一图数据库底层文件进行压缩,得到对应的压缩包,并将所述压缩包存放到HDFS文件系统中。


4.根据权利要求1所述的方法,其特征在于,根据所述计算模型对所述目标数据进行图指标计算之前,所述方法还包括:
在进行图指标计算之前,提取参数列表的参数组合,判断所述参数列表的参数组合与图数据库底层文件的映射表是否存在映射关系;
若存在,则遍历所述参数组合并进行图指标计算;
若不存在,则遍历每一个第一连通图的底层文件,查询出所有的所述参数组合,并且将所述参数组合和所述第一连通图底层文件的映射关系固化到所述Hive数据库中,再遍历所述参数组合并进行图指标计算。


5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
并行地将所述图指标计...

【专利技术属性】
技术研发人员:顾凌云郭志攀王伟张晓丰
申请(专利权)人:南京冰鉴信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1