数据分析的方法、装置制造方法及图纸

技术编号:19320338 阅读:51 留言:0更新日期:2018-11-03 10:53
本发明专利技术提供一种数据分析的方法、装置,能够同时满足批量数据的实时分析和实时访问要求。本发明专利技术的数据分析的方法在列式数据库和分布式图查询引擎之间设置有接口适配层,该方法包括:将所述分布式图查询引擎的图操作命令进行转换并发送至所述列式数据库。

Method and device for data analysis

The invention provides a method and device for data analysis, which can simultaneously meet the requirements of real-time analysis and real-time access of batch data. The data analysis method of the present invention has an interface adaptation layer between the column database and the distributed graph query engine. The method includes transforming the graph operation commands of the distributed graph query engine and sending them to the column database.

【技术实现步骤摘要】
数据分析的方法、装置
本专利技术涉及计算机
,尤其涉及一种数据分析的方法、装置。
技术介绍
社区关系网络是用户之间通过某些联系而形成网状关联,例如相同的收货手机号码、相同的下单IP(InternetProtocolAddress网际协议地址)地址、相同的手机号码和IP地址等组合关系等,通过分析社区关系网络的网络密度、边数量、三元闭包等特性,可以很好的分析出黄牛群体、刷单群体等潜在风险群体。基于图模型的社区关系网络注重实体之间的相互关联,具有高度复杂性,在电子商务、移动运营、风险控制等领域的应用越来越广泛,对关系网络数据的实时访问和实时分析的需求也越来越多。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:1、开源免费的图数据库有的不支持分布式(例如图形数据库neo4j),有的已经停止更新(例如图数据库titan),不足以满足大数据量的社区关系数据的实时分析和访问功能;2、HBase(非关系型分布式数据库)、MySql(关系型数据库管理系统)、Cassandra(开源分布式非关系型数据库系统)等虽然可以满足大数据量的数据实时访问功能,但是它不能支持批量数据的实时分析功能,必须将HBase、Cassandra、Mysql中的关系数据进行离线数据移动到HDFS(分布式文件系统)上,再进行数据分析,业务处理流程复杂、速度慢,不能及时的响应变化的业务需求;3、gremlin(图计算框架TinkerPop的图查询语言)是一种复杂的查询语言,对使用者有较高要求。因此,现有的技术方案不能同时满足批量数据的实时分析和实时访问要求。
技术实现思路
有鉴于此,本专利技术实施例提供一种数据分析的方法、装置、电子设备和可读存储介质,能够同时满足批量数据的实时分析和实时访问要求。为实现上述目的,根据本专利技术的一个方面,提供了一种数据分析的方法。本专利技术的一种数据分析的方法,其中,在列式数据库和分布式图查询引擎之间设置有接口适配层,该方法包括:将所述分布式图查询引擎的图操作命令进行转换并发送至所述列式数据库。可选地,将所述分布式图查询引擎的图操作命令进行转换并发送至所述列式数据库包括:接收所述分布式图查询引擎发送的图操作命令;将所述图操作命令转换为列式数据库命令;向所述列式数据库发送所述列式数据库命令。可选地,所述图操作命令包括:增加数据命令、删除数据命令、修改数据命令、查询数据命令;所述图操作命令携带有标识信息或统计特征。可选地,当所述图操作命令为所述增加数据命令时,向所述列式数据库发送所述增加数据命令;将线上关系数据和离线关系数据输入到所述列式数据库的数据库表。可选地,将线上关系数据和离线关系数据输入到所述列式数据库的数据库表包括:将处于队列中的所述线上关系数据输入到所述数据库表;以及,将所述离线关系数据中具有相同属性或相同属性组合的关系数据进行关联,得到关联数据,将所述关联数据输入到所述数据库表。可选地,当所述图操作命令为所述查询数据命令时;根据所述查询数据命令携带的所述标识信息查询所述列式数据库,得到所述关系网络并进行展示;或,根据所述查询数据命令携带的所述统计特征查询所述列式数据库,得到所述关系网络,根据所述关系网络生成所述分析表。可选地,将所述关系网络或所述分析表在应用层缓存,并设置缓存数量和过期时间。可选地,所述数据库表包括元数据表、顶点数据表、顶点索引数据表、边数据表、边索引数据表。可选地,所述分布式图查询引擎是Tinkerpop3图查询引擎,以及所述列式数据库是Kudu数据库。为实现上述目的,根据本专利技术的另一方面,提供了一种数据分析的装置。本专利技术的一种数据分析的装置,其中,在列式数据库和分布式图查询引擎之间设置有接口适配层,该装置包括:发送模块,用于将所述分布式图查询引擎的图操作命令进行转换并发送至所述列式数据库。可选地,所述发送模块还用于:接收所述分布式图查询引擎发送的图操作命令;将所述图操作命令转换为列式数据库命令;向所述列式数据库发送所述列式数据库命令。可选地,所述图操作命令包括:增加数据命令、删除数据命令、修改数据命令、查询数据命令;所述图操作命令携带有标识信息或统计特征。可选地,当所述图操作命令为所述增加数据命令时,向所述列式数据库发送所述增加数据命令;将线上关系数据和离线关系数据输入到所述列式数据库的数据库表。可选地,所述发送模块还用于:将处于队列中的所述线上关系数据输入到所述数据库表;以及,将所述离线关系数据中具有相同属性或相同属性组合的关系数据进行关联,得到关联数据,将所述关联数据输入到所述数据库表。可选地,当所述图操作命令为所述查询数据命令时;根据所述查询数据命令携带的所述标识信息查询所述列式数据库,得到所述关系网络并进行展示;或,根据所述查询数据命令携带的所述统计特征查询所述列式数据库,得到所述关系网络,根据所述关系网络生成所述分析表。可选地,所述发送模块还用于:将所述关系网络或所述分析表在应用层缓存,并设置缓存数量和过期时间。可选地,所述数据库表包括元数据表、顶点数据表、顶点索引数据表、边数据表、边索引数据表。可选地,所述分布式图查询引擎是Tinkerpop3图查询引擎,以及所述列式数据库是Kudu数据库。为实现上述目的,根据本专利技术的再一方面,提供了一种电子设备。本专利技术的一种电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术所提供的数据分析的方法。为实现上述目的,根据本专利技术的再一方面,提供了一种计算机可读介质。本专利技术的一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本专利技术所提供的数据分析的方法。上述专利技术中的一个实施例具有如下优点或有益效果:因为采用列式数据库存储关系数据,使用分布式图查询引擎做为关系数据查询引擎,在列式数据库和分布式图查询引擎之间设置有接口适配层,通过接口适配层将分布式图查询引擎的图操作命令发送至列式数据库,从而,将分布式图查询引擎和列式数据库融合在一起,同时,结合数据库表存储结构的设计,实现了分布式图数据库的实时访问和实时分析功能,解决了对批量数据进行数据分析时不能同时实时访问和实时分析的问题,降低了现有框架的复杂度,进而降低了数据分析的学习与使用成本,提高了数据分析的实时分析效率和准确率。上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。附图说明附图用于更好地理解本专利技术,不构成对本专利技术的不当限定。其中:图1是根据本专利技术实施例的数据分析的方法的主要步骤的示意图;图2是根据本专利技术实施例的数据分析的方法的实现框架的示意图;图3是根据本专利技术实施例的数据分析的方法的接口适配层进行批量关系数据分析的工作流程的示意图;图4是根据本专利技术实施例的数据分析的方法的关系数据存储、分析的示意图;图5是根据本专利技术实施例的数据分析的方法的关系网络的示意图;图6是根据本专利技术实施例的数据分析的装置的主要模块的示意图;图7是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。具体实施方式以下结合附图对本专利技术的示范性实施例做出说明,其中包括本专利技术实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,本文档来自技高网...

【技术保护点】
1.一种数据分析的方法,其特征在于,在列式数据库和分布式图查询引擎之间设置有接口适配层,所述方法包括:将所述分布式图查询引擎的图操作命令进行转换并发送至所述列式数据库。

【技术特征摘要】
1.一种数据分析的方法,其特征在于,在列式数据库和分布式图查询引擎之间设置有接口适配层,所述方法包括:将所述分布式图查询引擎的图操作命令进行转换并发送至所述列式数据库。2.根据权利要求1所述的方法,其特征在于,将所述分布式图查询引擎的图操作命令进行转换并发送至所述列式数据库包括:接收所述分布式图查询引擎发送的图操作命令;将所述图操作命令转换为列式数据库命令;向所述列式数据库发送所述列式数据库命令。3.根据权利要求2所述的方法,其特征在于,所述图操作命令包括:增加数据命令、删除数据命令、修改数据命令、查询数据命令;所述图操作命令携带有标识信息或统计特征。4.根据权利要求3所述的方法,其特征在于,当所述图操作命令为所述增加数据命令时,向所述列式数据库发送所述增加数据命令;将线上关系数据和离线关系数据输入到所述列式数据库的数据库表。5.根据权利要求4所述的方法,其特征在于,将线上关系数据和离线关系数据输入到所述列式数据库的数据库表包括:将处于队列中的所述线上关系数据输入到所述数据库表;以及,将所述离线关系数据中具有相同属性或相同属性组合的关系数据进行关联,得到关联数据,将所述关联数据输入到所述数据库表。6.根据权利要求3所述的方法,其特征在于,当所述图操作命令为所述查询数据命令时;根据所述查询数据命令携带的所述标识信息查询所述列式数据库,得到所述关系网络并进行展示;或,根据所述查询数据命令携带的所述统计特征查询所述列式数据库,得到所述关系网络,根据所述关系网络生成所述分析表。7.根据权利要求6所述的方法,其特征在于,将所述关系网络或所述分析表在应用层缓存,并设置缓存数量和过期时间。8.根据权利要求4-6中任一项所述的方法,其特征在于,所述数据库表包括元数据表、顶点数据表、顶点索引数据表、边数据表、边索引数据表。9.根据权利要求1所述的方法,其特征在于,所述分布式图查询引擎是Tinkerpop3图查询引擎,以及所述列式数据库是Kudu数据库。10.一种数据分析的装置,其特征在于,在列式数据库和分布式图查询引擎之间设置有接口适配层,所述装置包括:发送模块,用于将所述分布式图查询引擎的...

【专利技术属性】
技术研发人员:游正朋梅尚健
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1