The invention provides a method and device for data analysis, which can simultaneously meet the requirements of real-time analysis and real-time access of batch data. The data analysis method of the present invention has an interface adaptation layer between the column database and the distributed graph query engine. The method includes transforming the graph operation commands of the distributed graph query engine and sending them to the column database.
【技术实现步骤摘要】
数据分析的方法、装置
本专利技术涉及计算机
,尤其涉及一种数据分析的方法、装置。
技术介绍
社区关系网络是用户之间通过某些联系而形成网状关联,例如相同的收货手机号码、相同的下单IP(InternetProtocolAddress网际协议地址)地址、相同的手机号码和IP地址等组合关系等,通过分析社区关系网络的网络密度、边数量、三元闭包等特性,可以很好的分析出黄牛群体、刷单群体等潜在风险群体。基于图模型的社区关系网络注重实体之间的相互关联,具有高度复杂性,在电子商务、移动运营、风险控制等领域的应用越来越广泛,对关系网络数据的实时访问和实时分析的需求也越来越多。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:1、开源免费的图数据库有的不支持分布式(例如图形数据库neo4j),有的已经停止更新(例如图数据库titan),不足以满足大数据量的社区关系数据的实时分析和访问功能;2、HBase(非关系型分布式数据库)、MySql(关系型数据库管理系统)、Cassandra(开源分布式非关系型数据库系统)等虽然可以满足大数据量的数据实时访问功能,但是它不能支持批量数据的实时分析功能,必须将HBase、Cassandra、Mysql中的关系数据进行离线数据移动到HDFS(分布式文件系统)上,再进行数据分析,业务处理流程复杂、速度慢,不能及时的响应变化的业务需求;3、gremlin(图计算框架TinkerPop的图查询语言)是一种复杂的查询语言,对使用者有较高要求。因此,现有的技术方案不能同时满足批量数据的实时分析和实时访问要求。
技术实现思路
有鉴于此, ...
【技术保护点】
1.一种数据分析的方法,其特征在于,在列式数据库和分布式图查询引擎之间设置有接口适配层,所述方法包括:将所述分布式图查询引擎的图操作命令进行转换并发送至所述列式数据库。
【技术特征摘要】
1.一种数据分析的方法,其特征在于,在列式数据库和分布式图查询引擎之间设置有接口适配层,所述方法包括:将所述分布式图查询引擎的图操作命令进行转换并发送至所述列式数据库。2.根据权利要求1所述的方法,其特征在于,将所述分布式图查询引擎的图操作命令进行转换并发送至所述列式数据库包括:接收所述分布式图查询引擎发送的图操作命令;将所述图操作命令转换为列式数据库命令;向所述列式数据库发送所述列式数据库命令。3.根据权利要求2所述的方法,其特征在于,所述图操作命令包括:增加数据命令、删除数据命令、修改数据命令、查询数据命令;所述图操作命令携带有标识信息或统计特征。4.根据权利要求3所述的方法,其特征在于,当所述图操作命令为所述增加数据命令时,向所述列式数据库发送所述增加数据命令;将线上关系数据和离线关系数据输入到所述列式数据库的数据库表。5.根据权利要求4所述的方法,其特征在于,将线上关系数据和离线关系数据输入到所述列式数据库的数据库表包括:将处于队列中的所述线上关系数据输入到所述数据库表;以及,将所述离线关系数据中具有相同属性或相同属性组合的关系数据进行关联,得到关联数据,将所述关联数据输入到所述数据库表。6.根据权利要求3所述的方法,其特征在于,当所述图操作命令为所述查询数据命令时;根据所述查询数据命令携带的所述标识信息查询所述列式数据库,得到所述关系网络并进行展示;或,根据所述查询数据命令携带的所述统计特征查询所述列式数据库,得到所述关系网络,根据所述关系网络生成所述分析表。7.根据权利要求6所述的方法,其特征在于,将所述关系网络或所述分析表在应用层缓存,并设置缓存数量和过期时间。8.根据权利要求4-6中任一项所述的方法,其特征在于,所述数据库表包括元数据表、顶点数据表、顶点索引数据表、边数据表、边索引数据表。9.根据权利要求1所述的方法,其特征在于,所述分布式图查询引擎是Tinkerpop3图查询引擎,以及所述列式数据库是Kudu数据库。10.一种数据分析的装置,其特征在于,在列式数据库和分布式图查询引擎之间设置有接口适配层,所述装置包括:发送模块,用于将所述分布式图查询引擎的...
【专利技术属性】
技术研发人员:游正朋,梅尚健,
申请(专利权)人:北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。