数据处理方法、系统、装置和计算机可读存储介质制造方法及图纸

技术编号:26303991 阅读:28 留言:0更新日期:2020-11-10 19:59
本发明专利技术实施例提供数据处理方法、系统、装置和计算机可读存储介质。该数据处理方法包括:获取多个表的表数据;将多个表的表数据分别存储到多个数据单元中,多个表和多个数据单元一一对应;从多个数据单元中获取多个表的表数据,并基于多个表的关联关系组织多个表的表数据,以得到文档数据;以及将文档数据存储到集群上,其中,集群上部署有全文检索服务,文档数据根据全文检索服务提供的接口进行组织和存储。本发明专利技术利用全文检索服务检索文档数据组织和存储文档数据,从而规避了传统关系型数据库查询方式对于海量数据检索的性能瓶颈以及离线处理方式无法具有实时性的缺点,使得海量数据检索同时具有实时性和高效性的优点。

【技术实现步骤摘要】
数据处理方法、系统、装置和计算机可读存储介质
本专利技术涉及互联网
,具体涉及一种数据处理方法、系统、装置和计算机可读存储介质。
技术介绍
随着互联网+技术蓬勃发展,每天都产生海量的数据,在海量运营数据中,公司决策层对公司营业状况的实时指导、决策、监控具有强烈的需求,报表系统的出现可以轻松满足这个需求。传统关系型数据库查询方式,在对现有数据进行查询生成报表数据时,存在着大量针对多张数据库表进行随机查询的情况,而且大多数是表连接查询操作。在数据总量小于千万级别时,传统处理方式数据库响应时间能被优化到秒级以内。但是当查询数据总量超过几亿甚至是上十亿的时候,传统关系型数据库查询方式无论如何优化或者是更换索引机制,不仅无法满足快速响应的多并发要求,而且查询数据时对数据库造成很大的压力,甚至直接拖垮数据库服务。传统关系型数据库无法支撑之后,衍生出离线处理方式,即将数据导入数据仓库(hive)中,进行离线计算,再对离线计算结算进行查询。离线数据仓库都是T+1离线分析数据,运营人员今天看昨天的数据报表,无法第一时间监控当前运营实时生产情况,随着大家对数据及时性的要求越来越高,实时计算应景产生。综上,传统关系型数据库查询方式和离线处理方式各有缺点。传统关系型数据库查询方式由于报表系统的数据会涉及大量表关联查询、跨库和跨表查询,因此只能将业务表整合形成一个大数据表,虽然大数据表在系统中所占比例极小,但一个大数据表按照某一维度频繁查询统计多项指标数据时,由于各个事务都会争用同一个大数据表的资源而使效率低下,成为系统正常运行的性能瓶颈。离线处理方式虽然解决了传统关系型数据库性能瓶颈问题,但及时性不够,不能对运营生产数据实时形成监控,无法实时做出决策并指导生产。在当前互联网生态圈中,时间决定一切,这样显示无法满足运营决策分析要求。
技术实现思路
有鉴于此,本专利技术实施例提供数据处理方法、系统、装置和计算机可读存储介质,以解决传统关系型数据库查询方式对于海量数据检索的性能瓶颈以及离线处理方式无法具有实时性的缺点。第一方面,本专利技术实施例提供一种数据处理方法,包括:获取多个表的表数据;将所述多个表的表数据分别存储到多个数据单元中,所述多个表和所述多个数据单元一一对应;从所述多个数据单元中获取所述多个表的表数据,并基于所述多个表的关联关系组织所述多个表的表数据,以得到文档数据;以及将所述文档数据存储到集群上,其中,所述集群上部署有全文检索服务,所述文档数据根据全文检索服务提供的接口进行组织和存储。可选地,监控并解析数据库操作日志,以实时地获取多个表的表数据。可选地,所述多个表中任意两个表之间具有下述关联关系中的至少一种:一对一关系、多对一关系和多对多关系。可选地,当所述多个表中任意两个表之间的关联关系为一对一关系时,在组织所述文档数据时,采用关联字段作为唯一标识;当所述多个表中第一表和其他表之间是多对一关系时,在组织所述文档数据时,采用所述第一表的主键作为唯一标识;当所述多个表中任意两个表之间是多对多关系时,在组织所述文档数据时,采用由所述多个表中每个表的主键组成的联合字段作为唯一标识。可选地,并发执行所述从多个数据单元中获取多个表的表数据,并基于所述多个表的关联关系组织所述多个表的表数据,以得到文档数据的步骤。可选地,还包括:将所述多个表的表数据缓存到缓存数据库上,以及在获取一条表数据时,通过检索缓存数据库获取其他表的表数据,以组织所述文档数据。可选地,当所述多个表中任意两个表之间的关联关系为一对一关系时,每获取一条表数据,将其组织为所述文档数据实时存储到所述集群上;当所述多个表中第一表和其他表之间是多对一关系时,每获取所述第一表的一条表数据,将其主键缓存到所述缓存数据库中,并且通过检索缓存数据库获取其他表的表数据,以组织所述文档数据;当所述多个表中任意两个表之间是多对多关系时,每获取一条表数据,将其缓存到所述缓存数据库中,并且只有在获取到所述多个表的所有表的表数据时,才组织所述文档数据。可选地,基于kafka平台实现将所述多个表的表数据分别存储到多个数据单元中以及从所述多个数据单元中获取所述多个表的表数据的步骤。可选地,所述全文检索服务为Elasticsearch搜索服务,所述文档数据为ES文档。第二方面,本专利技术实施例提供一种数据处理系统,包括:获取数据模块,用于实时获取多个表的表数据,并将所述多个表的表数据分别存储到多个数据单元中,所述多个表和所述多个数据单元一一对应;组织数据模块,用于从所述多个数据单元中获取所述多个表的表数据,并基于所述多个表的关联关系组织所述多个表的表数据,以得到文档数据;存储数据模块,用于将所述文档数据存储集群上,所述集群上部署有全文检索服务,所述文档数据根据全文检索服务提供的接口进行组织和存储。可选地,所述获取数据模块监控并解析数据库操作日志,以得到所述多个表的表数据。可选地,当所述多个表中任意两个表之间的关联关系为一对一关系时,在组织所述文档数据时,采用关联字段作为唯一标识;当所述多个表中第一表和其他表之间是多对一关系时,在组织所述文档数据时,采用所述第一表的主键作为唯一标识;当所述多个表中任意两个表之间是多对多关系时,在组织所述文档数据时,采用由所述多个表中每个表的主键组成的联合字段作为唯一标识。本专利技术的实施例具有以下优点或有益效果:实时将关系型数据库表中的数据转换为全文检索服务支持的文档数据,并存储到集群上,使得能够利用全文检索服务检索文档数据,从而规避了传统关系型数据库查询方式对于海量数据检索的性能瓶颈以及离线处理方式无法具有实时性的缺点,使得海量数据检索同时具有实时性和高效性的优点。附图说明通过参照以下附图对本专利技术实施例的描述,本专利技术的上述以及其它目的、特征和优点将更为清楚,在附图中:图1是根据本专利技术实施例的数据处理方法的流程图;图2-4基于本专利技术的数据处理流程方法对三种关联关系下组织和存储文档数据进行示例性地描述;图5是根据本专利技术实施例的数据处理系统的结构图;图6是采用相关技术构建本专利技术实施例的数据处理系统的技术架构图;图7是根据本专利技术实施例的用于执行数据处理方法的装置的示意图。具体实施方式以下基于实施例对本专利技术进行描述,但是本专利技术并不仅仅限于这些实施例。在下文对本专利技术的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本专利技术。为了避免混淆本专利技术的实质,公知的方法、过程、流程没有详细叙述。另外附图不一定是按比例绘制的。本专利技术的核心思想在于实时地将关系型数据库中的多个表的表数据转换为存储到集群上的文档数据,由于集群上部署了用于支持文档数据的存储和检索的全文检索服务,从而能够确保海量数据检索的实时性和高效性。图1是根据本专利技术第一实施例的数据处理方法的流程图。具体包括以下步骤。本文档来自技高网
...

【技术保护点】
1.一种数据处理方法,其特征在于,包括:/n获取多个表的表数据;/n将所述多个表的表数据分别存储到多个数据单元中,所述多个表和所述多个数据单元一一对应;/n从所述多个数据单元中获取所述多个表的表数据,并基于所述多个表的关联关系组织所述多个表的表数据,以得到文档数据;以及/n将所述文档数据存储到集群上,/n其中,所述集群上部署有全文检索服务,所述文档数据根据全文检索服务提供的接口进行组织和存储。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
获取多个表的表数据;
将所述多个表的表数据分别存储到多个数据单元中,所述多个表和所述多个数据单元一一对应;
从所述多个数据单元中获取所述多个表的表数据,并基于所述多个表的关联关系组织所述多个表的表数据,以得到文档数据;以及
将所述文档数据存储到集群上,
其中,所述集群上部署有全文检索服务,所述文档数据根据全文检索服务提供的接口进行组织和存储。


2.根据权利要求1所述的数据处理方法,其特征在于,监控并解析数据库操作日志,以实时地获取多个表的表数据。


3.根据权利要求1所述的数据处理方法,其特征在于,所述多个表中任意两个表之间具有下述关联关系中的至少一种:一对一关系、多对一关系和多对多关系。


4.根据权利要求3所述的数据处理方法,其特征在于,当所述多个表中任意两个表之间的关联关系为一对一关系时,在组织所述文档数据时,采用关联字段作为唯一标识;当所述多个表中第一表和其他表之间是多对一关系时,在组织所述文档数据时,采用所述第一表的主键作为唯一标识;当所述多个表中任意两个表之间是多对多关系时,在组织所述文档数据时,采用由所述多个表中每个表的主键组成的联合字段作为唯一标识。


5.根据权利要求1所述的数据处理方法,其特征在于,并发执行所述从多个数据单元中获取多个表的表数据,并基于所述多个表的关联关系组织所述多个表的表数据,以得到文档数据的步骤。


6.根据权利要求5所述的数据处理方法,其特征在于,还包括:将所述多个表的表数据缓存到缓存数据库上,以及在获取一条表数据时,通过检索缓存数据库获取其他表的表数据,以组织所述文档数据。


7.根据权利要求5所述的数据处理方法,其特征在于,当所述多个表中任意两个表之间的关联关系为一对一关系时,每获取一条表数据,将其组织为所述文档数据实时存储到所述集群上;当所述多个表中第一表和其他表之间是多对一关系时,每获取所述第一表的一条表数据,将其主键缓存到所述缓存数据库中,并且通过检索缓存数据库获取其他表的表数据,以组织所述文档数据;当所述多个表中任意两个表之间...

【专利技术属性】
技术研发人员:姚再毅
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1