数据处理方法、系统、装置和计算机可读存储介质制造方法及图纸

技术编号：26303991 阅读：28 留言：0更新日期：2020-11-10 19:59

本发明专利技术实施例提供数据处理方法、系统、装置和计算机可读存储介质。该数据处理方法包括：获取多个表的表数据；将多个表的表数据分别存储到多个数据单元中，多个表和多个数据单元一一对应；从多个数据单元中获取多个表的表数据，并基于多个表的关联关系组织多个表的表数据，以得到文档数据；以及将文档数据存储到集群上，其中，集群上部署有全文检索服务，文档数据根据全文检索服务提供的接口进行组织和存储。本发明专利技术利用全文检索服务检索文档数据组织和存储文档数据，从而规避了传统关系型数据库查询方式对于海量数据检索的性能瓶颈以及离线处理方式无法具有实时性的缺点，使得海量数据检索同时具有实时性和高效性的优点。

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法、系统、装置和计算机可读存储介质
本专利技术涉及互联网
，具体涉及一种数据处理方法、系统、装置和计算机可读存储介质。
技术介绍
随着互联网+技术蓬勃发展，每天都产生海量的数据，在海量运营数据中，公司决策层对公司营业状况的实时指导、决策、监控具有强烈的需求，报表系统的出现可以轻松满足这个需求。传统关系型数据库查询方式，在对现有数据进行查询生成报表数据时，存在着大量针对多张数据库表进行随机查询的情况，而且大多数是表连接查询操作。在数据总量小于千万级别时，传统处理方式数据库响应时间能被优化到秒级以内。但是当查询数据总量超过几亿甚至是上十亿的时候，传统关系型数据库查询方式无论如何优化或者是更换索引机制，不仅无法满足快速响应的多并发要求，而且查询数据时对数据库造成很大的压力，甚至直接拖垮数据库服务。传统关系型数据库无法支撑之后，衍生出离线处理方式，即将数据导入数据仓库(hive)中，进行离线计算，再对离线计算结算进行查询。离线数据仓库都是T+1离线分析数据，运营人员今天看昨天的数据报表，无法第一时间监控当前运营实时生产情况，随着大家对数据及时性的要求越来越高，实时计算应景产生。综上，传统关系型数据库查询方式和离线处理方式各有缺点。传统关系型数据库查询方式由于报表系统的数据会涉及大量表关联查询、跨库和跨表查询，因此只能将业务表整合形成一个大数据表，虽然大数据表在系统中所占比例极小，但一个大数据表按照某一维度频繁查询统计多项指标数据时，由于各个事务都会争用同一个大数据表的资源而使效率低下，...

【技术保护点】
1.一种数据处理方法，其特征在于，包括：/n获取多个表的表数据；/n将所述多个表的表数据分别存储到多个数据单元中，所述多个表和所述多个数据单元一一对应；/n从所述多个数据单元中获取所述多个表的表数据，并基于所述多个表的关联关系组织所述多个表的表数据，以得到文档数据；以及/n将所述文档数据存储到集群上，/n其中，所述集群上部署有全文检索服务，所述文档数据根据全文检索服务提供的接口进行组织和存储。/n

【技术特征摘要】
1.一种数据处理方法，其特征在于，包括：
获取多个表的表数据；
将所述多个表的表数据分别存储到多个数据单元中，所述多个表和所述多个数据单元一一对应；
从所述多个数据单元中获取所述多个表的表数据，并基于所述多个表的关联关系组织所述多个表的表数据，以得到文档数据；以及
将所述文档数据存储到集群上，
其中，所述集群上部署有全文检索服务，所述文档数据根据全文检索服务提供的接口进行组织和存储。

2.根据权利要求1所述的数据处理方法，其特征在于，监控并解析数据库操作日志，以实时地获取多个表的表数据。

3.根据权利要求1所述的数据处理方法，其特征在于，所述多个表中任意两个表之间具有下述关联关系中的至少一种：一对一关系、多对一关系和多对多关系。

4.根据权利要求3所述的数据处理方法，其特征在于，当所述多个表中任意两个表之间的关联关系为一对一关系时，在组织所述文档数据时，采用关联字段作为唯一标识；当所述多个表中第一表和其他表之间是多对一关系时，在组织所述文档数据时，采用所述第一表的主键作为唯一标识；当所述多个表中任意两个表之间是多对多关系时，在组织所述文档数据时，采用由所述多个表中每个表的主键组成的联合字段作为唯一标识。

5.根据权利要求1所述的数据处理方法，其特征在于，并发执行所述从多个数据单元中获取多个表的表数据，并基于所述多个表的关联关系组织所述多个表的表数据，以得到文档数据的步骤。

6.根据权利要求5所述的数据处理方法，其特征在于，还包括：将所述多个表的表数据缓存到缓存数据库上，以及在获取一条表数据时，通过检索缓存数据库获取其他表的表数据，以组织所述文档数据。

7.根据权利要求5所述的数据处理方法，其特征在于，当所述多个表中任意两个表之间的关联关系为一对一关系时，每获取一条表数据，将其组织为所述文档数据实时存储到所述集群上；当所述多个表中第一表和其他表之间是多对一关系时，每获取所述第一表的一条表数据，将其主键缓存到所述缓存数据库中，并且通过检索缓存数据库获取其他表的表数据，以组织所述文档数据；当所述多个表中任意两个表之间...

【专利技术属性】
技术研发人员：姚再毅，
申请(专利权)人：北京京东尚科信息技术有限公司，北京京东世纪贸易有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人