【技术实现步骤摘要】
数据采集方法、装置、系统、计算机设备及存储介质
本专利技术涉及数据库领域,尤其涉及一种数据采集方法、装置、系统、计算机设备及存储介质。
技术介绍
随着数据库中数据的迅速增长,及时地为用户提供数据采集和查询服务的响应率势必受到影响,由此,提出针对数据库中的数据采集统计信息(CBOStat),以根据采集到的统计信息,计算最佳的SQL执行计划,从而有效地缩短为用户提供数据采集和查询服务的响应时间。目前,关于统计信息的采集,主要包括基于Spark的采集方案和基于Hive的采集方案,然而,上述方案中,要么不支持多种类型的数据表,要么支持多种类型的数据表却数据采集效率低下。由上可知,在支持多种类型的数据表前提下,如何提高数据采集效率尚待解决。
技术实现思路
本专利技术各实施例提供一种数据采集方法、装置及存储介质,以解决相关技术中存在的数据采集效率不高的问题。其中,本专利技术所采用的技术方案为:根据本专利技术的一个方面,一种数据采集方法,包括:对增量数据进行统计信息的若干次并发采样,得到对应于统计信息的多个采样信息,每一个采样信息对应一次并发采样,所述增量数据是在对数据库中的数据进行写操作过程中生成的;将对应于统计信息的多个采样信息合并,得到所述增量数据的统计信息;存储所述增量数据的统计信息。根据本专利技术的一个方面,一种数据采集装置,包括:采样模块,用于对增量数据进行统计信息的若干次并发采样,得到对应于统计信息的多个采样信息,每一个采样信息对应一次并发采样,所述增量数据 ...
【技术保护点】
1.一种数据采集方法,其特征在于,包括:/n对增量数据进行统计信息的若干次并发采样,得到对应于统计信息的多个采样信息,每一个采样信息对应一次并发采样,所述增量数据是在对数据库中的数据进行写操作过程中生成的;/n将对应于统计信息的多个采样信息合并,得到所述增量数据的统计信息;/n存储所述增量数据的统计信息。/n
【技术特征摘要】
1.一种数据采集方法,其特征在于,包括:
对增量数据进行统计信息的若干次并发采样,得到对应于统计信息的多个采样信息,每一个采样信息对应一次并发采样,所述增量数据是在对数据库中的数据进行写操作过程中生成的;
将对应于统计信息的多个采样信息合并,得到所述增量数据的统计信息;
存储所述增量数据的统计信息。
2.如权利要求1所述的方法,其特征在于,所述对增量数据进行统计信息的若干次并发采样,得到对应于统计信息的多个采样信息,包括:
针对每一次并发采样,根据所述增量数据中未进行采样的记录,随机生成采样行号;
基于线程池中空闲的线程,对所述增量数据中对应于所述采样行号的记录进行并发采样,得到一个采样信息。
3.如权利要求2所述的方法,其特征在于,所述基于线程池中空闲的线程,对所述增量数据中对应于所述采样行号的记录进行并发采样,得到一个采样信息,包括:
将所述采样行号对应的记录封装为目标对象;
从所述线程池中获取空闲的线程调用所述目标对象,得到一个采样信息。
4.如权利要求1所述的方法,其特征在于,所述统计信息包括表统计信息和列统计信息;
所述将对应于统计信息的多个采样信息合并,得到所述增量数据的统计信息,包括:
基于数据备份模式,根据多个采样信息的表统计信息,获得所述增量数据的表统计信息;
基于直方图,对多个采样信息的列统计信息进行合并,获得所述增量数据的列统计信息;
由所述增量数据的表统计信息和列统计信息,生成所述增量数据的统计信息。
5.如权利要求4所述的方法,其特征在于,所述基于数据备份模式,根据多个采样信息的表统计信息,获得所述增量数据的表统计信息,包括:
当所述数据备份模式为增量模式,计算多个采样信息的表统计信息之和,作为所述增量数据的表统计信息;或者,
当所述数据备份模式为全量模式,将采样时间最晚的采样信息的表统计信息,作为所述增量数据的表统计信息。
6.如权利要求4所述的方法,其特征在于,所述基于直方图,对多个采样信息的列统计信息进行合并,获得所述增量数据的列统计信息,包括:
对多个采样信息进行遍历,根据当前一个采样信息的列统计信息创建第二直方图,所述第二直方图区别于由前若干个采样信息的列统计信息创建的第一直方图;
根据所述第一直方图、所述第二直方图中桶的属性,生成第三直方图;
待多个采样信息完成遍历,根据所述第三直方图中桶的属性,得到所述增量数据的列统计信息。
7.如权利要求6所述的方法,其特征在于,所述桶的属性包括桶在直方图中的索引;
所述根据所述第一直方图、所述第二直方图中桶的属性,生成第三直方图,包括:
对所述第一直方图、所述第二直方图中的桶进行遍历,将所述第一直方图中遍历到的桶作为第一当前桶,将所述第二直方图中遍历到的桶作为第二当前桶;
当所述第一当前桶、所述第二当前桶的索引满足第一生成条件,将所述第一当前桶和/或所述第二当前桶,添加至所述第三直方图;
当所述第一当前桶、所述第二当前桶的索引满足第二生成条件,将所述第一直方图中未添加的桶,添加至所述第三直方图;
当所述第一当前桶、所述第二当前桶的索引满足第三生成条件,将所述第二直方图中未添加的桶,添加...
【专利技术属性】
技术研发人员:李少锋,
申请(专利权)人:深圳市腾讯计算机系统有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。