数据库的数据分布分析方法、装置,电子设备及存储介质制造方法及图纸

技术编号:22166749 阅读:24 留言:0更新日期:2019-09-21 10:30
本公开涉及一种数据库的数据分布分析方法、装置,电子设备及存储介质。通过识别目标数据样本集合中每一数据样本中的分隔符,并根据分隔符将数据样本分隔为至少一个数据段;然后根据分隔符、至少一个数据段、分隔符与至少一个数据段在数据样本中的排列顺序,确定数据样本的数据结构;最后根据目标数据样本集合中所有数据样本的数据结构生成用于表征数据库的数据分布的分析结果信息;通过上述的方式,由于是对所有的数据样本进行分析,因此得到的数据样本的数据分布信息更加可靠;并且无需人工介入,提高了对数据分布信息分析的效率,减少了人工成本。

DATA DISTRIBUTION ANALYSIS METHOD, EQUIPMENT, ELECTRONIC EQUIPMENT AND STORAGE MEDIUM OF DATABASE

【技术实现步骤摘要】
数据库的数据分布分析方法、装置,电子设备及存储介质
本公开涉及数据统计分析,具体地,涉及一种数据库的数据分布分析方法、装置,电子设备及存储介质。
技术介绍
数据库(DataBase,DB)是一个长期存储在计算机内的、有组织的、有共享的、统一管理的数据集合。数据库具有数据的结构化、共享性好、独立性好、存储粒度小等特点,为用户提供了友好的接口。对于数据库的使用方而言,若想要运用数据库内的数据样本,需要对整个数据库中的数据样本的数据结构有基本的了解,以根据了解到的数据基本结构确定如何使用或处理数据库内的数据样本。传统的对数据结构的基本了解方式为:从数据库的大量的数据样本中抽取部分数据样本,然后由管理人员对抽取出的部分样本进行分析,从而大概了解数据库中的数据样本的数据分布信息。然而由于抽取的数据样本仅仅是数据库的大量的数据样本的一部分,因此,得到的数据样本的数据分布信息的可靠性不高,并且需要浪费大量的人力成本对抽取抽取部分数据样本逐个进行分析。
技术实现思路
本公开的目的是提供一种数据库的数据分布分析方法、装置,电子设备及存储介质,以实现高效率、低成本的得到可靠性高的数据库的数据样本的数据分布信息。为了实现上述目的,本公开实施例第一方面提供了一种数据分布分析方法,包括:从数据库获取目标数据样本集合;识别所述目标数据样本集合中每一数据样本中的分隔符,并根据所述分隔符将所述数据样本分隔为至少一个数据段;根据所述分隔符、所述至少一个数据段、所述分隔符与所述至少一个数据段在所述数据样本中的排列顺序,确定所述数据样本的数据结构;根据所述目标数据样本集合中所有数据样本的数据结构生成用于表征所述数据库的数据分布的分析结果信息。可选地,在所述根据所述分隔符、所述至少一个数据段、所述分隔符与所述至少一个数据段在所述数据样本中的排列顺序,确定所述数据样本的数据结构之前,所述方法还包括:逐个将每个所述数据段分别缓存于第一有序链表的不同地址中以及所述分隔符缓存于第二有序链表的不同地址中,以记录所述分隔符与所述至少一个数据段在所述数据样本中的排列顺序。可选地,每个所述数据段包括字符串长度信息和/或数据类型,所述根据所述分隔符、所述至少一个数据段、所述分隔符与所述至少一个数据段在所述数据样本中的排列顺序,确定所述数据样本的数据结构包括:根据所述分隔符、所述字符串长度信息和/或数据类型、所述分隔符与所述至少一个数据段在所述数据样本中的排列顺序,确定所述数据样本的数据结构。可选地,所述根据所述目标数据样本集合中所有数据样本的数据结构生成用于表征所述数据库的数据分布的分析结果信息包括:根据预设的分类规则将所述数据样本分类;对每类所述数据样本进行数量统计,确定每类所述数据样本的占比;根据每类所述数据样本的数据结构及占比生成用于表征所述数据库的数据分布的分析结果信息。可选地,所述从数据库获取目标数据样本集合,包括:根据所述数据库中的元数据信息识别数据库中的非字符串;剔除数据库中的非字符串,得到所述目标样本数据集合。本公开实施例第二方面提供了一种数据库的数据分布分析装置,所述装置包括:数据获取模块,被配置成从数据库获取目标数据样本集合;数据识别模块,被配置成识别所述目标数据样本集合中每一数据样本中的分隔符,并根据所述分隔符将所述数据样本分隔为至少一个数据段;数据结构确定模块,被配置成根据所述分隔符、所述至少一个数据段、所述分隔符与所述至少一个数据段在所述数据样本中的排列顺序,确定所述数据样本的数据结构;结果生成模块,被配置成根据所述目标数据样本集合中所有数据样本的数据结构生成用于表征所述数据库的数据分布的分析结果信息。可选地,所述装置还包括:顺序记录模块,被配置成逐个将每个所述数据段分别缓存于第一有序链表的不同地址中以及所述分隔符缓存于第二有序链表的不同地址中,以记录所述分隔符与所述至少一个数据段在所述数据样本中的排列顺序。可选地,所述数据结构确定模块具体被配置成根据所述分隔符、所述字符串长度信息和/或数据类型、所述分隔符与所述至少一个数据段在所述数据样本中的排列顺序,确定所述数据样本的数据结构。可选地,所述结果生成模块包括:分类子模块,被配置成根据预设的分类规则将所述数据样本分类;占比确定子模块,被配置成对每类所述数据样本进行数量统计,确定每类所述数据样本的占比;结果生成子模块,被配置成根据每类所述数据样本的数据结构及占比生成用于表征所述数据库的数据分布的分析结果信息。可选地,所述数据获取模块包括:字符识别子模块,被配置成根据所述数据库中的元数据信息识别数据库中的非字符串;字符剔除子模块,被配置成剔除数据库中的非字符串,得到所述目标样本数据集合。本公开实施例第三方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所述方法的步骤。本公开实施例第四方面提供了一种电子设备,包括:存储器,其上存储有计算机程序;处理器,用于执行所述存储器中的所述计算机程序,以实现第一方面所述方法的步骤。采用本公开提供的技术方案,至少能够达到如下技术效果:本公开提供的数据库的数据分布分析方法、装置,电子设备及存储介质,通过识别目标数据样本集合中每一数据样本中的分隔符,并根据分隔符将数据样本分隔为至少一个数据段;然后根据分隔符、至少一个数据段、分隔符与至少一个数据段在数据样本中的排列顺序,确定数据样本的数据结构;最后根据目标数据样本集合中所有数据样本的数据结构生成用于表征数据库的数据分布的分析结果信息;通过上述的方式,由于是对所有的数据样本进行分析,因此得到的数据样本的数据分布信息更加可靠;并且无需人工介入,提高了对数据分布信息分析的效率,减少了人工成本。本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。附图说明附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:图1是本公开实施例提供的数据库的数据分布分析方法的应用环境的交互示意图;图2是本公开实施例提供的一种实施方式的数据库的数据分布分析方法的流程图;图3是本公开实施例提供的另一种实施方式的数据库的数据分布分析方法的流程图;图4是本公开实施例提供的另一种实施方式的数据库的数据分布分析方法的流程图;图5是本公开实施例提供的另一种实施方式的数据库的数据分布分析方法的流程图;图6是本公开实施例提供的一种实施方式的数据库的数据分布分析装置的结构示意图;图7是本公开实施例提供的另一种实施方式的数据库的数据分布分析装置的结构示意图;图8是本公开实施例提供的另一种实施方式的数据库的数据分布分析装置的结构示意图;图9是本公开实施例提供的另一种实施方式的数据库的数据分布分析装置的结构示意图;图10是本公开实施例提供的一种电子设备的结构示意图。具体实施方式以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。首先值得说明的是,本公开实施例中的术语“第一”、“第二”等是用于区别类似的对象,不必理解为特定的顺序或先后次序。本公开实施例所提供的数据分布分析方法、装置,电子设备及存储介质可应用于如图1所示的应用环境中。如图1所示,客户端本文档来自技高网...

【技术保护点】
1.一种数据库的数据分布分析方法,其特征在于,所述方法包括:从数据库获取目标数据样本集合;识别所述目标数据样本集合中每一数据样本中的分隔符,并根据所述分隔符将所述数据样本分隔为至少一个数据段;根据所述分隔符、所述至少一个数据段、所述分隔符与所述至少一个数据段在所述数据样本中的排列顺序,确定所述数据样本的数据结构;根据所述目标数据样本集合中所有数据样本的数据结构生成用于表征所述数据库的数据分布的分析结果信息。

【技术特征摘要】
1.一种数据库的数据分布分析方法,其特征在于,所述方法包括:从数据库获取目标数据样本集合;识别所述目标数据样本集合中每一数据样本中的分隔符,并根据所述分隔符将所述数据样本分隔为至少一个数据段;根据所述分隔符、所述至少一个数据段、所述分隔符与所述至少一个数据段在所述数据样本中的排列顺序,确定所述数据样本的数据结构;根据所述目标数据样本集合中所有数据样本的数据结构生成用于表征所述数据库的数据分布的分析结果信息。2.根据权利要求1所述的方法,其特征在于,在所述根据所述分隔符、所述至少一个数据段、所述分隔符与所述至少一个数据段在所述数据样本中的排列顺序,确定所述数据样本的数据结构之前,所述方法还包括:逐个将每个所述数据段分别缓存于第一有序链表的不同地址中以及所述分隔符缓存于第二有序链表的不同地址中,以记录所述分隔符与所述至少一个数据段在所述数据样本中的排列顺序。3.根据权利要求1所述的方法,其特征在于,每个所述数据段包括字符串长度信息和/或数据类型,所述根据所述分隔符、所述至少一个数据段、所述分隔符与所述至少一个数据段在所述数据样本中的排列顺序,确定所述数据样本的数据结构包括:根据所述分隔符、所述字符串长度信息和/或数据类型、所述分隔符与所述至少一个数据段在所述数据样本中的排列顺序,确定所述数据样本的数据结构。4.根据权利要求1-3任一所述的方法,其特征在于,所述根据所述目标数据样本集合中所有数据样本的数据结构生成用于表征所述数据库的数据分布的分析结果信息包括:根据预设的分类规则将所述数据样本分类;对每类所述数据样本进行数量统计,确定每类所述数据样本的占比;根据每类所述数据样本的数据结构及占比生成用于表征所述数据库的数据分布的...

【专利技术属性】
技术研发人员:姜华牟晓光
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1