一种异构数据源规范化处理方法、装置及服务器制造方法及图纸

技术编号:17970716 阅读:36 留言:0更新日期:2018-05-16 11:30
本申请实施例提供了一种异构数据源规范化处理方法、装置及服务器。能够根据待处理数据源的概要信息生成通用结构的信息索引;然后,将待处理的异构数据源分成多个数据源分片,再根据数据源分片的片区信息索引将数据源分片转化成预设运算框架下的数据集区块;最后,整合数据集区块,得到规范化的数据集。与现有技术相比,本申请直接从待处理数据源中获取数据源分片,从而保证获取的数据源及时准确,通过服务器的集群节点多线程地将数据源分片转化成数据集区块并整合成规范化的数据集,极大地减小了数据处理时间,保证了数据的实时性;并且,当数据源中的内容发生变化时,仅需对发生变化的数据源分片进行重新读取和转化,实现数据集的及时更新。

【技术实现步骤摘要】
一种异构数据源规范化处理方法、装置及服务器
本申请涉及数据处理
,尤其涉及一种异构数据规范化处理方法、装置及服务器。
技术介绍
随着信息化时代的到来,信息数据的生成和更迭速度不断加快,信息数据量也随之迅速增加。在数量众多的信息数据中,由于数据源的来源不同,其数据类型、数据结构也多种多样。由于不同数据结构的数据源都要使用不同的分析逻辑,导致在对多个不同数据结构的数据源进行数据分析时,不能直接使用通用的分析逻辑对这些数据源进行统一的处理。现有技术中,为了实现对异构数据的统一处理,使用了一种异构数据源的预处理方法,如图1所示,这种方法将获取到的数据源预处理成指定的数据结构,然后再存储至数据库中,当需要进行数据分析时,从数据库中加载已经统一处理成指定数据结构的数据源至服务器。但是,如果数据源的数据内容、配置信息、数据结构等任何一个因素发生变化,现有技术中的方法都要重新将数据源进行预处理,并更新存储至数据库中,以保证存储在数据库中的数据源保持完整和准确。但是,由于数据源的数据量巨大,每次进行预处理时都要消耗大量时间,无法保证数据库中数据的及时性。并且,对于数据分析来说,有价值的数据仅占数据源的一部分,因此,现有技术的方法会处理和存储大量无价值的数据,造成硬件存储资源的浪费。并且,由于数据源的数据内容、配置信息、数据结构等会随时发生变化,在数据分析过程中,为了保证数据分析的及时和准确,需要实时加载最新的数据源,而现有技术中,由于预处理需要消耗大量时间,数据库中的数据源只能间隔一段时间才能更新一次,当进行数据分析时,数据库中存储的数据源可能已经过期,因此,现有技术无法保证在数据分析时,加载到的是最新的数据源,从而无定法保证数据的实时和准确。
技术实现思路
本申请实施例提供了一种异构数据规范化处理方法、装置及服务器,以解决现有技术中存在的问题。第一方面,本申请实施例提供了一种异构数据源规范化处理方法,所述方法包括:获取至少一个待处理数据源,根据每个待处理数据源的概要信息,生成每个待处理数据源的信息索引;根据所述信息索引和服务器的处理能力,对待处理数据源进行分片,并生成每个数据源分片的片区信息索引;根据服务器各个集群节点的负载状态,将所述数据源分片转化成预设运算框架下的数据集区块;根据所述片区信息索引,整合所有所述数据集区块。第二方面,本申请实施例提供了一种异构数据源规范化处理装置,所述装置包括:索引模块,用于获取至少一个待处理数据源,根据每个待处理数据源的概要信息,生成每个待处理数据源的信息索引;划分模块,用于根据所述信息索引和服务器的处理能力,对待处理数据源进行分片,并生成每个数据源分片的片区信息索引;转化模块,用于根据服务器各个集群节点的负载状态,将所述数据源分片转化成预设运算框架下的数据集区块;整合模块,用于根据所述片区信息索引,整合所有所述数据集区块。第三方面,本申请实施例提供了一种服务器,其中,服务器由多个集群节点组成,包括一个主节点和若干子节点,其特征在于,所述主节点用于分配所述子节点执行以下步骤:获取至少一个待处理数据源,根据每个待处理数据源的概要信息,生成每个待处理数据源的信息索引;根据所述信息索引和服务器的处理能力,对待处理数据源进行分片,并生成每个数据源分片的片区信息索引;根据服务器各个集群节点的负载状态,将所述数据源分片转化成预设运算框架下的数据集区块;根据所述片区信息索引,整合所有所述数据集区块。由以上技术方案可知,本申请实施例提供了一种异构数据源规范化处理方法、装置及服务器,能够根据待处理数据源的概要信息生成待处理数据源的信息索引,信息索引以统一的通用结构封装了异构数据源的概要信息;然后,将待处理的异构数据源分成多个数据源分片,再根据数据源分片的片区信息索引将数据源分片转化成预设运算框架下的数据集区块;最后,整合数据集区块,得到异构数据源规范化处理后的数据集。与现有技术相比,本申请的技术方案直接从待处理数据源中获取数据源分片,从而保证获取的数据源及时准确,通过服务器的集群节点多线程地将数据源分片转化成数据集区块并整合,得到规范化的数据集,极大地减小了数据处理时间,从而保证了数据的实时性;并且,当数据源中的内容发生变化时,仅需对发生变化的数据源分片进行重新读取和转化,而不需要重新加载数据源,实现数据集的及时更新。附图说明为了更清楚地说明本专利技术的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为现有技术的一种异构数据源的预处理方法的示意图;图2为本申请实施例提供的一种异构数据源规范化处理方法的流程图;图3为本申请实施例提供的一种异构数据源规范化处理方法步骤S110的流程图;图4为本申请实施例提供的一种异构数据源规范化处理方法步骤S120的流程图;图5为本申请实施例提供的一种异构数据源规范化处理方法步骤S122的流程图;图6为本申请实施例提供的一种异构数据源规范化处理方法步骤S130的流程图;图7为本申请实施例提供的一种异构数据源规范化处理方法步骤S134的流程图;图8为本申请实施例提供的一种异构数据源规范化处理方法步骤S140的流程图;图9为本申请实施例提供的一种异构数据源规范化处理装置框图;图10为本申请实施例提供的一种服务器的结构框图。具体实施方式为了使本
的人员更好地理解本专利技术中的技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。现有技术中对异构数据的处理中,先将获取到的数据源预处理成指定的数据结构,然后在存储至数据库中,当需要进行数据分析时,从数据库中加载已经统一处理成指定数据结构的数据源。但是,由于数据源会经常发生变化,例如数据增加、数据变更等,当数据发生变化时,现有技术的处理方法要重新将数据源进行处理并重新存储至数据库,这一过程耗时很长,无法满足数据的实时性,并且由于每次对数据源进行预处理都需要消耗大量时间,数据库中的数据源只能间隔一段时间才能更新一次,当进行数据分析时,数据库中存储的数据源可能已经过期,因此,现有技术无法保证在数据分析时,加载到的是最新的数据源,从而无定法保证数据的实时和准确。本申请实施例提供了一种异构数据源规范化处理方法,图2为本申请实施例提供的一种异构数据源规范化处理方法的流程图,如图2所示,所述方法包括:步骤S110,获取至少一个待处理数据源,根据每个待处理数据源的概要信息,生成每个待处理数据源的信息索引。本申请中,数据源可分为两种数据类型:数据库型和文本型。其中,数据库型可更进一步包括:关系型数据库和非关系型数据库;常见的关系型数据库有:SQLServer,Oracle,MySQL,PostgreSQL等;常见的非关系型数据库有:MongoDB,Redis,CouchDB等。由于数据源的类型多,数据结构也不同,因此本申请中的数据源统称为异构数据源。关系型数据库通常以数据表的形式存储数据,在数据表中,每个本文档来自技高网
...
一种异构数据源规范化处理方法、装置及服务器

【技术保护点】
一种异构数据源规范化处理方法,其特征在于,所述方法包括:获取至少一个待处理数据源,根据每个待处理数据源的概要信息,生成每个待处理数据源的信息索引;根据所述信息索引和服务器的处理能力,对待处理数据源进行分片,并生成每个数据源分片的片区信息索引;根据服务器各个集群节点的负载状态,将所述数据源分片转化成预设运算框架下的数据集区块;根据所述片区信息索引,整合所有所述数据集区块。

【技术特征摘要】
1.一种异构数据源规范化处理方法,其特征在于,所述方法包括:获取至少一个待处理数据源,根据每个待处理数据源的概要信息,生成每个待处理数据源的信息索引;根据所述信息索引和服务器的处理能力,对待处理数据源进行分片,并生成每个数据源分片的片区信息索引;根据服务器各个集群节点的负载状态,将所述数据源分片转化成预设运算框架下的数据集区块;根据所述片区信息索引,整合所有所述数据集区块。2.根据权利要求1所述的方法,其特征在于,所述获取至少一个待处理数据源,根据每个待处理数据源的概要信息,生成每个待处理数据源的信息索引的步骤,包括:获取至少一个待处理数据源的存储地址;根据所述存储地址,获取至少一个待处理数据源的概要信息;将所述概要信息进行统一封装,生成待处理数据源的所述信息索引。3.根据权利要求1所述的方法,其特征在于,所述根据信息索引和服务器的处理能力,对待处理数据源进行分片,并生成每个数据源分片的片区信息索引的步骤包括:根据所述信息索引获取待处理数据源的数据类型;根据所述服务器的处理能力和所述数据类型,计算每个待处理数据源的分片数量;根据所述分片数量的计算结果,对待处理数据源进行分片,并生成每个所述数据源分片的片区信息索引。4.根据权利要求3所述的方法,其特征在于,所述数据类型包括数据库型和文本型,所述根据所述服务器的处理能力和所述数据类型,计算每个待处理数据源的分片数量的步骤,包括:当待处理数据源的所述数据类型为数据库型时,获取待处理数据源的空闲连接数;根据所述服务器的处理能力和所述空闲连接数,计算所述分片数量;以及,当待处理数据源的所述数据类型为文本型时,获取待处理数据源的文档大小;根据所述服务器的处理能力和所述文档大小,计算所述分片数量。5.根据权利要求1所述的方法,其特征在于,所述根据服务器各个集群节点的负载状态,将所述数据源分片转化成预设运算框架下的数据集区块的步骤,包括:根据各个所述集群节点的负载状态,将所述片区信息索引分发给所述集群节点中的空闲节点;根据所述空闲节点中的所述片区信息索引,创建每个所述空闲节点的读取队列;根据所述片区信息索引和所述读取队列读取所述数据源分片;将读取...

【专利技术属性】
技术研发人员:李德彦晋耀红陈天
申请(专利权)人:中科鼎富北京科技发展有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1