一种异构数据源规范化处理方法、装置及服务器制造方法及图纸

技术编号：17970716 阅读：36 留言：0更新日期：2018-05-16 11:30

本申请实施例提供了一种异构数据源规范化处理方法、装置及服务器。能够根据待处理数据源的概要信息生成通用结构的信息索引；然后，将待处理的异构数据源分成多个数据源分片，再根据数据源分片的片区信息索引将数据源分片转化成预设运算框架下的数据集区块；最后，整合数据集区块，得到规范化的数据集。与现有技术相比，本申请直接从待处理数据源中获取数据源分片，从而保证获取的数据源及时准确，通过服务器的集群节点多线程地将数据源分片转化成数据集区块并整合成规范化的数据集，极大地减小了数据处理时间，保证了数据的实时性；并且，当数据源中的内容发生变化时，仅需对发生变化的数据源分片进行重新读取和转化，实现数据集的及时更新。

全部详细技术资料下载

【技术实现步骤摘要】
一种异构数据源规范化处理方法、装置及服务器
本申请涉及数据处理
，尤其涉及一种异构数据规范化处理方法、装置及服务器。
技术介绍
随着信息化时代的到来，信息数据的生成和更迭速度不断加快，信息数据量也随之迅速增加。在数量众多的信息数据中，由于数据源的来源不同，其数据类型、数据结构也多种多样。由于不同数据结构的数据源都要使用不同的分析逻辑，导致在对多个不同数据结构的数据源进行数据分析时，不能直接使用通用的分析逻辑对这些数据源进行统一的处理。现有技术中，为了实现对异构数据的统一处理，使用了一种异构数据源的预处理方法，如图1所示，这种方法将获取到的数据源预处理成指定的数据结构，然后再存储至数据库中，当需要进行数据分析时，从数据库中加载已经统一处理成指定数据结构的数据源至服务器。但是，如果数据源的数据内容、配置信息、数据结构等任何一个因素发生变化，现有技术中的方法都要重新将数据源进行预处理，并更新存储至数据库中，以保证存储在数据库中的数据源保持完整和准确。但是，由于数据源的数据量巨大，每次进行预处理时都要消耗大量时间，无法保证数据库中数据的及时性。并且，对于数据分析来说，有价值的数据仅占数据源的一部分，因此，现有技术的方法会处理和存储大量无价值的数据，造成硬件存储资源的浪费。并且，由于数据源的数据内容、配置信息、数据结构等会随时发生变化，在数据分析过程中，为了保证数据分析的及时和准确，需要实时加载最新的数据源，而现有技术中，由于预处理需要消耗大量时间，数据库中的数据源只能间隔一段时间才能更新一次，当进行数据分析时，数据库中存储的数据源可能已经过期，因此，现有技术...
一种异构数据源规范化处理方法、装置及服务器

【技术保护点】
一种异构数据源规范化处理方法，其特征在于，所述方法包括：获取至少一个待处理数据源，根据每个待处理数据源的概要信息，生成每个待处理数据源的信息索引；根据所述信息索引和服务器的处理能力，对待处理数据源进行分片，并生成每个数据源分片的片区信息索引；根据服务器各个集群节点的负载状态，将所述数据源分片转化成预设运算框架下的数据集区块；根据所述片区信息索引，整合所有所述数据集区块。

【技术特征摘要】
1.一种异构数据源规范化处理方法，其特征在于，所述方法包括：获取至少一个待处理数据源，根据每个待处理数据源的概要信息，生成每个待处理数据源的信息索引；根据所述信息索引和服务器的处理能力，对待处理数据源进行分片，并生成每个数据源分片的片区信息索引；根据服务器各个集群节点的负载状态，将所述数据源分片转化成预设运算框架下的数据集区块；根据所述片区信息索引，整合所有所述数据集区块。2.根据权利要求1所述的方法，其特征在于，所述获取至少一个待处理数据源，根据每个待处理数据源的概要信息，生成每个待处理数据源的信息索引的步骤，包括：获取至少一个待处理数据源的存储地址；根据所述存储地址，获取至少一个待处理数据源的概要信息；将所述概要信息进行统一封装，生成待处理数据源的所述信息索引。3.根据权利要求1所述的方法，其特征在于，所述根据信息索引和服务器的处理能力，对待处理数据源进行分片，并生成每个数据源分片的片区信息索引的步骤包括：根据所述信息索引获取待处理数据源的数据类型；根据所述服务器的处理能力和所述数据类型，计算每个待处理数据源的分片数量；根据所述分片数量的计算结果，对待处理数据源进行分片，并生成每个所述数据源分片的片区信息索引。4.根据权利要求3所述的方法，其特征在于，所述数据类型包括数据库型和文本型，所述根据所述服务器的处理能力和所述数据类型，计算每个待处理数据源的分片数量的步骤，包括：当待处理数据源的所述数据类型为数据库型时，获取待处理数据源的空闲连接数；根据所述服务器的处理能力和所述空闲连接数，计算所述分片数量；以及，当待处理数据源的所述数据类型为文本型时，获取待处理数据源的文档大小；根据所述服务器的处理能力和所述文档大小，计算所述分片数量。5.根据权利要求1所述的方法，其特征在于，所述根据服务器各个集群节点的负载状态，将所述数据源分片转化成预设运算框架下的数据集区块的步骤，包括：根据各个所述集群节点的负载状态，将所述片区信息索引分发给所述集群节点中的空闲节点；根据所述空闲节点中的所述片区信息索引，创建每个所述空闲节点的读取队列；根据所述片区信息索引和所述读取队列读取所述数据源分片；将读取...

【专利技术属性】
技术研发人员：李德彦，晋耀红，陈天，
申请(专利权)人：中科鼎富北京科技发展有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人