数据源的处理方法、装置及智能分析平台制造方法及图纸

技术编号:30239612 阅读:34 留言:0更新日期:2021-10-09 20:15
本申请提供一种数据源的处理方法、装置及智能分析平台,其中,数据源的处理方法,包括:获取多种数据源;对多种所述数据源进行统计分析,并得到所述数据源中的数据信息;根据各种所述数据信息并结合预定的分类逻辑,对各种所述数据源设置标准化的元数据列表;基于该数据信息和标准化的元数据列表作为样本集训练得到标准的数据查询引擎;将多种数据源提取到标准化的数据查询引擎,所述多种数据源通过标准化的数据查询引擎进行处理,得到汇总后的标准化的数据源。根据本申请的实施例的方法,能够将各种数据源统一化、标准化,便于数据开发人员更快的了解各种数据源的状态,且能够自动分析元数据列表,提高工作效率。提高工作效率。提高工作效率。

【技术实现步骤摘要】
数据源的处理方法、装置及智能分析平台


[0001]本申请涉及数据处理
,尤其涉及一种数据源的处理方法、装置及智能分析平台。

技术介绍

[0002]现在各个产品的数据之间经常会有很多联系和依赖,需要很多重复的开发工作将各个数据源的统一,而且这些工具很难在其他产品中利用,因而需要对这些数据进一步处理,以便于使用人员更加方便的提取和使用。

技术实现思路

[0003]有鉴于此,本申请提供一种数据源的处理方法、装置及智能分析平台,能够对各种数据源进行标准化处理,便于数据的使用。
[0004]为解决上述技术问题,本申请采用以下技术方案:
[0005]第一方面,本申请实施例提供了一种数据源的处理方法,包括如下步骤:
[0006]获取多类数据源;将多类数据源提取到标准化的数据查询引擎,并通过标准化的数据查询引擎进行处理,得到汇总后的标准化的各种数据源。例如,通过适配的接口进行接入各种数据源,并提取各种数据源,以汇总各种数据源,其中各种数据源可以是多种不同类型的数据源的集合,基于各种数据源并结合标准化的数据查询引擎进行机器学习得到标准化的、统一的各种数据源。
[0007]对各种所述数据源进行统计分析,并得到所述数据源中的数据信息,其中数据信息可以是文字内容、数字内容等信息,根据各种所述数据信息并结合预定的分类逻辑,对各种所述数据源设置标准化的元数据列表,并基于该数据信息和标准化的数据源列表作为样本集训练得到标准的数据查询引擎,并在各种数据源提取到该标准的数据查询引擎时,将将各种数据源进行统一标准化处理,便于数据开发人员更快的了解各种数据源的状态。
[0008]根据本申请实施例的数据源的处理方法,能够将各种数据源统一化、标准化,便于数据开发人员更快的了解各种数据源的状态,且能够自动分析元数据列表,提高工作效率。
[0009]作为本申请第一方面的一个实施例,所述数据源可以包括:文件、网页、关系型数据库、时序数据库、分析型数据库、实时消息队列和数据提取接口中的一种或多种,通过对多种数据源进行统一化,标准化,便于对各种数据的开发或使用。
[0010]作为本申请第一方面的一个实施例,所述元数据列表中包括:数据源中的各个数据字段的类型、范围、含义和分布的一种或多种。
[0011]作为本申请第一方面的一个实施例,所述预定的分类逻辑,包括:
[0012]判断所述数据信息是否符合设定属性的阈值,例如,数据信息为18位数字,属性为身份证,身份证的阈值可设置为15位数,或18位数字,而当前的数据信息为18位数,符合设定的身份证的阈值;
[0013]当判断所述数据信息符合设定属性的阈值时,则将所述数据信息归为该属性,并
将所述属性记录在所述标准化的元数据列表中。进而可以通过元数据列表的记录属性可以直接得到该数据源的数据信息为身份证,便于数据使用者快速的了解数据源的状态。
[0014]作为本申请第一方面的一个实施例,获取多类数据源,包括:
[0015]设置适配各种所述数据源的接口,以获取多类数据源,并将多类数据源提取到标准的数据查询引擎,通过数据源的接口可以调取各种数据源,以便于数据源的汇总。
[0016]第二方面,本申请公开了一种数据源的处理装置,包括:
[0017]获取模块,用于获取多类数据源;
[0018]分析模块,用于对各种所述数据源进行统计分析,并得到所述数据源中的数据信息;
[0019]处理模块,用于根据各种所述数据信息并结合预定的分类逻辑,对各种所述数据源设置标准化的元数据列表;
[0020]所述处理模块基于该数据信息和标准化的数据源列表作为样本集训练得到标准的数据查询引擎;
[0021]提取模块,用于将多种数据源提取到标准化的数据查询引擎,以使多种数据源并通过标准化的数据查询引擎进行处理,得到汇总后的标准化的各种数据源。
[0022]根据本申请实施例的数据源的处理装置,能够将各种数据源统一化、标准化,便于数据开发人员更快的了解各种数据源的状态,且能够自动分析元数据列表,提高工作效率。
[0023]作为本申请第二方面的一个实施例,所述数据源包括:文件、网页、关系型数据库、时序数据库、分析型数据库、实时消息队列或数据提取接口。
[0024]作为本申请第二方面的一个实施例,所述元数据列表包括:数据源中的各个数据字段的类型、范围、含义和分布的一种或多种。
[0025]作为本申请第二方面的一个实施例,所述处理模块具体用于:
[0026]判断所述数据信息是否符合设定属性的阈值;
[0027]当判断所述数据信息符合设定属性的阈值时,则将所述数据信息归为该属性,并将所述属性记录在所述标准化的元数据列表中。
[0028]作为本申请第二方面的一个实施例,所述获取模块还用于:设置适配各类所述数据源的接口,以获取多类数据源,进而将多类数据源提取到标准的数据查询引擎,以汇总各种数据源。
[0029]第三方面,本申请公开了一种智能分析平台,包括上述实施例所述的数据源的处理装置。
[0030]第四方面,本申请公开了一种电子设备,包括:处理器;和存储器,在所述存储器中存储有计算机程序指令,
[0031]其中,在所述计算机程序指令被所述处理器运行时,使得所述处理器执行上述实施例的方法。
[0032]本申请的上述技术方案至少具有如下有益效果之一:
[0033]根据本申请实施例的数据源的处理方法、装置及智能分析平台,能够将各种数据源统一化、标准化,便于数据开发人员更快的了解各种数据源的状态。
附图说明
[0034]图1为本申请一个实施例的数据源的处理方法的流程图;
[0035]图2为本申请一个实施例的数据源的处理装置的结构示意图;
[0036]图3为本专利技术实施例的电子设备的示意图。
具体实施方式
[0037]为了使本申请的内容更容易被清楚地理解,下面将结合附图和实施例,对本申请的具体实施方式作进一步详细描述。以下实施例用于说明本申请,但不用来限制本申请的范围。
[0038]下面结合附图对本申请的实施例的数据源的处理方法进行描述,图1示出了数据源的处理方法的流程图,如图1所示,该方法包括如下步骤:
[0039]步骤S110,获取多种数据源,其中,数据源包括:文件、网页、关系型数据库、时序数据库、分析型数据库、实时消息队列和数据提取接口中的一种或多种。获取多类数据源可以包括:设置适配各种所述数据源的接口,以获取多类数据源。通过该数据源的接口可以调取各种数据源,以便于各种数据源的汇总。
[0040]步骤S120,对各种所述数据源进行统计分析,并得到所述数据源中的数据信息。对数据源的统计分析包括对数据源中的元数据进行分析,分析出数据源中各字段的类型、范围、含义、分布等信息,例如,某字段的含义为男、女,分布在哪一个数据源中等。
[0041]步骤130,根据各种所述数据信息并结合预本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据源的处理方法,其特征在于,包括:获取多种数据源;对多种所述数据源进行统计分析,并得到所述数据源中的数据信息;根据各种所述数据信息并结合预定的分类逻辑,对各种所述数据源设置标准化的元数据列表;基于该数据信息和标准化的元数据列表作为样本集训练得到标准的数据查询引擎;将多种数据源提取到标准化的数据查询引擎,所述多种数据源通过标准化的数据查询引擎进行处理,得到汇总后的标准化的数据源。2.根据权利要求1所述的方法,其特征在于,所述数据源包括:文件、网页、关系型数据库、时序数据库、分析型数据库、实时消息队列和数据提取接口中的一种或多种。3.根据权利要求1所述的方法,其特征在于,所述元数据列表中包括:数据源中的各个数据字段的类型、范围、含义和分布的一种或多种。4.根据权利要求1所述的方法,其特征在于,所述预定的分类逻辑,包括:判断所述数据信息是否符合设定属性的阈值;当判断所述数据信息符合设定属性的阈值时,则将所述数据信息归为该属性,并将所述属性记录在所述标准化的元数据列表中。5.一种数据源的处理装置,其特征在于,包括:获取模块,用于获取多类数据源;分析模块,用于对各种所述数据源进行统计分析,并得到所述数据源中的数据信息;处理模块,用...

【专利技术属性】
技术研发人员:薛昭瑜
申请(专利权)人:上海依图网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1