数据采集方法、计算机可读存储介质及终端设备技术

技术编号:20992615 阅读:20 留言:0更新日期:2019-04-29 22:35
本发明专利技术提供了一种数据采集方法、计算机可读存储介质及终端设备,包括:根据预设需求确定多个数据源,依次调用所述多个数据源中每个数据源的接口,进行数据抽取;针对抽取到的任一条数据,将所述数据进行数据转换,得到预设格式的数据;针对任一条所述预设格式的数据,判断所述数据是否为脏数据,所述数据为脏数据包括所述数据为不完整的数据或所述数据为错误数据;将清洗干净的数据集按照预设物理数据模型定义的表机构装载至目标数据仓库的数据表中。通过对不同数据源的数据进行抽取得到的结构化、半结构化和非结构化的数据进行处理,解决了现有的数据采集方法通用性差的问题。

Data Acquisition Method, Computer Readable Storage Media and Terminal Equipment

The invention provides a data acquisition method, a computer readable storage medium and a terminal device, which includes: determining multiple data sources according to preset requirements, calling the interfaces of each data source in turn, and extracting data; converting the data to a preset format for any data extracted; and obtaining data in a preset format for any one of the data sources. The data in preset format is used to determine whether the data is dirty or not. The dirty data includes incomplete data or incorrect data. The clean data set is loaded into the data table of the target data warehouse according to the table mechanism defined by the preset physical data model. By processing structured, semi-structured and unstructured data extracted from different data sources, the problem of poor generality of existing data acquisition methods is solved.

【技术实现步骤摘要】
数据采集方法、计算机可读存储介质及终端设备
本专利技术属于计算机
,尤其涉及一种数据采集方法、计算机可读存储介质及终端设备。
技术介绍
随着信息社会需求的发展,为适应日趋激烈的市场竞争环境,提升企业的竞争力,各大企业都运用信息管理系统建立起大规模的数据仓库,充分利用企业的数据仓库能够全面的了解和掌握企业的经营情况,准确的分析和制定企业的发展方向,有效的控制和降低企业的运营成本,产生大量宝贵数据资源,实现对信息的智能化加工和处理。建立数据仓库需要对数据进行采集,现有的数据技术只针对特定的企业或项目,通用性较差。
技术实现思路
有鉴于此,本专利技术实施例提供了一种数据采集方法、计算机可读存储介质及终端设备,以解决现有数据采集方法通用性差的问题。本专利技术实施例的第一方面提供了一种数据采集方法,包括:根据预设需求确定多个数据源,依次调用所述多个数据源中每个数据源的接口,进行数据抽取;针对抽取到的任一条数据,将所述数据进行数据转换,得到预设格式的数据;针对任一条所述预设格式的数据,判断所述数据是否为脏数据,所述数据为脏数据包括所述数据为不完整的数据或所述数据为错误数据;将清洗干净的数据集按照预设物理数据模型定义的表机构装载至目标数据仓库的数据表中。本专利技术实施例的第二方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如下步骤:根据预设需求确定多个数据源,依次调用所述多个数据源中每个数据源的接口,进行数据抽取;针对抽取到的任一条数据,将所述数据进行数据转换,得到预设格式的数据;针对任一条所述预设格式的数据,判断所述数据是否为脏数据,所述数据为脏数据包括所述数据为不完整的数据或所述数据为错误数据;将清洗干净的数据集按照预设物理数据模型定义的表机构装载至目标数据仓库的数据表中。本专利技术实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如下步骤:根据预设需求确定多个数据源,依次调用所述多个数据源中每个数据源的接口,进行数据抽取;针对抽取到的任一条数据,将所述数据进行数据转换,得到预设格式的数据;针对任一条所述预设格式的数据,判断所述数据是否为脏数据,所述数据为脏数据包括所述数据为不完整的数据或所述数据为错误数据;将清洗干净的数据集按照预设物理数据模型定义的表机构装载至目标数据仓库的数据表中。本专利技术提供了一种数据采集方法、计算机可读存储介质及终端设备,包括:根据预设需求确定多个数据源,依次调用所述多个数据源中每个数据源的接口,进行数据抽取;针对抽取到的任一条数据,将所述数据进行数据转换,得到预设格式的数据;针对任一条所述预设格式的数据,判断所述数据是否为脏数据,所述数据为脏数据包括所述数据为不完整的数据或所述数据为错误数据;将清洗干净的数据集按照预设物理数据模型定义的表机构装载至目标数据仓库的数据表中。通过对不同数据源的数据进行抽取得到的结构化、半结构化和非结构化的数据进行处理,解决了现有的数据采集方法通用性差的问题。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种数据采集方法的流程示意图;图2为本专利技术实施例提供的一种数据采集装置的结构框图;图3为本专利技术实施例提供的一种数据采集终端设备的示意图。具体实施方式以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本专利技术实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本专利技术。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本专利技术的描述。为了说明本专利技术所述的技术方案,下面通过具体实施例来进行说明。本专利技术实施例提供了一种数据采集方法。结合图1,该方法包括:S101,根据预设需求确定多个数据源,依次调用所述多个数据源中每个数据源的接口,进行数据抽取。具体的,在本专利技术实施例中,所述多个数据源不仅包括关系数据库,还包括不同网络、不同操作系统、不同数据库以及不同的应用。所述抽取到的数据不仅包含结构化数据,还包含半结构化数据和非结构化数据。对于半结构化数据和非结构化数据,提供如下数据抽取方法:若所述数据为半结构化的数据,则采用混合表示法对所述数据及所述数据所对应的数据模式进行建模,通过基于内容以及结构框架的方法对所述数据进行抽取。具体的,所述建模包括一套预设的概念层次和知识框架。若所述数据为非结构化的数据,则采用模糊匹配的方法识别所述数据所在表格中的直线行上的字段,对所述数据进行抽取。进一步的,对于采用手写汉字文件的这类非结构化数据,本专利技术实施例采用基于引力的算法,识别并抽取手写汉字所在表格中的汉字。S102,针对抽取到的任一条数据,将所述数据进行数据转换,得到预设格式的数据。数据转换就是处理抽取上来的数据中存在的不一致的过程,对数据的转化(数据的合并、汇总、过滤、转换等)、数据的重新格式化和计算、关键数据的重新构建和数据汇总、数据定位的过程。数据转换包括两类:一类是数据名称及格式的统一,即数据粒度转换、商务规则计算以及统一的命名、数据格式、计量单位等;另一类,数据仓库中存在数据库中可能不存在的数据,因此需要进行字段的组合、分割或计算。具体的,在本专利技术实施例中,数据转换包括:获取所述预设格式所对应的多个属性;针对所述多个属性中的任一属性,在所述数据中获取所述属性所对应的属性值;将所述属性所对应的属性值添加至所述属性在所述数据格式中所对应的位置,将所述数据转换为所述预设格式的数据。S103,针对任一条所述预设格式的数据,判断所述数据是否为脏数据,所述数据为脏数据包括所述数据为不完整的数据或所述数据为错误数据。具体的,在本专利技术实施例中,将脏数据分为两类,一类为不完整的数据,一类为错误数据,并分别为每一类脏数据提供一种数据清洗方法。对于不完整的数据,通过检测预设的不为空的属性值是否为空、NULL或N/A,若所述预设的不为空的属性值为空、NULL或N/A中的任一项,则判断所述数据为不完整的数据;对于错误数据,通过建立所述数据所在的关系表与预设主数据或预设知识库之间的映射关系,判断所述数据是否为错误数据。若所述数据所在的关系表不满足于预设主数据或预设知识库之间的映射关系,则判断该数据为错误数据。S104,将清洗干净的数据集按照预设物理数据模型定义的表机构装载至目标数据仓库的数据表中。具体的,在本专利技术实施例中,将数据装载问题分为三类进行解决:第一类,若所述数据与目标数据仓库处于同一系统中,则将所述数据及所述数据对应的元数据存储至所述目标数据仓库的数据表中;第二类,若所述数据存储在临时存储空间中,则通过异构系统进行接口载入,将所述数据装载至所述目标数据仓库的数据表中;第三类。若所述数据为对所述目标数据仓库中已有数据的更新,则通过所述数据所对应的元数据所定义的数据规则和格式对所述数据进行复核,并通过本文档来自技高网...

【技术保护点】
1.一种数据采集方法,其特征在于,该方法包括:根据预设需求确定多个数据源,依次调用所述多个数据源中每个数据源的接口,进行数据抽取;针对抽取到的任一条数据,将所述数据进行数据转换,得到预设格式的数据;针对任一条所述预设格式的数据,判断所述数据是否为脏数据,所述数据为脏数据包括所述数据为不完整的数据或所述数据为错误数据;将清洗干净的数据集按照预设物理数据模型定义的表机构装载至目标数据仓库的数据表中。

【技术特征摘要】
1.一种数据采集方法,其特征在于,该方法包括:根据预设需求确定多个数据源,依次调用所述多个数据源中每个数据源的接口,进行数据抽取;针对抽取到的任一条数据,将所述数据进行数据转换,得到预设格式的数据;针对任一条所述预设格式的数据,判断所述数据是否为脏数据,所述数据为脏数据包括所述数据为不完整的数据或所述数据为错误数据;将清洗干净的数据集按照预设物理数据模型定义的表机构装载至目标数据仓库的数据表中。2.根据权利要求1所述的数据采集方法,其特征在于,所述进行数据抽取包括:若所述数据为半结构化的数据,则采用混合表示法对所述数据及所述数据所对应的数据模式进行建模,通过基于内容以及结构框架的方法对所述数据进行抽取;若所述数据为非结构化的数据,则采用模糊匹配的方法识别所述数据所在表格中的直线行上的字段,对所述数据进行抽取。3.根据权利要求1所述的数据采集方法,其特征在于,所述将所述数据进行数据转换包括:获取所述预设格式所对应的多个属性;针对所述多个属性中的任一属性,在所述数据中获取所述属性所对应的属性值;将所述属性所对应的属性值添加至所述属性在所述数据格式中所对应的位置,将所述数据转换为所述预设格式的数据。4.根据权利要求1所述的数据采集方法,其特征在于,所述判断所述数据是否为脏数据包括:通过检测预设的不为空的属性值是否为空、NULL或N/A,若所述预设的不为空的属性值为空、NULL或N/A中的任一项,则判断所述数据为不完整的数据;通过建立所述数据所在的关系表与预设主数据或预设知识库之间的映射关系,判断所述数据是否为错误数据。5.根据权利要求1所述的数据采集方法,其特征在于,所述将清洗干净的数据集按照预设物理数据模型定义的表机构装载至目标数据仓库的数据表中包括:若所述数据与目标数据仓库处于同一系统中,则将所述数据及所述数据对应的元数据存储至所述目标数据仓库的数据表中;若所述数据存储在临时存储空间中,则通过异构系统进行接口载入,将所述数据装载至所述目标数据仓库的...

【专利技术属性】
技术研发人员:吴又奎钟秋发赵正旭
申请(专利权)人:中科恒运股份有限公司
类型:发明
国别省市:河北,13

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1