The invention provides a data acquisition method, a computer readable storage medium and a terminal device, which includes: determining multiple data sources according to preset requirements, calling the interfaces of each data source in turn, and extracting data; converting the data to a preset format for any data extracted; and obtaining data in a preset format for any one of the data sources. The data in preset format is used to determine whether the data is dirty or not. The dirty data includes incomplete data or incorrect data. The clean data set is loaded into the data table of the target data warehouse according to the table mechanism defined by the preset physical data model. By processing structured, semi-structured and unstructured data extracted from different data sources, the problem of poor generality of existing data acquisition methods is solved.
【技术实现步骤摘要】
数据采集方法、计算机可读存储介质及终端设备
本专利技术属于计算机
,尤其涉及一种数据采集方法、计算机可读存储介质及终端设备。
技术介绍
随着信息社会需求的发展,为适应日趋激烈的市场竞争环境,提升企业的竞争力,各大企业都运用信息管理系统建立起大规模的数据仓库,充分利用企业的数据仓库能够全面的了解和掌握企业的经营情况,准确的分析和制定企业的发展方向,有效的控制和降低企业的运营成本,产生大量宝贵数据资源,实现对信息的智能化加工和处理。建立数据仓库需要对数据进行采集,现有的数据技术只针对特定的企业或项目,通用性较差。
技术实现思路
有鉴于此,本专利技术实施例提供了一种数据采集方法、计算机可读存储介质及终端设备,以解决现有数据采集方法通用性差的问题。本专利技术实施例的第一方面提供了一种数据采集方法,包括:根据预设需求确定多个数据源,依次调用所述多个数据源中每个数据源的接口,进行数据抽取;针对抽取到的任一条数据,将所述数据进行数据转换,得到预设格式的数据;针对任一条所述预设格式的数据,判断所述数据是否为脏数据,所述数据为脏数据包括所述数据为不完整的数据或所述数据为错误数据;将清洗干净的数据集按照预设物理数据模型定义的表机构装载至目标数据仓库的数据表中。本专利技术实施例的第二方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如下步骤:根据预设需求确定多个数据源,依次调用所述多个数据源中每个数据源的接口,进行数据抽取;针对抽取到的任一条数据,将所述数据进行数据转换,得到预设格式的数据;针对任一条所述预设格式 ...
【技术保护点】
1.一种数据采集方法,其特征在于,该方法包括:根据预设需求确定多个数据源,依次调用所述多个数据源中每个数据源的接口,进行数据抽取;针对抽取到的任一条数据,将所述数据进行数据转换,得到预设格式的数据;针对任一条所述预设格式的数据,判断所述数据是否为脏数据,所述数据为脏数据包括所述数据为不完整的数据或所述数据为错误数据;将清洗干净的数据集按照预设物理数据模型定义的表机构装载至目标数据仓库的数据表中。
【技术特征摘要】
1.一种数据采集方法,其特征在于,该方法包括:根据预设需求确定多个数据源,依次调用所述多个数据源中每个数据源的接口,进行数据抽取;针对抽取到的任一条数据,将所述数据进行数据转换,得到预设格式的数据;针对任一条所述预设格式的数据,判断所述数据是否为脏数据,所述数据为脏数据包括所述数据为不完整的数据或所述数据为错误数据;将清洗干净的数据集按照预设物理数据模型定义的表机构装载至目标数据仓库的数据表中。2.根据权利要求1所述的数据采集方法,其特征在于,所述进行数据抽取包括:若所述数据为半结构化的数据,则采用混合表示法对所述数据及所述数据所对应的数据模式进行建模,通过基于内容以及结构框架的方法对所述数据进行抽取;若所述数据为非结构化的数据,则采用模糊匹配的方法识别所述数据所在表格中的直线行上的字段,对所述数据进行抽取。3.根据权利要求1所述的数据采集方法,其特征在于,所述将所述数据进行数据转换包括:获取所述预设格式所对应的多个属性;针对所述多个属性中的任一属性,在所述数据中获取所述属性所对应的属性值;将所述属性所对应的属性值添加至所述属性在所述数据格式中所对应的位置,将所述数据转换为所述预设格式的数据。4.根据权利要求1所述的数据采集方法,其特征在于,所述判断所述数据是否为脏数据包括:通过检测预设的不为空的属性值是否为空、NULL或N/A,若所述预设的不为空的属性值为空、NULL或N/A中的任一项,则判断所述数据为不完整的数据;通过建立所述数据所在的关系表与预设主数据或预设知识库之间的映射关系,判断所述数据是否为错误数据。5.根据权利要求1所述的数据采集方法,其特征在于,所述将清洗干净的数据集按照预设物理数据模型定义的表机构装载至目标数据仓库的数据表中包括:若所述数据与目标数据仓库处于同一系统中,则将所述数据及所述数据对应的元数据存储至所述目标数据仓库的数据表中;若所述数据存储在临时存储空间中,则通过异构系统进行接口载入,将所述数据装载至所述目标数据仓库的...
【专利技术属性】
技术研发人员:吴又奎,钟秋发,赵正旭,
申请(专利权)人:中科恒运股份有限公司,
类型:发明
国别省市:河北,13
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。