一种异构数据库库表目录的自动采集方法及系统技术方案

技术编号：24683302 阅读：42 留言：0更新日期：2020-06-27 07:57

本发明专利技术提供了一种异构数据库库表目录的自动采集方法和系统，该方法包括以下步骤：采集数据库的基本信息；统计所述数据库的基本信息以获得数据库库表的第一清单数据，将所述第一清单数据作为训练数据通过机器学习算法生成数据统计时长的预测模型；基于所述数据统计时长的预测模型，以最新抽取的数据库库表目录为对象，构建数据分批模型；利用所述数据分批模型对待统计数据库库表进行分批次、分链条，以获得数据库库表的第二清单数据；对所述第二清单数据的记录数量进行统计以获得数据库库表的统计信息。本发明专利技术可以在复杂信息环境下，实现异构数据库的数据资源完备信息的全覆盖采集和标准化处理，为从源头开展数据处理的系统提供准确数据。

An automatic collection method and system of table catalog in heterogeneous database

全部详细技术资料下载

【技术实现步骤摘要】
一种异构数据库库表目录的自动采集方法及系统
本专利技术属于大数据处理
，具体涉及一种异构数据库库表目录的自动采集方法及系统。
技术介绍
随着大数据技术应用的不断深入和丰富，数据资源管理的重要性和必要性越来越凸显。20世纪90年代时的以数据仓库为代表的数据应用方案，按照数据集成的思路，采用抽取、清洗、转换的方式，对数据进行管理和应用，但随着数据应用的不断深入，源系统数据质量问题逐步成为了数据应用的瓶颈，数据仓库“垃圾进、垃圾出”的特点需要更加有效的源系统解决方案。而业务系统建设的核心目标是实现具体业务的信息化支撑，聚焦特定的业务领域，难以满足用户的整体数据自主、自发地发展自身数据的处理需求，所以数据孤岛、数据烟囱等现象屡见不鲜。目前，各领域数据处理方法越来越重要，特别是基于源业务系统的数据处理任务越来越重要，相关的方法和系统也层出不穷。现有技术中的数据处理方法具体分为两类：一是以数据设计文档基础，通过人工梳理、归档的方式，基于业务系统的数据字典，构建企业级数据模型；二是以运...

【技术保护点】
1.一种异构数据库库表目录的自动采集方法，其特征在于，该自动采集方法包括以下步骤：/n采集数据库的基本信息；/n统计所述数据库的基本信息以获得数据库库表的第一清单数据，将所述第一清单数据作为训练数据通过机器学习算法生成数据统计时长的预测模型；/n基于所述数据统计时长的预测模型，以最新抽取的数据库库表目录为对象，构建数据分批模型；/n利用所述数据分批模型对待统计数据库库表进行分批次、分链条，以获得数据库库表的第二清单数据；/n对所述第二清单数据的记录数量进行统计以获得数据库库表的统计信息。/n

【技术特征摘要】
1.一种异构数据库库表目录的自动采集方法，其特征在于，该自动采集方法包括以下步骤：
采集数据库的基本信息；
统计所述数据库的基本信息以获得数据库库表的第一清单数据，将所述第一清单数据作为训练数据通过机器学习算法生成数据统计时长的预测模型；
基于所述数据统计时长的预测模型，以最新抽取的数据库库表目录为对象，构建数据分批模型；
利用所述数据分批模型对待统计数据库库表进行分批次、分链条，以获得数据库库表的第二清单数据；
对所述第二清单数据的记录数量进行统计以获得数据库库表的统计信息。

2.根据权利要求1所述的自动采集方法，其特征在于，利用最小二乘拟合方法对所述数据统计时长的预测模型进行调优。

3.根据权利要求1所述的自动采集方法，其特征在于，所述获得数据库库表的第二清单数据包括以下子步骤：
基于数据库库表目录的中间变量，对多个数据库进行分批次；
将分批次后的数据库划分在不同的链条上。

4.根据权利要求3所述的自动采集方法，其特征在于，所述基于所述数据库库表目录的中间变量，对多个数据库进行分批次包括以下子步骤：
依据数据库库表的表中数据量判断数据库是否存在抽取记录并生成抽取判断结果；
根据所述抽取判断结果对多个数据库进行分批次。

5.根据权利要求4所述的自动采集方法，其特征在于，
若数据库不存在抽取记录，则对多个数据库进行分批次包括以下子步骤：
根据数据库库表数量估算数据库库表的当前运行时间；
根据待分批数据库库表的数量获得该待分批数据库库表首次分批的批次数量；
利用待分批数据库库表的最大索引序号和所述首次分批的批次数量对数据库进行分批次；
对分批次后的数据库进行批次标记；
若数据库存在抽取记录，则利用最小二乘法来对数据库进行分批次。

6.根据权利要求5所述的自动采集方法，其特征在于，
对异构数据库中的单个数据库进行分批次包括以下子步骤：
设置对应分批次数量的多个列表，所述列表用于存放每一批数据库库表的索引号；
对列表内已有索引号对应的所对应的数据库库表模拟时间进行求和；
将下一个数据库库表的索引号插入所述多个列表中数据库库表模拟时间之和值最小...

【专利技术属性】
技术研发人员：杨开格，马成龙，马智强，李玉臻，
申请(专利权)人：山东海联讯信息科技有限公司，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人