当前位置: 首页 > 专利查询>河海大学专利>正文

一种多源异构数据的自适应变频增量更新方法技术

技术编号:24455911 阅读:46 留言:0更新日期:2020-06-10 15:32
本发明专利技术公开了一种多源异构数据的自适应变频增量更新方法,包括如下步骤:确定数据源与核心数据库集群;构建数据更新模型;部署并初始化数据更新模型;通过数据更新模型获取各数据源处数据;比较所获数据时间戳,判断是否需要更新;将更新数据加载至核心数据库集群;根据更新数据刷新频率配置表与时间戳记录表。本发明专利技术可以根据数据来源及数据结构动态更新数据,可自适应调整不同数据源更新频率,灵活性好,配置方便,更新速度较快,可扩展性较强。

An adaptive variable frequency incremental updating method for multi-source heterogeneous data

【技术实现步骤摘要】
一种多源异构数据的自适应变频增量更新方法
本专利技术属于数据挖掘与应用领域,具体涉及一种多源异构数据的自适应变频增量更新方法。
技术介绍
随着社会经济与数据采集技术的发展,各行各业产生了大量数据,这些数据包括了具有较强结构的结构化数据与半结构化数据,也包括了大量非结构化数据如文本、图像与视频数据。在数据采集技术提高的同时,数据存储与处理技术也不断发展。多源异构数据是指数据具有多个来源,同一来源的数据结构常常不同。常见的情况是“一数多源”以及“一源多数”。由于数据采集方与管理方分工的不同,一个数据源的数据,例如降水数据可能被多个单位的数据采集设备收集导致冗余;另一方面,由于不同业务对于数据要求不同,数据处理与更新的频率也不尽相同。同一个数据源可能存在多项不同频率的数据。由于现阶段数据存储主要以结构化的数据库存储方式为主,文本、图像与音视频等非结构化的数据存储难度较大。同时,不同数据源,例如网络数据源、数据库数据源以及人工填报数据源的数据存在不同的数据刷新频率,现今大多数的多源数据更新方式主要以定频更新方式为主,更新效率较低,更新结构灵活性较差。多源异构数据的存储、处理与迁移仍然存在较大的困难。
技术实现思路
专利技术目的:为了克服现有技术中存在的多源异构数据处理难度大,更新频率多变难以确定的问题,提供一种多源异构数据的自适应变频增量更新方法,该方法更新效率高、性能稳定、部署方便、可扩展性好。技术方案:为实现上述目的,本专利技术提供一种多源异构数据的自适应变频增量更新方法,包括如下步骤:>S1:确定数据源与核心数据库集群;S2:构建数据更新模型;S3:部署并初始化步骤S2构建的数据更新模型;S4:通过数据更新模型获取各数据源处数据;S5:比较所获数据时间戳,判断是否需要更新,如需要更新,则继续进行更新,如不需要更新,则重复步骤S4;S6:将更新数据加载至核心数据库集群;S7:根据更新数据刷新频率配置表与时间戳记录表。进一步的,所述步骤S1具体为:S1-1:确定数据源类型Data_Source_Type,其包括:人工填报数据源、网络数据源、整编数据库源;S1-2:根据数据源类型,确定数据源访问方法;S1-3:确定核心数据库集群类型及访问、读取写入方法;S1-4:创建数据源基本信息表SIT,字段包括:数据源名称snm,数据源IP地址sip、端口号spt、数据源类型stp、目标数据库IP地址tip、目标数据库端口号tpt、目标数据库用户名tusnm、目标数据库名tnm、目标数据库模式名tpnm、目标数据库连接密码tkw。进一步的,所述步骤S2中数据更新模型包括网络资源获取单元NAU、人工填报数据获取单元HAU、通用数据库数据抽取单元GDEU、更新频率控制单元FCU、通用数据规范单元GDTU和通用数据加载单元GDLU。所述网络资源获取单元NAU的构建步骤如下:S2a-1:构建IP地址解析访问模块,根据网络资源入口IP地址访问指定网络资源地址;S2a-2:构建网络资源下载模块,将链接所指向的数据下载至本地计算机;S2a-3:构建数据转储模块,将网络资源进行简单命名整理后存储至NAU所在计算机指定磁盘;S2a-4:构建终止条件判断模块,根据输入的终止条件C终止NAU程序;所述人工填报数据获取单元HAU的构建步骤如下:S2b-1:构建路径索引模块,查询指定文件路径下的文件内容是否存在新的数据文件;S2b-2:构建文件类型判断模块,判断新增加的文件的数据类型;S2b-3:构建数据存储模块,根据数据文件类型,判断数据存储形式,并将数据存储至HAU所在计算机指定磁盘;其中,人工填报数据是指由人工收集或填写的结构化数据文件或非结构化数据文件。人工收集或填写的结构化数据是指xls、csv、xlsx等具有清晰规范数据组织结构的数据文件,存储时不改变其结构与内容;人工收集或填写的非结构化数据是指文本、图像、音频等类型的不具有清晰规范数据结构的数据文件,存储时仅存储文件名称FileName、文件大小FileSize,文件位置FileLoca,并将所有非结构化数据的上述信息统一存储在名为datainfo.xls的文件中。所述通用数据库数据抽取单元GDEU的构建步骤如下:S2c-1:创建数据库基本信息表DBIT,字段包括:数据库IP地址dbip、端口号dbpt、用户名usnm、数据库名dbnm、模式名pnm、数据库连接密码dbkw、数据库类型dbtp;S2c-2:根据源数据库类型获取连接驱动程序或手动编写;S2c-3:抽取测试用例,测试数据库连接;所述更新频率控制单元FCU的构建步骤如下:S2d-1:创建更新时间戳记录表TRT,字段包括:数据源名称snm,数据源ip地址sip,更新时间戳uts;S2d-2:创建数据源更新频率配置表FRT,字段包括:数据源名称snm,数据源ip地址sip,更新频率suf;S2d-3:构建更新时间戳记录表读取模块;S2d-4:构建网络资源获取单元NAU、人工填报数据获取单元HAU、用数据库数据抽取单元GDEU调用模块;S2d-5:构建更新频率计算模块,用于计算更新各数据源的频率;S2d-6:构建数据源更新频率配置表刷新模块,将最新频率写入配置表;所述通用数据规范单元GDTU的构建步骤如下:S2e-1:构建数据读取模块;S2e-2:构建数据合并、整编、排序模块;S2e-3:构建数据写入模块;所述通用数据加载单元GDLU的构建步骤如下:S2f-1:构建核心数据库集群访问模块;S2f-2:构建规范数据读取模块;S2f-3:构建核心数据库加载数据加载模块。进一步的,所述步骤S3的具体过程如下:S3-1:部署数据更新模型,具体步骤包括:S3a-1:在单个计算机依照数据源情况部署网络资源获取单元NAU、人工填报数据获取单元HAU、通用数据库数据抽取单元GDEU以及通用数据规范单元GDTU,并测试;S3a-2:部署更新频率控制单元FCU并测试;S3a-3:部署数据加载单元GDLU并测试;S3-2:初始化数据更新模型的参数,具体步骤包括:S3b-1:初始化数据源基本信息SIT,字段包括:数据源名称snm,数据源IP地址sip、端口号spt、数据源类型stp、目标数据库IP地址tip、目标数据库端口号tpt、目标数据库用户名tusnm、目标数据库名tnm、目标数据库模式名tpnm、目标数据库连接密码tkw;S3b-2:初始化更新时间戳记录表TRT,字段包括:数据源名称snm,数据源ip地址sip,更新时间戳uts;S3b-3:初始化更新频率配置表FCT,字段包括:数据源名称snm,数据源ip地址sip,更新频率suf;S3b-4:初始化网络资源获取单元本文档来自技高网...

【技术保护点】
1.一种多源异构数据的自适应变频增量更新方法,其特征在于:包括如下步骤:/nS1:确定数据源与核心数据库集群;/nS2:构建数据更新模型;/nS3:部署并初始化步骤S2构建的数据更新模型;/nS4:通过数据更新模型获取各数据源处数据;/nS5:比较所获数据时间戳,判断是否需要更新,如需要更新,则继续进行更新,如不需要更新,则重复步骤S4;/nS6:将更新数据加载至核心数据库集群;/nS7:根据更新数据刷新频率配置表与时间戳记录表。/n

【技术特征摘要】
1.一种多源异构数据的自适应变频增量更新方法,其特征在于:包括如下步骤:
S1:确定数据源与核心数据库集群;
S2:构建数据更新模型;
S3:部署并初始化步骤S2构建的数据更新模型;
S4:通过数据更新模型获取各数据源处数据;
S5:比较所获数据时间戳,判断是否需要更新,如需要更新,则继续进行更新,如不需要更新,则重复步骤S4;
S6:将更新数据加载至核心数据库集群;
S7:根据更新数据刷新频率配置表与时间戳记录表。


2.根据权利要求1所述的一种多源异构数据的自适应变频增量更新方法,其特征在于:所述步骤S1具体为:
S1-1:确定数据源类型,其包括:人工填报数据源、网络数据源、整编数据库源;
S1-2:根据数据源类型,确定数据源访问方法;
S1-3:确定核心数据库集群类型及访问、读取写入方法;
S1-4:创建数据源基本信息表。


3.根据权利要求1所述的一种多源异构数据的自适应变频增量更新方法,其特征在于:所述步骤S2中数据更新模型包括网络资源获取单元NAU、人工填报数据获取单元HAU、通用数据库数据抽取单元GDEU、更新频率控制单元FCU、通用数据规范单元GDTU和通用数据加载单元GDLU。


4.根据权利要求3所述的一种多源异构数据的自适应变频增量更新方法,其特征在于:所述步骤S2中所述网络资源获取单元NAU的构建步骤如下:
S2a-1:构建IP地址解析访问模块,根据网络资源入口IP地址访问指定网络资源地址;
S2a-2:构建网络资源下载模块,将链接所指向的数据下载至本地计算机;
S2a-3:构建数据转储模块,将网络资源进行简单命名整理后存储至NAU所在计算机指定磁盘;
S2a-4:构建终止条件判断模块,根据输入的终止条件C终止NAU程序;
所述人工填报数据获取单元HAU的构建步骤如下:
S2b-1:构建路径索引模块,查询指定文件路径下的文件内容是否存在新的数据文件;
S2b-2:构建文件类型判断模块,判断新增加的文件的数据类型;
S2b-3:构建数据存储模块,根据数据文件类型,判断数据存储形式,并将数据存储至HAU所在计算机指定磁盘;
所述通用数据库数据抽取单元GDEU的构建步骤如下:
S2c-1:创建数据库基本信息表;
S2c-2:根据源数据库类型获取连接驱动程序或手动编写;
S2c-3:抽取测试用例,测试数据库连接;
所述更新频率控制单元FCU的构建步骤如下:
S2d-1:创建更新时间戳记录表;
S2d-2:创建数据源更新频率配置表;
S2d-3:构建更新时间戳记录表读取模块;
S2d-4:构建网络资源获取单元NAU、人工填报数据获取单元HAU、用数据库数据抽取单元GDEU调用模块;
S2d-5:构建更新频率计算模块,用于计算更新各数据源的频率;
S2d-6:构建数据源更新频率配置表刷新模块,将最新频率写入配置表;
所述通用数据规范单元GDTU的构建步骤如下:
S2e-1:构建数据读取模块;
S2e-2:构建数据合并、整编、排序模块;
S2e-3:构建数据写入模块;
所述通用数据加载单元GDLU的构建步骤如下:
S2f-1:构建核心数据库集群访问模块;
S2f-2:构建规范数据读取模块;
S2f-3:构建核心数据库加载数据加载模块。

【专利技术属性】
技术研发人员:朱跃龙丁昱凯冯钧陆佳民
申请(专利权)人:河海大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1