【技术实现步骤摘要】
一种一步式数据交换方法、装置、设备及存储介质
本专利技术涉及数据处理
,尤其涉及一种一步式数据交换方法、装置、设备及存储介质。
技术介绍
随着信息时代的不断发展,不同部门、不同地区间的信息交流逐步增加,计算机网络技术的发展为信息传输提供了保障。数据共享交换可以使不同主体之间共享数据,从而对数据进行各种操作、运算和分析。实现数据共享交换,可以更充分地使用已有数据资源,减少资料收集、数据采集等重复劳动和成本。数据共享交换为打通组织结构各个数据孤岛,实现组织结构数据顺畅流转发挥了重要作用。现有技术中,数据共享交换技术主要以下两种方式:1、基于数据集成技术的离线调度式ETL(Extract-Transform-Load)数据同步,ETL模式适合大数据量交换场景,但由于调度触发特点,其实时性较差,不支持近实时增量数据交换。2、基于数据库日志的实时日志解析CDC(Change-Data-Capture)数据同步,实时性较好,但其业务控制较差,不支持遗留源库源表存量数据交换。从上可知, ...
【技术保护点】
1.一种一步式数据交换方法,其特征在于,包括:/n确定待交换的数据源表、目标数据表、数据交换开始时间点,并将当前时间作为数据切割时间点;/n通过ETL任务执行模块将所述数据源表中在数据交换开始时间点至数据切割时间点之间产生的存量数据转移至所述目标数据表;/n通过CDC任务执行模块监听数据源表的归档日志,根据所述归档日志将所述数据源表中在数据切割时间点之后产生的增量数据转移至所述目标数据表;/n对所述目标数据表中的目标数据集进行K-means聚类,得到对应的数据聚类结果;其中,所述数据聚类结果中包括多个数据聚类簇,每一数据聚类簇对应一个聚类数据标签;/n获取各业务服务器的数据 ...
【技术特征摘要】
1.一种一步式数据交换方法,其特征在于,包括:
确定待交换的数据源表、目标数据表、数据交换开始时间点,并将当前时间作为数据切割时间点;
通过ETL任务执行模块将所述数据源表中在数据交换开始时间点至数据切割时间点之间产生的存量数据转移至所述目标数据表;
通过CDC任务执行模块监听数据源表的归档日志,根据所述归档日志将所述数据源表中在数据切割时间点之后产生的增量数据转移至所述目标数据表;
对所述目标数据表中的目标数据集进行K-means聚类,得到对应的数据聚类结果;其中,所述数据聚类结果中包括多个数据聚类簇,每一数据聚类簇对应一个聚类数据标签;
获取各业务服务器的数据需求信息,根据所述数据需求信息将所述数据聚类结果中各数据聚类簇分发至对应的业务服务器;其中,每一业务服务器的数据需求信息中包括若干个聚类数据标签。
2.根据权利要求1所述的一步式数据交换方法,其特征在于,所述通过ETL任务执行模块将所述数据源表中在数据交换开始时间点至数据切割时间点之间产生的存量数据转移至所述目标数据表,包括:
将数据源表中在数据交换开始时间点至数据切割时间点之间产生的存量数据抽取至数据临时表中;
对所抽取的存量数据进行清洗和转换;
将转换后的存量数据从数据临时表加载至所述目标数据表中。
3.根据权利要求1所述的一步式数据交换方法,其特征在于,所述通过CDC任务执行模块监听数据源表的归档日志,根据所述归档日志将所述数据源表中在数据切割时间点之后产生的增量数据转移至所述目标数据表,包括:
获取待转移的数据源表并创建变化表,设置发布者和订阅者,以及为所述订阅者订阅所述数据源表以及激活订阅过程;
设置视图显示窗口并在所述视图显示窗口中添加订阅者视图,根据所述订阅者视图访问并提取变化表中的增量数据,然后删除订阅者视图并清除CDC窗口。
4.根据权利要求1所述的一步式数据交换方法,其特征在于,所述对所述目标数据表中的目标数据集进行K-means聚类,得到对应的数据聚类结果,包括:
在目标数据集中选取与预设的聚类簇数相同个数的目标数据,将所选取的目标数据作为每一簇的初始聚类中心;
根据所述目标数据集中每一数据与各初始聚类中心的相异值,对所述目标数据集进行划分,得到初始聚类结果;
根据初始聚类结果,获取每一簇的调整后聚类中心;
根据调整后聚类中心,根据所述目标数据集中每一数据与调整后聚类中心的相异值,对所述目标数据集重新进行划分,直至聚类结果保持相同的次数多于预设...
【专利技术属性】
技术研发人员:宋天喜,郭钊铭,丁忠伟,牟小欢,安文强,王斌,
申请(专利权)人:平安国际智慧城市科技股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。