一种多源异构业务数据库的数据挖掘方法及装置制造方法及图纸

技术编号:37670289 阅读:13 留言:0更新日期:2023-05-26 04:31
本公开涉及数据处理领域,提供了一种多源异构业务数据库的数据挖掘方法及装置。该方法包括:确定第二业务端;当接收到第二业务端反馈的确认信息时,向第二业务端发送数据聚合策略;使用数据聚合策略对本地业务数据进行聚类并得到第一聚类中心;接收第二业务端基于数据聚合策略对本地数据进行聚类并得到的第二聚类中心;对第一聚类中心和第二聚类中心进行聚合并得到聚合中心;根据聚合中心对本地业务数据进行重新聚类,直至预设的迭代次数或聚合中心不再变化,得到挖掘数据集。本公开可在保护各资源方(业务端)的数据安全的前提下,挖掘出各资源方中的相似业务数据,缓解由于数据异构所导致的联合训练得到的模型性能较差的问题。所导致的联合训练得到的模型性能较差的问题。所导致的联合训练得到的模型性能较差的问题。

【技术实现步骤摘要】
一种多源异构业务数据库的数据挖掘方法及装置


[0001]本公开涉及数据处理
,尤其涉及一种多源异构业务数据库的数据挖掘方法及装置。

技术介绍

[0002]对于由多个业务分系统组成的多系统业务平台,或者是同行业的不同资源方而言,它们的本地业务数据通常是分布式存储在各自的本地数据库中,即数据源不同。不同数据源的数据通常存在数据异构的问题,由此就形成了多源异构数据库并行的情况。
[0003]通过联合学习训练是获得性能更优的业务模型的一种有效途径。但是,参与联合学习的各资源方为了保护自己的数据安全,通常都不愿意共享自己的数据。此外,不同数据源的数据本身存在数据异构的问题,若是各资源方直接采用各自本地数据参与联合学习训练,建立的模型无法很好地拟合各资源方的数据,得到的业务模型的性能也差强人意。
[0004]因此,亟需提供一种可在保护各资源方的数据安全的前提下,挖掘出各资源方中的相似业务数据,缓解由于数据异构所导致的联合训练得到的模型性能较差的问题。

技术实现思路

[0005]有鉴于此,本公开实施例提供了一种多源异构业务数据库的数据挖掘方法及装置,以在保护各资源方的数据安全的前提下,挖掘出各资源方中的相似业务数据,缓解由于数据异构所导致的联合训练得到的模型性能较差的问题。
[0006]本公开实施例的第一方面,提供了一种多源异构业务数据库的数据挖掘方法,包括:
[0007]第一业务端:
[0008]确定第二业务端;
[0009]当接收到第二业务端反馈的确认信息时,向第二业务端发送数据聚合策略;
[0010]使用数据聚合策略对本地业务数据进行聚类并得到第一聚类中心;
[0011]接收第二业务端基于数据聚合策略对本地数据进行聚类并得到的第二聚类中心;
[0012]对第一聚类中心和第二聚类中心进行聚合并得到聚合中心;
[0013]根据聚合中心对本地业务数据进行重新聚类,直至预设的迭代次数或聚合中心不再变化,得到挖掘数据集。
[0014]本公开实施例的第二方面,提供了一种多源异构业务数据库的数据挖掘装置,包括:
[0015]确定模块,被配置为确定第二业务端;
[0016]发送模块,被配置为当接收到第二业务端反馈的确认信息时,向第二业务端发送数据聚合策略;
[0017]聚类模块,被配置为使用数据聚合策略对本地业务数据进行聚类并得到第一聚类中心;
[0018]接收模块,被配置为接收第二业务端基于数据聚合策略对本地数据进行聚类并得到的第二聚类中心;
[0019]聚合模块,被配置为对第一聚类中心和第二聚类中心进行聚合并得到聚合中心;
[0020]重新聚类模块,被配置为根据聚合中心对本地业务数据进行重新聚类,直至预设的迭代次数或聚合中心不再变化,得到挖掘数据集。
[0021]本公开实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
[0022]本公开实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
[0023]本公开实施例与现有技术相比,其有益效果至少包括:本公开实施例提供的多源异构业务数据库的数据挖掘可应用于第一业务端,当第一业务端想要通过联合学习训练的方式性能更优的业务模型时,可以通过确定第二业务端;当接收到第二业务端反馈的确认信息时,向第二业务端发送数据聚合策略;使用数据聚合策略对本地业务数据进行聚类并得到第一聚类中心;接收第二业务端基于数据聚合策略对本地数据进行聚类并得到的第二聚类中心;对第一聚类中心和第二聚类中心进行聚合并得到聚合中心;根据聚合中心对本地业务数据进行重新聚类,直至预设的迭代次数或聚合中心不再变化,得到挖掘数据集,之后可使用经上述方法挖掘出来的挖局数据集中的业务数据参与联合学习训练获得业务模型。该方法可在保护各资源方(业务端)的数据安全的前提下,挖掘出各资源方中的相似业务数据,缓解由于数据异构所导致的联合训练得到的模型性能较差的问题。
附图说明
[0024]为了更清楚地说明本公开实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0025]图1是本公开实施例的应用场景的场景示意图;
[0026]图2是本公开实施例提供的一种多源异构业务数据库的数据挖掘方法的流程示意图;
[0027]图3是本公开实施例提供的多源异构业务数据库的数据挖掘方法中的一种业务数据拓扑结构图;
[0028]图4是本公开实施例提供的一种多源异构业务数据库的数据挖掘装置的结构示意图;
[0029]图5是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
[0030]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本公开实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中,省略对众所周知的系统、装置、电
路以及方法的详细说明,以免不必要的细节妨碍本公开的描述。
[0031]下面将结合附图详细说明根据本公开实施例的一种多源异构业务数据库的数据挖掘方法和装置。
[0032]图1是本公开实施例的应用场景的场景示意图。该应用场景可以包括第一业务端101、第二业务端102、服务端103以及网络104。
[0033]第一业务端101、第二业务端102可以是同行业内的不同资源方,也可以是多系统业务平台中的不同业务分系统。第一业务端101、第二业务端102均部署有各自的业务数据库,该业务数据库用于存在和管理其消费、生产经营等方面的业务数据。
[0034]服务端103可以是提供各种服务的服务器,例如,该服务器可以是一台服务器,也可以是由若干台服务器组成的服务器集群,或者还可以是一个云计算服务中心,本公开实施例对此不作限制。服务端103可以收集并管理各个数据源的业务数据分布情况等方面的信息,包括业务数据类型、数据库类型信息及业务数据质量信息等。
[0035]网络104可以是采用同轴电缆、双绞线和光纤连接的有线网络,也可以是无需布线就能实现各种通信设备互联的无线网络,例如,蓝牙(Bluetooth)、近场通信(Near Field Communication,NFC)、红外(Infrared)等,本公开实施例对此不作限制。
[0036]当第一业务端想要通过联合学习训练的方式性能更优的业务模型时,可以通过确定第二业务端;当接收到第二业务端反馈的确认信息时,向第二业务端发送数据聚合策略;使用数据聚合策略对本地业务数据进行聚类并得到第一聚类中心;接收第二业务端本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多源异构业务数据库的数据挖掘方法,其特征在于,包括:第一业务端:确定第二业务端;当接收到所述第二业务端反馈的确认信息时,向所述第二业务端发送数据聚合策略;使用所述数据聚合策略对本地业务数据进行聚类并得到第一聚类中心;接收所述第二业务端基于所述数据聚合策略对本地数据进行聚类并得到的第二聚类中心;对所述第一聚类中心和所述第二聚类中心进行聚合并得到聚合中心;根据所述聚合中心对所述本地业务数据进行重新聚类,直至预设的迭代次数或聚合中心不再变化,得到挖掘数据集。2.根据权利要求1所述的方法,其特征在于,确定第二业务端,包括:向服务端发送数据挖掘请求,所述数据挖掘请求包括业务数据类型和业务数据质量要求;接收所述服务端基于所述数据挖掘请求返回的业务数据库拓扑结构图,所述业务数据库拓扑结构图包括多个分布式的数据源,以及每一个数据源对应的业务数据库的数据库类型信息及业务数据质量信息;基于所述业务数据库拓扑结构图确定第二业务端。3.根据权利要求2所述的方法,其特征在于,基于所述业务数据库拓扑结构图确定第二业务端,包括:根据所述数据库类型信息及业务数据质量信息,确定目标数据源;将所述目标数据源对应的业务端确定为第二业务端。4.根据权利要求1所述的方法,其特征在于,使用所述数据聚合策略对本地业务数据进行聚类并得到第一聚类中心,包括:对本地业务数据进行分类,得到至少一个分类数据集合;对所述分类数据集合中的一系列业务数据进行分解,得到多个分类特征;筛选出与预设的挖掘目标匹配度最高的一个分类特征作为聚类目标特征;基于所述聚类目标特征对所述本地业务数据中的分类数据集合进行聚类得到多个聚类簇,并提取各个聚类簇的第一聚类中心。5.根据权利要求4所述的方法,其特征在于,对所述第一聚类中心和所述第二聚类中心进行聚合并得到聚合中心,包括:提取所述第一聚类中心携带的第一聚类标识,以及所述第二聚类中心携带的第二聚类标识;分别将所述第...

【专利技术属性】
技术研发人员:宿荣全支涛
申请(专利权)人:北京云迹科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1