System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种协作学习过程中异构数据源的鉴定方法技术_技高网
当前位置: 首页 > 专利查询>广州大学专利>正文

一种协作学习过程中异构数据源的鉴定方法技术

技术编号:40915425 阅读:3 留言:0更新日期:2024-04-18 14:42
本发明专利技术公开了一种协作学习过程中异构数据源的鉴定方法,涉及数据源鉴定技术领域,每个参与者或设备在本地数据上独立训练模型,包括微调全局模型或完全在本地数据上训练模型,节点收到节点的模型后,将节点与节点的本地模型进行对比,并计算节点与节点相似度,分析模型相似度矩阵,表示该数据源异构,通过对比模型的相似度,构建相似度矩阵,并将该对称高维矩阵转化成对KDE算法友好的低维矩阵。然后利用交叉验证的方法,搜索相应的最优带宽设置,从而正确地预估模型的个数,最终快速判断数据源的异构性。该方法具有计算复杂度低,预测精度高等优点。

【技术实现步骤摘要】

本专利技术涉及数据源鉴定,具体涉及一种协作学习过程中异构数据源的鉴定方法


技术介绍

1、协作学习,特别是联邦学习这类方法,是一种允许多个参与方共同训练模型,同时保留各自数据隐私的分布式学习方法。这种方法不仅优化了资源的利用,还提高了数据的安全性和隐私性。因此,它在医疗健康、金融服务、智能设备及物联网、零售和电子商务等领域得到了广泛应用。协作学习的应用实例包括跨医院的疾病诊断研究、金融机构间的欺诈检测、智能设备的行为识别优化,以及在线零售商的客户购买行为分析。然而,协作学习面临的主要挑战之一是参与方数据的异构性,这可能导致全局模型在精度上出现下降的问题。不同的数据分布、不一致的数据标准和格式,以及各参与方的数据量不均等问题都可能影响最终聚合而来的模型的性能。

2、鉴于异构数据源在物联网中的普遍性,如何在数据源异构场景下学习到高精度的全局模型已经成为了一个亟待解决的问题。


技术实现思路

1、本专利技术的目的是提供一种协作学习过程中异构数据源的鉴定方法,以解决
技术介绍
中不足。

2、为了实现上述目的,本专利技术提供如下技术方案:一种协作学习过程中异构数据源的鉴定方法,所述鉴定方法包括以下步骤:

3、所有参与训练的节点对数据进行聚类分析,计算出节点的本地聚类模型;

4、节点在接收到其邻居节点的聚类模型后,计算节点聚类模型与节点聚类模型的相似度;

5、对模型相似度矩阵进行核密度估计;

6、若预估的模型个数大于2,表示该数据源为异构;若预估的模型个数小于等于2,则表示数据源为同构。

7、优选的,计算本地聚类模型包括以下步骤:

8、采用聚类算法,根据节点本地数据的特点,计算出描述节点特征的聚类模型;

9、节点将原始数据集降维成低维矩阵;

10、将降维后的数据进行聚类处理。

11、优选的,计算节点与节点相似度的逻辑为:采用emd衡量不同模型之间的相似度,将节点与节点之间的相似度计算构建成一个多维对称矩阵,

12、节点与节点相似度的计算表达式为:

13、;

14、式中,和表示两个概率分布,为成本矩阵,表示从分布的第个部分到分布的第个部分的成本,为流矩阵。

15、优选的,对模型相似度矩阵进行核密度估计包括以下步骤:

16、取相似度矩阵上三角部分将该对称矩阵转化成低维的、对kde输入的矩阵;

17、然后采用核密度估计的方法来计算节点的贡献度,并通过交叉验证的方式选择带宽。

18、优选的,通过交叉验证的方式选择带宽包括以下步骤:

19、优化带宽,并根据密度曲线的最低点将各个节点的模型相似度划分成不同的簇;

20、根据簇的数目,计算模型的个数;

21、进一步根据模型的个数,预估数据源的异构性。

22、在上述技术方案中,本专利技术提供的技术效果和优点:

23、本专利技术实现了一种能够有效鉴定数据源异构的计算方法。该方法通过对比模型的相似度,构建相似度矩阵,并将该对称高维矩阵转化成对kde算法友好的低维矩阵。然后利用交叉验证的方法,搜索相应的最优带宽设置,从而正确地预估模型的个数,最终快速判断数据源的异构性。该方法具有计算复杂度低,预测精度高等优点。因此,该专利技术具有较高的实用性,应用前景广阔且具有一定的经济价值。

本文档来自技高网...

【技术保护点】

1.一种协作学习过程中异构数据源的鉴定方法,其特征在于:所述鉴定方法包括以下步骤:

2.根据权利要求1所述的一种协作学习过程中异构数据源的鉴定方法,其特征在于:计算本地聚类模型包括以下步骤:

3.根据权利要求2所述的一种协作学习过程中异构数据源的鉴定方法,其特征在于:计算节点与节点相似度的逻辑为:采用EMD衡量不同模型之间的相似度,将节点与节点之间的相似度计算构建成一个多维对称矩阵,

4.根据权利要求3所述的一种协作学习过程中异构数据源的鉴定方法,其特征在于:对模型相似度矩阵进行核密度估计包括以下步骤:

5.根据权利要求4所述的一种协作学习过程中异构数据源的鉴定方法,其特征在于:通过交叉验证的方式选择带宽包括以下步骤:

【技术特征摘要】

1.一种协作学习过程中异构数据源的鉴定方法,其特征在于:所述鉴定方法包括以下步骤:

2.根据权利要求1所述的一种协作学习过程中异构数据源的鉴定方法,其特征在于:计算本地聚类模型包括以下步骤:

3.根据权利要求2所述的一种协作学习过程中异构数据源的鉴定方法,其特征在于:计算节点与节点相似度的逻辑为:采用emd衡量不...

【专利技术属性】
技术研发人员:乔成田志宏孙彦斌刘园鲁辉李默涵王瑞徐光侠仇晶姜誉谭庆丰苏申陈鹏郑志彬崔宇
申请(专利权)人:广州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1