小样本场景下的半监督图模型联邦训练方法及系统技术方案

技术编号：40336999 阅读：6 留言：0更新日期：2024-02-09 14:26

本申请提供小样本场景下的半监督图模型联邦训练方法及系统，其中所述小样本场景下的半监督图模型联邦训练方法应用于客户端，包括：响应于模型训练请求构建分类模型，在本地子图数据中无标签图节点构建第一样本集；通过分类模型计算每个无标签图节点对应的置信度，并基于置信度构建第二样本集；根据第一样本集和第二样本集生成伪样本集，并利用分类模型对伪样本集中包含的伪样本进行标注，获得伪训练集；根据伪训练集和本地训练集构建目标训练集，基于目标训练集生成包含多重图结构学习任务的元任务并执行；基于任务执行结果确定多个子图连接信息，基于多个子图连接信息对分类模型进行调参，将调参后的分类模型的模型参数发送至服务端进行聚合。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及业务分类，特别涉及小样本场景下的半监督图模型联邦训练方法及系统。

技术介绍

1、随着互联网技术的发展，机器学习技术在越来越多的场景中得以应用，尤其是在业务分类场景下，通过训练好的分类模型进行实体对象分类，可以快速且高效的完成实体对象的类型确定，以方便下游业务使用。然而大多数分类模型的训练都是基于服务方自身持有的数据完成训练，虽然具备一定的分类能力，但是因为数据单一性问题，可能会导致分类模型无法达到预期的分类效果。而联邦学习可以实现多个服务方之间配合完成分类模型的训练，从而能够实现联合多方持有的数据完成泛化能力更好的模型训练。但是，在小样本场景下，各服务方可能持有大量难利用的未标记数据，且遇到新类时，现有的联邦模型总是需要重新学习模型的参数来合并新的信息。这导致模型的每次优化都需要消耗大量的时间，因此亟需一种有效的方案以解决上述问题。

技术实现思路

1、有鉴于此，本申请实施例提供了一种小样本场景下的半监督图模型联邦训练方法，以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种小样本场景下的半监督图模型联邦训练系统，一种计算设备，以及一种计算机可读存储介质。

2、根据本申请实施例的第一方面，提供了一种小样本场景下的半监督图模型联邦训练方法，应用于客户端，用于使所述客户端利用分类模型对目标分类业务关联的实体对象进行分类，包括：

3、响应于服务端下发的模型训练请求构建关联目标分类业务的分类模型，以及在本地子图数据中选择设定数量的无标签图节点构建第一样本集；

4、通过所述分类模型计算所述本地子图数据中每个无标签图节点对应的置信度，并基于所述置信度在所述本地子图数据中选择满足样本集构建条件的无标签图节点构建第二样本集；

5、根据所述第一样本集和所述第二样本集生成伪样本集，并利用所述分类模型对所述伪样本集中包含的伪样本进行标注，获得伪训练集；

6、根据所述伪训练集和所述本地子图数据对应的本地训练集构建目标训练集，基于所述目标训练集生成包含多重图结构学习任务的元任务并执行，其中，所述多重图结构学习任务用于确定所述元任务关联的训练集的图结构信息；

7、基于任务执行结果确定所述分类模型的多个子图连接信息，基于所述多个子图连接信息对所述分类模型进行调参，并将调参后的分类模型的模型参数发送至所述服务端进行聚合。

8、根据本申请实施例的第二方面，提供了一种小样本场景下的半监督图模型联邦训练系统，包括服务端和多个客户端，所述系统包括：

9、所述服务端，用于向每个客户端下发关联目标分类业务的模型训练请求；

10、所述多个客户端中的目标客户端，用于响应于所述模型训练请求构建关联所述目标分类业务的分类模型，以及在本地子图数据中选择设定数量的无标签图节点构建第一样本集；通过所述分类模型计算所述本地子图数据中每个无标签图节点对应的置信度，并基于所述置信度在所述本地子图数据中选择满足样本集构建条件的无标签图节点构建第二样本集；根据所述第一样本集和所述第二样本集生成伪样本集，并利用所述分类模型对所述伪样本集中包含的伪样本进行标注，获得伪训练集；根据所述伪训练集和所述本地子图数据对应的本地训练集构建目标训练集，基于所述目标训练集生成包含多重图结构学习任务的元任务并执行，其中，所述多重图结构学习任务用于确定所述元任务关联的训练集的图结构信息；基于任务执行结果确定所述分类模型的多个子图连接信息，基于所述多个子图连接信息对所述分类模型进行调参，并将调参后的分类模型的模型参数发送至所述服务端；

11、所述服务端，还用于接收每个客户端上传的模型参数，并对所述模型参数进行联邦聚合，直至获得满足训练停止条件的全局分类模型。

12、根据本申请实施例的第三方面，提供了一种计算设备，包括：

13、存储器和处理器；

14、所述存储器用于存储计算机可执行指令，所述处理器执行所述计算机可执行指令时实现所述小样本场景下的半监督图模型联邦训练方法的步骤。

15、根据本申请实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现所述小样本场景下的半监督图模型联邦训练方法的步骤。

16、本实施例提供的小样本场景下的半监督图模型联邦训练方法，为了能够实现联合多个客户端完成泛化性更好的分类模型的训练，每个客户端可以利用本地较少的样本进行伪样本构建，再完成本地模型训练。也就是说，当任意一个客户端接收到服务端下发的模型训练请求后，可以先响应于服务端下发的模型训练请求构建关联目标分类业务的分类模型，同时还可以在本地子图数据中选择设定数量的无标签图节点构建第一样本集；而后可以利用构建的分类模型计算本地子图数据中每个无标签图节点对应的置信度，以基于置信度在本地子图数据中选择满足样本集构建条件的无标签图节点构建第二样本集；此后根据第一样本集和所述第二样本集生成伪样本集，并利用分类模型对伪样本集中包含的伪样本进行标注，获得伪训练集；可以实现基于无标签的样本生成伪样本对使用，此后通过伪训练集和本地子图数据对应的本地训练集构建目标训练集，可以实现对训练集的扩充，并以此为基础基于目标训练集生成包含多重图结构学习任务的元任务并执行，且多重图结构学习任务用于确定元任务关联的训练集的图结构信息；可以实现在本地基于扩充后的样本集从多个维度分析图结构关系，最后再基于任务执行结果确定分类模型的多个子图连接信息，并基于所述多个子图连接信息对分类模型进行调参，即可实现在样本较少的情况下，也能够对分类模型进行本地的训练，最后再将调参后的分类模型的模型参数发送至服务端进行聚合，即可实现服务端通过不断的迭代聚合处理，得到联合多个客户端持有的数据完成的分类模型训练。从而能够实现各个客户端在不需要付出大量人力物力标注样本的情况下，完成联邦训练分类模型，以实现利用更少的成本获得泛化能力更好的分类模型。

本文档来自技高网...

【技术保护点】

1.一种小样本场景下的半监督图模型联邦训练方法，其特征在于，应用于客户端，用于使所述客户端利用分类模型对目标分类业务关联的实体对象进行分类，包括：

2.根据权利要求1所述的方法，其特征在于，所述响应于服务端下发的模型训练请求构建关联目标分类业务的分类模型，包括：

3.根据权利要求1所述的方法，其特征在于，所述在本地子图数据中选择设定数量的无标签图节点构建第一样本集，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述正样本和所述负样本计算所述正样本对应的信息分值，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述置信度在所述本地子图数据中选择满足样本集构建条件的无标签图节点构建第二样本集，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于所述目标训练集生成包含多重图结构学习任务的元任务并执行，包括：

7.根据权利要求6所述的方法，其特征在于，所述通过执行所述节点图结构学习任务确定所述分类模型对应的节点连接信息，包括：

8.根据权利要求6所述的方法，其特征在于，所述通过

9.根据权利要求6所述的方法，其特征在于，所述通过执行所述全局图结构学习任务确定所述分类模型对应的全局子图连接信息，包括：

10.根据权利要求1所述的方法，其特征在于，所述基于所述多个子图连接信息对所述分类模型进行调参，并将调参后的分类模型的模型参数发送至所述服务端进行聚合，包括：

11.一种小样本场景下的半监督图模型联邦训练系统，其特征在于，包括服务端和多个客户端，所述系统包括：

12.一种计算设备，其特征在于，包括：

13.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1至10任意一项所述方法的步骤。

...

【技术特征摘要】

2.根据权利要求1所述的方法，其特征在于，所述响应于服务端下发的模型训练请求构建关联目标分类业务的分类模型，包括：

3.根据权利要求1所述的方法，其特征在于，所述在本地子图数据中选择设定数量的无标签图节点构建第一样本集，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述正样本和所述负样本计算所述正样本对应的信息分值，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于所述目标训练集生成包含多重图结构学习任务的元任务并执行，包括：

7.根据权利要求6所述的方法...

【专利技术属性】
技术研发人员：郑小林，陈李蔚，陈超超，尹建伟，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人