System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种数据异质的联邦主动情感计算方法技术_技高网

一种数据异质的联邦主动情感计算方法技术

技术编号:40246109 阅读:7 留言:0更新日期:2024-02-02 22:42
本发明专利技术公开了一种数据异质的联邦主动情感计算方法,包括:步骤1,全局模型初始化,服务器向选择的客户端发送全局模型,客户端训练本地模型,向服务器端上传参数;步骤2,服务器进行偏好感知分组聚合:根据更新后的本地模型在服务器端的公共数据集上的类精度执行聚类操作,客户端会根据全局模型在本地标记数据集上的预测性能来估计自身的聚类ID;步骤3,进行去偏联邦主动采样:客户端先使用预聚类方法,通过子聚类抽样来促进类平衡抽样,然后使用主动学习中的委员会查询算法并结合改进的投票熵,根据委员会成员的分歧程度对数据进行采样。该方法可以在不依赖大量标记数据的情况下,有效地缓解非独立同分布数据对联邦学习模型性能的不利影响。

【技术实现步骤摘要】

本专利技术涉及计算机,涉及情感计算以及联邦学习和主动学习,具体为一种数据异质的联邦主动情感计算方法


技术介绍

1、1.情感计算

2、传统的集中式情感计算自从深度学习的出现和快速发展以来,已经走过了漫长的道路。基于深度学习的方法经常用于社交媒体情感分析和情感识别任务,如深度卷积神经网络学习、深度递归神经网络学习、基于注意力机制的方法、基于对抗学习的方法等。然而,联邦学习框架在情感计算中的应用还处于探索阶段。索曼德帕利等人研究联邦平均算法(fedavg)在各种语音、视频和文本数据集上对自我报告的情感体验和感知标签进行建模。最近有人提出了提出了一种基于图集成自动编码器高斯混合模型的联邦多域学习方法。这些工作旨在解决跨客户端的情感分类问题,在保护客户端隐私的同时提高模型的泛化能力。然而,这些工作都没有进一步考虑联邦学习框架中情感计算的一些实际问题,如数据非独立同分布或标签注释代价的问题。

3、此外,将主动学习应用于情感计算可以提高情感分类性能,同时降低标注代价。然而,这些工作都没有考虑到分布式框架中数据异构性对采样目标的影响。

4、2.联邦学习

5、联邦学习的目的是开发一个全局模型,可以对分散在各种设备上的数据进行训练,同时保持隐私。作为联邦学习的先驱,fedavg取消了将私人用户数据上传到服务器的做法,并允许边缘设备使用它们的本地数据集来训练模型。每进行一轮通信时,本地模型的参数被合并以更新共享的全局模型。由于在联邦学习中,特定的本地设备严重影响每个客户端上的训练数据,因此连接的客户端之间的数据分布可能会有很大的不同。这种现象,也称为非独立同分布,可能会使模型产生明显的差异。标签分布不平衡是一种常见的非独立同分布类别。在这种不平衡中,客户端上的标签分布不同。目前在联邦学习中处理非独立同分布问题的方法主要有基于数据的方法、基于算法的方法和基于系统的方法。

6、3.主动学习

7、主动学习的目的是从未标注的数据集中选择对模型最有利的样本,并将其传递给oracle(例如人类标注器)进行标注,在保持性能的同时尽可能降低标注成本。现有的主动学习方法分为基于多样性的、基于不确定性的和基于分歧的三种方法。基于多样性的方法更喜欢对具有跨越数据空间的代表性和多样性的数据点进行查询。基于不确定性的方法使用各种度量来估计预测样本的不确定性,然后根据这些度量来选择数据点。尽管这些方法易于使用,但由于它们不能解决本地模型和全局模型的采样目标不一致的问题,因此不能直接用于联邦主动学习fal(federated active learning)。基于分歧的方法建立一个称为委员会的模型集合,并选择在委员会内导致重大分歧的数据点。

8、由于较高的计算代价,研究人员往往忽略了将基于分歧的主动学习方法纳入联邦学习中。然而,模型集合的设置为缓解联邦学习数据非独立同分布的问题带来了新的思路。在控制委员会规模的前提下,由代表不同情感偏好的全局模型组成委员会,可以同时考虑全局模型和本地模型的采样目标,从而缓解采样目标不一致的问题。

9、4.联邦情感计算

10、联邦情感计算(fac,federatedaffectivecomputing)是指在分布式数据环境中进行情感计算的方法。在fac中,每个客户端使用私人情感数据训练模型,并将更新后的模型上传到服务器。服务器聚合这些模型(例如,平均聚合)以获得一个新的全局模型并将其发送给每个客户端。

11、现有技术中存在以下缺陷

12、大多数已建立的fac方法只考虑了完全监督的学习场景,其中每个本地客户端的数据都被完全注释,限制了它们在实际场景中的应用。标签数据的不足成为人工智能发展的“瓶颈”。主动学习作为人工智能的一个重要分支,是缓解数据短缺问题的一个很好的方法。在fac上下文中,它可以用来让机器选择一小部分“更好”的样本供本地客户端注释(即让数据生产者执行数据标注),提高数据注释质量。

13、与联邦学习相比,fal的早期工作在客户端增加了一个主动采样步骤。他们将现有的主动学习方法直接应用于每个本地客户端,其中每个客户端基于来自本地或全局模型的统计信息主动采样。然而,两者的采样目标并不一致,前者只有利于本地客户端,而后者可能在聚合过程中丢失有价值的信息。


技术实现思路

1、为解决上述技术问题,本专利技术提供一种数据异质的联邦主动情感计算方法。该方法结合了一个偏好感知的分组聚合模块,该模块获得了代表客户之间不同情感偏好的全局模型;该方法还设计了一种具有改进投票熵的去偏联邦主动抽样策略,促进了标记样本的类平衡,缓解了全局模型和本地模型抽样目标不一致的问题。

2、一种数据异质的联邦主动情感计算方法,其特征在于,包括以下步骤:

3、步骤1,全局模型初始化,服务器向选择的客户端发送全局模型,客户端训练本地模型,向服务器端上传参数;

4、步骤2,进行偏好感知分组聚合:根据更新后的本地模型在服务器端的公共数据集上的类精度执行聚类操作,再通过服务器端的模型预测相似性来估计聚类id;

5、步骤3,进行去偏联邦主动采样:

6、第一阶段:使用预聚类方法,通过子聚类抽样来促进类平衡抽样;

7、第二阶段:使用投票委员会算法并结合改进的投票熵,根据委员会成员的分歧程度对数据进行采样。

8、在上述技术方案中,步骤1中,设置k个客户端和一个服务器端,第k个客户端有一个私人数据集和本地模型ωk,其中和分别表示客户端k中的已标记数据池和未标记数据池。

9、在上述技术方案中,步骤1中,服务器端有一个公共数据集dp和一个初始的全局模型ω0,在第一次服务器聚合之后,将得到m个全局模型在第1轮通信中,服务器随机选择客户端的子集并且将全局模型广播给st中各个客户端;然后,客户端执行τ步随机梯度下降,获取到更新后的模型并将它们发送到服务器端;训练过程在通信t轮后暂停,之后,从每个中采样一批未标记的数据,发送到本地数据库进行注释,并添加到每个客户端的标记数据池中。

10、在上述技术方案中,步骤2中,使用公共数据集中每类数据的本地模型的精度作为预测结果o;

11、

12、表示公共数据集dp上的第j类数据的本地模型的精度,然后使用k-means算法对所有预测结果进行聚类:

13、

14、

15、其中j表示示所有客户端到其聚类中心的距离之和,m表示聚类的数量,centerm表示第m个聚类中心,‖·‖2表示l2范数,表示第m次更新后的聚类中心,|cm|表示聚类cm中客户端的数量;

16、服务器端聚合具有类似客户端数据分布的客户端,并在每个聚类中执行联邦平均聚合算法:

17、

18、其中nk表示在聚类cm中客户端k已标记的样本的数量,nm表示群集中所有客户端的已标记样本数;

19、最后,表示不同聚类的全局模型形成全局模型集合并在下一轮中本文档来自技高网...

【技术保护点】

1.一种数据异质的联邦主动情感计算方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的数据异质的联邦主动情感计算方法,其特征在于:步骤1中,设置K个客户端和一个服务器端,第k个客户端有一个私人数据集和本地模型ωk,其中和分别表示客户端k中的已标记数据池和未标记数据池。

3.根据权利要求2所述的数据异质的联邦主动情感计算方法,其特征在于:步骤1中,服务器端有一个公共数据集Dp和一个初始的全局模型Ω0,在第一次服务器聚合之后,将得到M个全局模型在第1轮通信中,服务器随机选择客户端的子集并且将全局模型广播给St中各个客户端;然后,客户端执行τ步随机梯度下降,获取到更新后的模型并将它们发送到服务器端;训练过程在通信T轮后暂停,之后,从每个中采样一批未标记的数据,发送到本地数据库进行注释,并添加到每个客户端的标记数据池中。

4.根据权利要求3所述的数据异质的联邦主动情感计算方法,其特征在于:步骤2中,使用公共数据集中每类数据的本地模型+1的精度作为预测结果O;

5.根据权利要求1所述的数据异质的联邦主动情感计算方法,其特征在于:在步骤3的第一阶段,先对来自客户端k的未标记样本池进行聚类,将相似的样本聚在一起,得到一个簇集其中φ表示聚类的个数,抽样预算在集群之间平均分配。

6.根据权利要求6所述的数据异质的联邦主动情感计算方法,其特征在于:在步骤3的第二阶段,对于第一阶段获得的每个聚类,委员会成员对其中的样本进行类预测,委员会是由更新后的本地模型和客户端选择后剩余的全局模型组成的;然后使用投票熵来衡量委员会对未标记样本的分歧程度,找出最大的分歧的样本

...

【技术特征摘要】

1.一种数据异质的联邦主动情感计算方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的数据异质的联邦主动情感计算方法,其特征在于:步骤1中,设置k个客户端和一个服务器端,第k个客户端有一个私人数据集和本地模型ωk,其中和分别表示客户端k中的已标记数据池和未标记数据池。

3.根据权利要求2所述的数据异质的联邦主动情感计算方法,其特征在于:步骤1中,服务器端有一个公共数据集dp和一个初始的全局模型ω0,在第一次服务器聚合之后,将得到m个全局模型在第1轮通信中,服务器随机选择客户端的子集并且将全局模型广播给st中各个客户端;然后,客户端执行τ步随机梯度下降,获取到更新后的模型并将它们发送到服务器端;训练过程在通信t轮后暂停,之后,从每个中采样一批未标记的数据,发送到本地数据库进行注...

【专利技术属性】
技术研发人员:亓帆张紫鑫张怀文
申请(专利权)人:天津理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1