面向自然语言模型的联邦小样本学习方法、系统及设备技术方案

技术编号:37628429 阅读:13 留言:0更新日期:2023-05-18 12:19
本申请实施例公开了一种面向自然语言模型的联邦小样本学习方法、系统及设备,在对自然语言模型进行微调时,由云端服务器控制多个端侧设备,采用渐进式数据增强协同方式进行,即采用基于伪标签方式及提示学习方式进行融合的联邦小样本学习方式与联邦学习方式协同进行,且在微调过程中不断更新最优的增强策略,从而使得各个端侧设备采用的训练数据包含少量的有标签的样本就可以微调得到精确率高的自然语言模型。因此,本申请实施例可以采用少量的有标签的训练数据微调一个精确率高的自然语言模型,提高微调后的自然语言模型的精确率。确率。确率。

【技术实现步骤摘要】
面向自然语言模型的联邦小样本学习方法、系统及设备


[0001]本申请涉及人工神经网络
,特别涉及一种面向自然语言模型的联邦小样本学习方法、系统及设备。

技术介绍

[0002]随着自然语言处理技术地不断发展和端侧设备计算性能地不断提升,大量的涉及自然语言处理技术应用被部署到端侧设备上,比如:输入法智能补全应用、智能问答系统应用及个人语言助理应用等都可以被部署到端侧设备上。
[0003]为了实现自然语言处理技术应用,就需要对自然语言模型进行训练。通常,自然语言模型的训练分为模型预训练阶段和模型微调阶段。其中,在模型预训练阶段,云端服务器使用大量的中心化公开的训练数据训练一个通用的预训练自然语言模型;在模型微调阶段,根据不同任务场景,对该预训练自然语言模型进行微调,以提升模型在特定任务上的精确率。
[0004]训练自然语言模型的核心问题是训练数据如何获取。虽然模型预训练阶段的训练数据可以采用大量公开的无标签数据集,但是模型微调阶段使用的训练数据往往是私密的及有标签的样本,且分布在大量端侧设备上,在进行微调时可以将这些样本集中到一个中心数据库中进行集中微调,但是无疑会带来隐私泄露的问题。此外在模型微调阶段采用的训练数据需要有标签,而直接采用已有样本通常缺少正确的标签甚至没有标签,即使少数已有样本拥有标签,由于已有样本的异构性,聚焦于这些样本会损伤微调模型的鲁棒性,降低训练得到的模型的精确率。
[0005]因此,如何采用少量的有标签的训练数据微调一个精确率高的自然语言模型成为一个亟待解决的问题。<br/>
技术实现思路

[0006]有鉴于此,本申请实施例提供一种面向自然语言模型的联邦小样本学习方法,该方法能够采用少量的有标签的训练数据微调一个精确率高的自然语言模型,提高微调后的自然语言模型的精确率。
[0007]本申请实施例还提供一种面向自然语言模型的联邦小样本学习系统及设备,该系统及设备能够采用少量的有标签的训练数据微调一个精确率高的自然语言模型,提高微调后的自然语言模型的精确率。
[0008]本申请的一个实施例中,提供一种面向自然语言模型的联邦小样本学习方法,所述方法包括:
[0009]a、云端服务器选择一增强策略;
[0010]b、云端服务器基于所述增强策略,将自然语言模型发送给两个端侧设备集群,以使所述两个端侧设备集群分别采用联邦学习方式及采用预设的联邦小样本学习方式,对所述自然语言模型进行当前迭代轮的协同微调,得到下一迭代轮的所述自然语言模型;
[0011]c、云端服务器基于所述增强策略,将所述下一迭代轮的所述自然语言模型作为当前迭代轮的所述自然语言模型,发送给所述两个端侧设备集群,以使所述两个端侧设备集群分别采用联邦学习方式及采用预设的联邦小样本学习方式,对所述当前迭代轮的所述自然语言模型进行协同微调,得到下一迭代轮的所述自然语言模型;
[0012]d、云端服务器确定经过所述协同微调的迭代轮数量是否小于设定的迭代轮阈值,如果是,返回步骤c执行,如果否,执行步骤e;
[0013]e、云端服务器计算所述下一迭代轮的所述自然语言模型的目标结果精确率是否小于预设的精确率阈值,如果是,将所述下一迭代轮的所述自然语言模型作为微调后的所述自然语言模型,如果否,返回步骤a继续执行。
[0014]在上述方法中的所述步骤a之前,还包括得到至少一增强策略的过程:
[0015]云端服务器将初始化的所述自然语言模型发送给随机选取的两个端侧设备集群,以使所述随机选取的两个端侧设备集群分别采用联邦学习方式及预设的联邦小样本学习方式,对所述初始化的所述自然语言模型进行预设数量的迭代轮的微调;
[0016]对于每一迭代轮,对比经过所述随机选取的两个端侧设备集群微调的所述初始化的所述自然语言模型,选择具有高目标结果精确率的所述初始化的所述自然语言模型;
[0017]将预设数量的迭代轮的所述选择的所述初始化的所述自然语言模型,基于具有的目标结果精确率进行从高到低的顺序排列后,根据设定个数的排序高的所述选择的所述初始化的所述自然语言模型,分别建立对应的增强策略;
[0018]步骤a所述的云端服务器选择一增强策略为排序最高的所述建立的增强策略、或者任一排序高的所述建立的增强策略。
[0019]在上述方法中,步骤a所述的云端服务器选择一增强策略包括:自然语言模型的相关超参数;
[0020]所述相关超参数包括:协同微调的端侧设备范围及数量、以及协同微调的各个端侧设备采用的训练数据数量中的一项或多项组合;
[0021]所述预设的联邦小样本学习方式为:基于伪标签方式及提示学习方式进行融合的联邦小样本学习方式。
[0022]在上述方法中,在执行所述步骤e之前,还包括:
[0023]云端服务器计算每一所述迭代轮的所述自然语言模型的数据增强效率值,判断设定数值的迭代轮的所述数据增强效率值的下降率是否超过预设的下降阈值,如果是,返回步骤a执行;如果否,执行步骤e。
[0024]在上述方法中,所述以使所述两个端侧设备集群分别采用联邦学习方式及采用预设的联邦小样本学习方式,对所述自然语言模型进行当前迭代轮的协同微调,得到下一迭代轮的所述自然语言模型包括:
[0025]在当前迭代轮,对于所述两个端侧设备集群的每一集群中的至少一端侧设备,对接收的所述自然语言模型采用对应的联邦学习方式或预设的联邦小样本学习方式进行微调后,将得到的局部模型参数返回给所述云端服务器;
[0026]所述云端服务器不断聚合所述端侧设备发送的局部模型参数,不断得到全局模型参数,基于全局模型参数不断更新所述自然语言模型,再次发送给所述两个端侧设备集群的每一集群中的至少一端侧设备,进行更新后的自然语言模型的微调,直到当前迭代轮结
束。
[0027]在上述方法中,所述以使所述两个端侧设备集群分别采用联邦学习方式及采用预设的联邦小样本学习方式,对所述自然语言模型进行当前迭代轮的协同微调,得到下一迭代轮的所述自然语言模型包括:
[0028]对于所述两个端侧设备集群的每一集群中的至少一端侧设备,设置自身的样本过滤器,对自身样本经过所述样本过滤器过滤后,输入到所述自然语言模型进行微调。
[0029]在上述方法中,所述对自身样本经过所述样本过滤器过滤包括:
[0030]所述自身样本包括多个且为无标签的样本;
[0031]选出和每个样本最接近的至少一个相似样本,放入到所述样本的相似样本池中;
[0032]遍历所有样本,选出其中的出现在最多所述样本的相似样本池中的设定数量的样本;
[0033]将所述选出的样本作为过滤后的样本。
[0034]在上述方法中,所述以使所述两个端侧设备集群分别采用联邦学习方式及采用预设的联邦小样本学习方式,对所述自然语言模型进行当前迭代轮的协同微调,得到下一迭代轮的所述自然语言模型包括:
[0035]对于所述两个端侧设备集群的每一集群中的至少一端侧设备,云端服务本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向自然语言模型的联邦小样本学习方法,其特征在于,所述方法包括:a、云端服务器选择一增强策略;b、云端服务器基于所述增强策略,将自然语言模型发送给两个端侧设备集群,以使所述两个端侧设备集群分别采用联邦学习方式及采用预设的联邦小样本学习方式,对所述自然语言模型进行当前迭代轮的协同微调,得到下一迭代轮的所述自然语言模型;c、云端服务器基于所述增强策略,将所述下一迭代轮的所述自然语言模型作为当前迭代轮的所述自然语言模型,发送给所述两个端侧设备集群,以使所述两个端侧设备集群分别采用联邦学习方式及采用预设的联邦小样本学习方式,对所述当前迭代轮的所述自然语言模型进行协同微调,得到下一迭代轮的所述自然语言模型;d、云端服务器确定经过所述协同微调的迭代轮数量是否小于设定的迭代轮阈值,如果是,返回步骤c执行,如果否,执行步骤e;e、云端服务器计算所述下一迭代轮的所述自然语言模型的目标结果精确率是否小于预设的精确率阈值,如果是,将所述下一迭代轮的所述自然语言模型作为微调后的所述自然语言模型,如果否,返回步骤a继续执行。2.如权利要求1所述的方法,其特征在于,在所述步骤a之前,还包括得到至少一增强策略的过程:云端服务器将初始化的所述自然语言模型发送给随机选取的两个端侧设备集群,以使所述随机选取的两个端侧设备集群分别采用联邦学习方式及预设的联邦小样本学习方式,对所述初始化的所述自然语言模型进行预设数量的迭代轮的微调;对于每一迭代轮,对比经过所述随机选取的两个端侧设备集群微调的所述初始化的所述自然语言模型,选择具有高目标结果精确率的所述初始化的所述自然语言模型;将预设数量的迭代轮的所述选择的所述初始化的所述自然语言模型,基于具有的目标结果精确率进行从高到低的顺序排列后,根据设定个数的排序高的所述选择的所述初始化的所述自然语言模型,分别建立对应的增强策略;步骤a所述的云端服务器选择一增强策略为排序最高的所述建立的增强策略、或者任一排序高的所述建立的增强策略。3.如权利要求1或2所述的方法,其特征在于,步骤a所述的云端服务器选择一增强策略包括:自然语言模型的相关超参数;所述相关超参数包括:协同微调的端侧设备范围及数量、以及协同微调的各个端侧设备采用的训练数据数量中的一项或多项组合;所述预设的联邦小样本学习方式为:基于伪标签方式及提示学习方式进行融合的联邦小样本学习方式。4.如权利要求3所述的方法,其特征在于,在执行所述步骤e之前,还包括:云端服务器计算每一所述迭代轮的所述自然语言模型的数据增强效率值,判断设定数值的迭代轮的所述数据增强效率值的下降率是否超过预设的下降阈值,如果是,返回步骤a执行;如果否,执行步骤e。5.如权利要求3所述的方法,其特征在于,所述以使所述两个端侧设备集群分别采用联邦学习方式及采用预设的联邦小样本学习方式,对所述自然语言模型进行当前迭代轮的协同微调,得到下一迭代轮的所述自然语言模型包括:
在当前迭代轮,对于所述两个端侧设备集群的每一集群中的至少一端侧设备,对接收的所述自然语言模型采用对应的联邦学习方式或预设的联邦小样本学习方式进行微调后,将得到的局部模型参数返回给所述云端服务器;所述云端服务器不断聚合所述端侧设备发送的局部模型参数,不断得到全局模型参数,基于全局模型参数不断更新所述自然语言模型,再次发送给所述两个端侧设备集群的每一集群中的至少一端侧设备,进行更新后的自然语言模型的微调,直到当前迭代轮结束。6.如权利要求3所述的方法,其特征在于,所述以使所述两个端侧设备集群分别采用联邦学习方式及采用预设的联邦小样本学习方式,对所述自然语言模型进...

【专利技术属性】
技术研发人员:徐梦炜蔡栋琪周傲马骁王尚广
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1