一种业务数据标注方法、系统、装置及存储介质制造方法及图纸

技术编号:36377598 阅读:9 留言:0更新日期:2023-01-18 09:38
本申请实施例所公开的一种业务数据标注方法、系统、装置及存储介质,所述方法应用于客户端,所述方法基于局部模型对服务器中的公共业务数据集进行特征提取,以得到实例特征参数;然后,基于所述实例特征参数获取实例原型集;接着,基于所述实例特征参数和所述实例原型集获取更新信息,并通过所述更新信息对所述局部模型的参数进行更新;当所述局部模型满足目标终止条件,完成联邦学习任务;随后,基于完成联邦学习任务的局部模型进行业务数据标注。该方法一方面通过经过联邦学习后的局部模型进行数据标注,实现业务数据标注的自动化;另一方面,在不同客户端之间共享实例原型,以减少数据异构对模型训练的影响,从而提高了局部模型的标注精度。模型的标注精度。模型的标注精度。

【技术实现步骤摘要】
一种业务数据标注方法、系统、装置及存储介质


[0001]本专利技术涉及人工智能
,尤其是一种业务数据标注方法、系统、装置及存储介质。

技术介绍

[0002]随着人工智能技术的不断发展,联邦学习作为一种保护数据隐私的模型联合训练方法受到了广泛关注。
[0003]在联邦学习中,很多时候数据是没有标注的,比如用户拍摄的照片,手机 app自动记录的数据。一方面,要求用户标注如此庞大的数据是不现实的。另一方面,一些数据的标注可能需要专业知识,如医学业务的标注和财务数据的评估,这导致数据标注的效率低下。
[0004]综上所述,相关技术中存在的问题亟需得到解决。

技术实现思路

[0005]本申请的目的在于至少一定程度上解决相关技术中存在的技术问题之一。
[0006]为此,本申请实施例的一个目的在于提供一种业务数据标注方法,该方法能够实现对业务数据的自动化标注,从而提高数据标注的效率。
[0007]为了达到上述技术目的,本申请实施例所采取的技术方案包括:
[0008]一种业务数据标注方法,所述方法应用于客户端,所述方法包括:
[0009]基于局部模型对服务器中的公共业务数据集进行特征提取,得到实例特征参数;
[0010]基于所述实例特征参数获取实例原型集;
[0011]基于所述实例特征参数和所述实例原型集获取更新信息,通过所述更新信息对所述局部模型的参数进行更新;
[0012]当所述局部模型满足目标终止条件,获得目标局部模型;
[0013]基于所述目标局部模型进行业务数据标注。
[0014]另外,根据本申请上述实施例的一种业务数据标注方法,还可以具有以下附加的技术特征:
[0015]进一步地,在本申请的一个实施例中,所述基于局部模型对服务器中的公共业务数据集进行特征提取,得到实例特征参数这一步骤,具体包括:
[0016]在所述客户端上构建局部模型;
[0017]基于本地训练集对所述局部模型进行训练;
[0018]基于训练后的局部模型对服务器中的公共业务数据集进行特征提取,得到实例特征参数。
[0019]进一步地,在本申请的一个实施例中,所述基于本地训练集对所述局部模型进行训练这一步骤,具体包括:
[0020]对所述本地训练集进行数据增强处理,得到增强业务数据集,所述增强业务数据集包括增强样本;
[0021]将所述增强样本输入到所述局部模型中,得到所述局部模型输出的预测结果;
[0022]基于所述预测结果,确定第一损失函数;
[0023]根据所述第一损失函数,对所述局部模型的参数进行更新。
[0024]进一步地,在本申请的一个实施例中,所述基于特征提取得到的实例特征参数获取实例原型集这一步骤,具体包括:
[0025]将各个客户端的实例特征参数发送至所述服务器上;
[0026]通过所述服务器将各个客户端的实例特征参数进行聚合,得到所述实例原型集;
[0027]所述各个客户端获取所述服务器返回的所述实例原型集。
[0029]进一步地,在本申请的一个实施例中,所述通过所述服务器将各个客户端的实例特征参数进行聚合,得到所述实例原型集这一步骤,具体包括:
[0030]通过服务器获取所述各个客户端的实例特征参数;
[0031]通过服务器对所述各个客户端的实例特征参数进行加权平均,得到所述实例原型集。
[0032]进一步地,在本申请的一个实施例中,所述基于所述实例特征参数和所述实例原型集获取更新信息这一步骤,具体包括:
[0033]计算所述实例特征参数和所述实例原型集的分布距离,所述分布距离用于表征所述实例特征参数和所述实例原型集的拟合程度;
[0034]基于所述分布距离和第二损失函数,确定所述更新信息。
[0035]进一步地,在本申请的一个实施例中,所述通过所述更新信息对所述局部模型的参数进行更新,具体包括:
[0036]根据所述更新信息通过随机梯度下降算法对所述局部模型进行更新。
[0037]另一方面,本申请实施例提供了一种业务数据标注系统,所述系统包括以下模块:
[0038]第一模块,用于基于局部模型对服务器中的公共业务数据集进行特征提取,得到实例特征参数;
[0039]第二模块,用于基于所述实例特征参数获取实例原型集;
[0040]第三模块,基于所述实例特征参数和所述实例原型集获取更新信息,通过所述更新信息对所述局部模型的参数进行更新;
[0041]第四模块,用于当所述局部模型满足目标终止条件,完成联邦学习任务;
[0042]第五模块,用于基于完成联邦学习任务的局部模型进行业务数据标注。
[0043]另一方面,本申请实施例提供了一种业务数据标注装置,包括:
[0044]至少一个处理器;
[0045]至少一个存储器,用于存储至少一个程序;
[0046]当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上述的业务数据标注方法。
[0047]一种计算机可读存储介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于实现上述的业务数据标注方法。
[0048]本申请的优点和有益效果将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到:
[0049]本申请实施例所公开的一种业务数据标注方法,应用于包括但不限于智能手机、
掌上电脑、平板电脑、智能电视(Smart TV)等智能终端,所述方法应用于客户端,所述方法基于局部模型对服务器中的公共业务数据集进行特征提取,以得到实例特征参数;然后,基于所述实例特征参数获取实例原型集;接着,基于所述实例特征参数和所述实例原型集获取更新信息,并通过所述更新信息对所述局部模型的参数进行更新;当所述局部模型满足目标终止条件,完成联邦学习任务;随后,基于完成联邦学习任务的局部模型进行业务数据标注。该方法一方面通过经过联邦学习后的局部模型进行数据标注,实现业务数据标注的自动化;另一方面,在不同客户端之间共享实例原型,以减少数据异构对模型训练的影响,从而提高了局部模型的标注精度。
附图说明
[0050]为了更清楚地说明本申请实施例或者现有技术中的技术方案,下面对本申请实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本专利技术的技术方案中的部分实施例,对于本领域的技术人员来说,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
[0051]图1为本申请实施例中提供的一种业务数据标注方法的实施环境示意图;
[0052]图2为本申请实施例中提供的一种业务数据标注方法的流程示意图;
[0053]图3为本申请实施例中提供的图2中步骤110的一种具体流程示意图;
[0054]图4为本申请实施例中提供的图3中步骤112本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种业务数据标注方法,其特征在于,所述方法应用于客户端,所述方法包括:基于局部模型对服务器中的公共业务数据集进行特征提取,得到实例特征参数;基于所述实例特征参数获取实例原型集;基于所述实例特征参数和所述实例原型集获取更新信息,通过所述更新信息对所述局部模型的参数进行更新;当所述局部模型满足目标终止条件,获得目标局部模型;基于所述目标局部模型进行业务数据标注。2.根据权利要求1所述的一种业务数据标注方法,其特征在于,所述基于局部模型对服务器中的公共业务数据集进行特征提取,得到实例特征参数这一步骤,具体包括:在所述客户端上构建局部模型;基于本地训练集对所述局部模型进行训练;基于训练后的局部模型对服务器中的公共业务数据集进行特征提取,得到实例特征参数。3.根据权利要求2所述的一种业务数据标注方法,其特征在于,所述基于本地训练集对所述局部模型进行训练这一步骤,具体包括:对所述本地训练集进行数据增强处理,得到增强业务数据集,所述增强业务数据集包括增强样本;将所述增强样本输入到所述局部模型中,得到所述局部模型输出的预测结果;基于所述预测结果,确定第一损失函数;根据所述第一损失函数,对所述局部模型的参数进行更新。4.根据权利要求1所述的一种业务数据标注方法,其特征在于,所述基于特征提取得到的实例特征参数获取实例原型集这一步骤,具体包括:将各个客户端的实例特征参数发送至所述服务器上;通过所述服务器将各个客户端的实例特征参数进行聚合,得到所述实例原型集;所述各个客户端获取所述服务器返回的所述实例原型集。5.根据权利要求4所述的一种业务数据标注方法,其特征在于,所述通过所述服务器将各个客户端的实例特征参数进行聚合,得到所述实例原型集这一步骤,具体包括:通过服务器获取所述各个客户端的实...

【专利技术属性】
技术研发人员:李泽远王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1