基于隐私保护联合训练自然语言处理模型的方法及装置制造方法及图纸

技术编号：32026721 阅读：40 留言：0更新日期：2022-01-22 18:57

本说明书实施例提供一种基于隐私保护联合训练自然语言处理NLP模型的方法，其中NLP模型包括位于第一方的编码网络和位于第二方的处理网络。根据该方法，第一方获取本地的目标训练语句后，将其输入编码网络，基于所述编码网络的编码输出，形成句子表征向量。然后，在句子表征向量上添加符合差分隐私的目标噪声，得到目标加噪表征。将该目标加噪表征发送至第二方，用于处理网络的训练。用于处理网络的训练。用于处理网络的训练。

全部详细技术资料下载

【技术实现步骤摘要】
基于隐私保护联合训练自然语言处理模型的方法及装置

[0001]本说明书一个或多个实施例涉及机器学习领域，尤其涉及一种基于隐私保护联合训练自然语言处理模型的方法及装置。

技术介绍

[0002]机器学习的迅猛发展使得各种机器学习的模型在各种各样的业务场景得到应用。自然语言处理NLP（natural language processing）是一种常见的机器学习任务，广泛应用于多种业务场景中，例如，用户意图识别，智能客服问答，机器翻译，文本分析分类，等等。针对NLP任务，已经提出了多种神经网络模型和训练方法，来增强其语义理解能力。
[0003]可以理解，对于机器学习模型来说，模型预测性能极大地依赖于训练样本的丰富程度和可用程度，为了得到性能更加优异更符合实际业务场景的预测模型，往往需要大量贴合该业务场景的训练样本。针对具体NLP任务的NLP模型更是如此。为了具有丰富的训练数据，提升NLP模型的性能，在一些场景中，提出利用多个数据方的训练数据，共同训练NLP模型。然而，各个数据方本地的训练数据往往包含本地业务对象的隐私，特别是...

【技术保护点】

【技术特征摘要】
1.一种基于隐私保护联合训练自然语言处理NLP模型的方法，所述NLP模型包括位于第一方的编码网络和位于第二方的处理网络，所述方法由第一方执行，包括：获取本地的目标训练语句；将所述目标训练语句输入所述编码网络，基于所述编码网络的编码输出，形成句子表征向量；在所述句子表征向量上添加符合差分隐私的目标噪声，得到目标加噪表征；所述目标加噪表征被发送至所述第二方，用于所述处理网络的训练。2.根据权利要求1所述的方法，其中，获取本地的目标训练语句，包括：根据预设的采样概率p，从本地样本总集中进行采样，得到用于当前迭代轮次的样本子集；从所述样本子集中读取所述目标训练语句。3.根据权利要求1所述的方法，其中，基于所述编码网络的编码输出，形成句子表征向量，包括：获取所述编码网络针对所述目标训练语句中各个字符进行编码的字符表征向量；针对所述各个字符的字符表征向量进行基于预设裁剪阈值的裁剪操作，基于裁剪后的字符表征向量形成所述句子表征向量。4.根据权利要求3所述的方法，其中，所述基于预设裁剪阈值的裁剪操作包括：若所述字符表征向量的当前范数值超过所述裁剪阈值，确定所述裁剪阈值与所述当前范数值的比例，将所述字符表征向量按照所述比例进行裁剪。5.根据权利要求3所述的方法，其中，基于裁剪后的字符表征向量形成所述句子表征向量，包括：将所述各个字符的裁剪后的字符表征向量拼接，形成所述句子表征向量。6.根据权利要求3所述的方法，其中，在所述句子表征向量上添加符合差分隐私的目标噪声之前，还包括：根据预设的隐私预算，确定针对所述目标训练语句的噪声功率；在根据所述噪声功率确定的噪声分布中，采样得到所述目标噪声。7.根据权利要求6所述的方法，其中，根据预设的隐私预算，确定针对所述目标训练语句的噪声功率，包括：根据所述裁剪阈值，确定所述目标训练语句对应的敏感度；根据预设的单句隐私预算和所述敏感度，确定针对所述目标训练语句的噪声功率。8.根据权利要求6所述的方法，其中，根据预设的隐私预算，确定针对所述目标训练语句的噪声功率，包括：根据预设的用于总迭代轮数T的总隐私预...

【专利技术属性】
技术研发人员：杜健，莫冯然，王磊，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人