一种用于自然语言处理的深度学习模型的同态加密方法技术

技术编号：37305881 阅读：26 留言：0更新日期：2023-04-21 22:50

本发明专利技术公开一种用于自然语言处理的深度学习模型的同态加密方法，首先根据需要加密的数据或者需要使用的深度学习模型获得原始符号表；根据原始符号表生成一份不包含重复符号且大小不小于原始符号表的随机符号表，原始符号表中的符号与随机符号表中的符号形成一对一或一对多的映射关系；随机符号表作为密钥K；通过分词算法将深度学习模型对应的一份明文数据分成符号串；将符号串中的符号按照密钥K，映射成新符号，并串联，生成利用密钥K加密后的密文m。采用本发明专利技术的方法进行加密，产出的密文在深度学习中可以保持计算同态，也就是说深度学习模型可以基于密文训练和预测，不影响训练的计算效率，也不改变预测结果，不改变准确率和召回率效果。和召回率效果。和召回率效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于自然语言处理的深度学习模型的同态加密方法

[0001]本专利技术涉及到计算机数据安全和密码学领域，尤其涉及一种用于自然语言处理的深度学习模型的同态加密方法。

技术介绍

[0002]基于深度学习的自然语言处理提供的服务已经越来越普遍，基于自然语言、大数据的推荐、识别等服务给用户带来了更大的便利。与此同时，用户提交的数据的过程可能会导致用户牺牲了自己的隐私信息。为了在保护用户隐私的前提下保持服务商提供服务的能力，在隐私计算的研究领域内已有一些处于研究之中的技术。需要说明的是，隐私计算不是一个单一的技术，相反，是一门融合了密码学、人工智能、计算机科学乃至安全硬件的跨学科交叉领域。目前被广泛研究的技术方向包括：多方安全计算、联邦学习和可信执行环境技术、差分隐私和同态加密。
[0003]其一是以多方安全计算(SMPC或MPC:Secure Multi
‑
Party computation)技术为代表的纯基于密码学的技术；其二是以联邦学习(Federated Learning)为代表的人工智能和密码学融合的技术；第三类是以可信执行环境(TEE:Trusted Execution Environment)为基础的基于可信硬件的技术。同时，除了罗列的三大技术方向，诸如同态加密、差分隐私等技术也被广泛采用，或融入上述方向中作为方案的一部分，或被独立来用。值得一提的是，这几类技术并不互斥，在实现业务目标时往往根据场景特定，按需使用，甚至协同使用。隐私计算技术主要对比如下。
[0004]多方安全计...

【技术保护点】

【技术特征摘要】
1.一种用于自然语言处理的深度学习模型的同态加密方法，其特征在于，包含以下步骤：步骤一：密钥生成；根据需要加密的数据或者需要使用的深度学习模型获得原始符号表；根据所述原始符号表生成一份不包含重复符号的随机符号表，所述随机符号表的大小不小于所述原始符号表，且所述原始符号表中的符号与所述随机符号表中的符号形成一对一或一对多的映射关系；所述随机符号表作为密钥K；步骤二：数据加密；步骤(2.1)：通过分词算法将一份明文数据分成符号串；步骤(2.2)：将所述符号串中的符号按照所述密钥K，从原符号映射成新符号；其中，如果映射关系是一对一的映射，则直接映射到新符号；如果映射关系是一对多的，则从原符号映射到的多个符号中，随机选取一个符号作为新符号；步骤(2.3)：将所述新符号串联，生成利用密钥K加密后的密文m。2.根据权利要求1所述的用于自然语言处理的深度学习模型的同态加密方法，其特征在于，根据所述原始符号表生成一份不包含重复符号的随机符号表，具体包括：将所述将原始符号表随机打乱顺序，生成一份随机符号表；此时，所述原始符号表中的符号与随机符号表中的符号形成一对一的映射关系；或者，选取一份大小不小于所述原始符号表的全新的符号表，随机打乱顺序，生成一份随机符号表。3.根据权利要求2所述的用于自然语言处理的深度学习模型的同态加密方法，其特征在于，将所述将原始符号表随机打乱顺序，生成一份随机符号表，具体包括：选取原始符号表中的部分符号打乱顺序，剩余的保持原样，生成随机符号表；或者，将整个原始符号表打乱顺序，生成一份随机符号表。4.根据权利要求2所述的用于自然语言处理的深度学习模型的同态加密方法，其特征在于，选取的新符号表的大小...

【专利技术属性】
技术研发人员：陈圆谜，黄程韦，朱晓明，阚保春，魏伟，郑海天，刘海丰，
申请(专利权)人：浙江杭钢职业教育集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人