一种基于安全多方计算技术的隐私保护实体识别工具制造技术

技术编号：37358722 阅读：14 留言：0更新日期：2023-04-27 07:07

本发明专利技术通过网络安全领域的方法，实现了一种基于安全多方计算技术的隐私保护实体识别工具。包含嵌入矩阵共享、高敏感模块优化以及隐私保护预分块三个模块；嵌入矩阵共享模块获得高维词矩阵；高敏感模块优化模块对现有的四种高敏感模块进行优化；所述隐私保护预分块模块对两个计算参与方得到各自对应的一半结果A和结果B，并通过秘密共享协议的解密算法得到完整的明文结果“0”或“1”，即实体“匹配”或“不匹配”。本发明专利技术提供的方法提出了一个兼具稳定性和鲁棒性的隐私保护实体识别框架PRIBER，能够在Bert模型上采用安全多方计算技术执行实体识别二分类任务，并且不牺牲实体识别本身的准确性。准确性。准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于安全多方计算技术的隐私保护实体识别工具

[0001]本专利技术涉及信息安全
，尤其涉及一种基于安全多方计算技术的隐私保护实体识别工具。

技术介绍

[0002]隐私保护实体识别旨在匹配出来自不同数据库的两条记录是否属于真实世界的同一个实体，同时不会暴露敏感信息。在大规模预训练语言模型Bert的支撑下，实体记录之间的相似度判别可以不仅仅受限于文本层面，还能受益于可以捕获语义的深度神经网络架构，因此实体识别本身的效率有了很大的提升。而如何在保护隐私信息的条件下，高效地完成Bert上的实体识别任务，就成为了一个亟待解决的问题。
[0003]现有的解决方案要么适用于很少有非线性操作的小模型，要么适用于非机器学习的低效实体识别方案。将安全多方计算技术引入实体识别任务是一个新颖的方案，它可以让每个参与方在不获取任何明文信息的情况下，独立完成Bert模型上的实体识别计算任务。我们采用了安全多方计算中的秘密共享技术，该技术具有信息论安全性和密码学安全性的双重保护。在此技术中，利用随机数和对应的加密算法，使得每个参与方拥有原始数据的一部分密文份额，而当且仅当所有的密文份额都被获取到后，原始明文才能被正确恢复。
[0004]现有技术存在一种安全多方计算技术应用于机器学习模型的工具Crypten，它提供了基本的安全多方计算和通信原语，以及一些神经网络中出现的非线性函数的多项式近似算法。Crypten提供模型加密和数据加密两个模块，模型通过安全类注册以及参数秘密共享来实现，数据通过直接进行秘密共享实现。由于秘密共...

【技术保护点】

【技术特征摘要】
1.一种基于安全多方计算技术的隐私保护实体识别工具，通过输入电商平台各方数据，计算参与各方是否属于同一实体，其特征在于：包含嵌入矩阵共享、高敏感模块优化以及隐私保护预分块三个模块；所述嵌入矩阵共享模块采用嵌入共享算法处理模型，通过对电商平台作为模型拥有者提供的共享嵌入矩阵进行索引，获得高维词矩阵；所述高敏感模块优化模块对现有的四种高敏感模块进行优化，并使用秘密共享协议对数据和模型进行加密，参与者各自获得数据和模型的一半密文，并通过密文推理阶段，每个参与方独立地计算自己的密文各自独立地进行密文上的计算操作；所述隐私保护预分块模块对两个计算参与方得到各自对应的一半结果A和结果B，并通过秘密共享协议的解密算法得到完整的明文结果“0”或“1”，即在电商活动各方都不暴露自己信息的情况下，通过相似度计算得出实体“匹配”或“不匹配”，即是否属于同一实体的结论。2.如权利要求1所述的一种基于安全多方计算技术的隐私保护实体识别工具，其特征在于：所述公向算法处理模型当存在一个数据对s和一个经过微调的模型M时，模型拥有者首先将其Embedding层参数共享给数据拥有者，数据拥有者使用特定的分词器将数据对划分为tokens，然后，对于每个token，使用查找表来获得训练阶段得到的Embedding矩阵，以及其他Bert模型特有的Embedding，经过嵌入部分后，再进行层的归一化操作，最后应用秘密共享技术为数据拥有者和模型拥有者各自生成秘密共享份额；在加密数据集的Embeddin g得到数据共享份额之后对模型加密，得到加密模型。3.如权利要求2所述的一种基于安全多方计算技术的隐私保护实体识别工具，其特征在于：所述其他Bert模型特有的Embedding包括位置、标记类型。4.如权利要求2所述的一种基于安全多方计算技术的隐私保护实体识别工具，其特征在于：所述现有的四种高敏感模块进行优化具体包括，首先对Softmax函数进行优化，当上一层的输入进入softmax模...

【专利技术属性】
技术研发人员：李牧，孙明正，冯逸骏，杨心怡，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人