一种敏感信息识别方法和装置制造方法及图纸

技术编号：26418776 阅读：14 留言：0更新日期：2020-11-20 14:14

本发明专利技术提供了一种敏感信息识别方法和装置，该方法包括：建立显著敏感词语库，对样本数据进行预处理，确定样本训练数据；根据样本训练数据，确定样本训练集；根据样本训练集，确定样本向量；在各参与方中根据样本向量，训练朴素贝叶斯模型，确定模型梯度；在各参与方中利用同态加密方式对模型梯度进行加密掩饰，确定加密数据，发送至中央参数服务器；在中央参数服务器中利用横向联邦学习，将加密数据基于同态运算进行聚合计算，确定聚合加密数据，发送至每一参与方；在各参与方中根据聚合加密数据，更新朴素贝叶斯模型，直至损失函数收敛，确定更新后朴素贝叶斯模型；根据更新后朴素贝叶斯模型，对样本训练数据进行敏感信息识别。

全部详细技术资料下载

【技术实现步骤摘要】
一种敏感信息识别方法和装置
本专利技术涉及计算机数据处理
，尤其涉及一种敏感信息识别方法和装置。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。机器学习技术的不断发展与进步，可以训练数据实现模型的训练，以达到智能分类和识别的目的；在训练的过程中，需要大量的训练数据作为基础。鉴于信息安全与用户隐私保护的考虑，在进行敏感信息筛选时，仅能在提供训练数据的参与方本地进行训练，原始数据是不能共享的；当存在多个参与方时，由于彼此之间不愿意泄露各自的本地原始数据，会造成“数据孤岛”的困境，导致各个参与方训练出的模型分类和识别准确率较低，而且各个参与方之间因原始数据的不同，会造成各参与方训练的耗时不同，同时由于采用同态加密，会影响计算速度，造成总得训练耗时增加，效率较低。因此，如何提供一种新的方案，其能够解决上述技术问题是本领域亟待解决的技术难题。
技术实现思路
本专利技术实施例提供一种敏感信息识别方法，通过横向联邦学习在保障数据隐私与安全的情况下联合训练模型，实现了敏感信息的高效精准识别，包括：建立显著敏感词语库；根据显著敏感词语库，对样本数据进行预处理，确定样本训练数据；根据样本训练数据，确定样本训练集；根据样本训练集，确定样本向量；在各参与方中根据样本向量，训练朴素贝叶斯模型，确定模型梯度；在各参与方中利用同态加密方式对模型梯度进行加密掩饰，确定加密数...

【技术保护点】
1.一种敏感信息识别方法，其特征在于，包括：/n建立显著敏感词语库；/n根据显著敏感词语库，对样本数据进行预处理，确定样本训练数据；/n根据样本训练数据，确定样本训练集；/n根据样本训练集，确定样本向量；/n在各参与方中根据样本向量，训练朴素贝叶斯模型，确定模型梯度；/n在各参与方中利用同态加密方式对模型梯度进行加密掩饰，确定加密数据，发送至中央参数服务器；/n在中央参数服务器中利用横向联邦学习，将加密数据基于同态运算进行聚合计算，确定聚合加密数据，发送至每一参与方；/n在各参与方中根据聚合加密数据，更新朴素贝叶斯模型，直至损失函数收敛，确定更新后朴素贝叶斯模型；/n根据更新后朴素贝叶斯模型，对样本训练数据进行敏感信息识别。/n

【技术特征摘要】
1.一种敏感信息识别方法，其特征在于，包括：
建立显著敏感词语库；
根据显著敏感词语库，对样本数据进行预处理，确定样本训练数据；
根据样本训练数据，确定样本训练集；
根据样本训练集，确定样本向量；
在各参与方中根据样本向量，训练朴素贝叶斯模型，确定模型梯度；
在各参与方中利用同态加密方式对模型梯度进行加密掩饰，确定加密数据，发送至中央参数服务器；
在中央参数服务器中利用横向联邦学习，将加密数据基于同态运算进行聚合计算，确定聚合加密数据，发送至每一参与方；
在各参与方中根据聚合加密数据，更新朴素贝叶斯模型，直至损失函数收敛，确定更新后朴素贝叶斯模型；
根据更新后朴素贝叶斯模型，对样本训练数据进行敏感信息识别。

2.如权利要求1所述的方法，其特征在于，所述显著敏感词语库，包括：显著敏感词语；
根据显著敏感词语库，对样本数据进行预处理，确定样本训练数据，包括：
根据显著敏感词语库，将样本数据通过AC自动机进行字符串匹配进行预处理，当样本数据中的样本匹配到显著敏感词语时，将该样本从样本数据中剔除，将剩余的样本数据确定为样本训练数据。

3.如权利要求1所述的方法，其特征在于，根据样本训练数据，确定样本训练集，包括：
对样本训练数据进行切词和去停用词处理，确定各参与方的样本训练集。

4.如权利要求3所述的方法，其特征在于，根据样本训练集，确定样本向量，包括：
各参与方根据样本训练集，计算各自不重复词语的数量；
各参与方分享各自不重复词语的数量，将每一参与方分享的各自不重复词语的数量相加，确定不重复词语总数量；
在各参与方中将样本训练集中每一样本分为多个词语，将每一样本的各个词语哈希散列到长度值为不重复词语总数量的一个向量上，确定样本向量。

5.如权利要求1所述的方法，其特征在于，在各参与方中根据聚合加密数据，更新朴素贝叶斯模型，直至损失函数收敛，确定更新后朴素贝叶斯模型，包括：
各参与方接收中央参数服务器发来的聚合加密数据；
对聚合加密数据进行解密，确定模型更新参数；
根据模型更新参数，更新朴素贝叶斯模型，进行二次训练；
检测朴素贝叶斯模型在二次训练过程中的损失函数，在损失函数收敛时，二次训练停止，确定更新后朴素贝叶斯模型。

6.一种敏感信息识别装置，其特征在于，包括：
显著敏感词语库建立模块，用于建立显著敏感词语库；
预处理模块，用于根据显著敏感词语库，对样本数据进行预处理，确定样本训练数据；
样本训练...

【专利技术属性】
技术研发人员：李瑞男，
申请(专利权)人：中国银行股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人