一种敏感信息识别方法和装置制造方法及图纸

技术编号:26418776 阅读:14 留言:0更新日期:2020-11-20 14:14
本发明专利技术提供了一种敏感信息识别方法和装置,该方法包括:建立显著敏感词语库,对样本数据进行预处理,确定样本训练数据;根据样本训练数据,确定样本训练集;根据样本训练集,确定样本向量;在各参与方中根据样本向量,训练朴素贝叶斯模型,确定模型梯度;在各参与方中利用同态加密方式对模型梯度进行加密掩饰,确定加密数据,发送至中央参数服务器;在中央参数服务器中利用横向联邦学习,将加密数据基于同态运算进行聚合计算,确定聚合加密数据,发送至每一参与方;在各参与方中根据聚合加密数据,更新朴素贝叶斯模型,直至损失函数收敛,确定更新后朴素贝叶斯模型;根据更新后朴素贝叶斯模型,对样本训练数据进行敏感信息识别。

【技术实现步骤摘要】
一种敏感信息识别方法和装置
本专利技术涉及计算机数据处理
,尤其涉及一种敏感信息识别方法和装置。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。机器学习技术的不断发展与进步,可以训练数据实现模型的训练,以达到智能分类和识别的目的;在训练的过程中,需要大量的训练数据作为基础。鉴于信息安全与用户隐私保护的考虑,在进行敏感信息筛选时,仅能在提供训练数据的参与方本地进行训练,原始数据是不能共享的;当存在多个参与方时,由于彼此之间不愿意泄露各自的本地原始数据,会造成“数据孤岛”的困境,导致各个参与方训练出的模型分类和识别准确率较低,而且各个参与方之间因原始数据的不同,会造成各参与方训练的耗时不同,同时由于采用同态加密,会影响计算速度,造成总得训练耗时增加,效率较低。因此,如何提供一种新的方案,其能够解决上述技术问题是本领域亟待解决的技术难题。
技术实现思路
本专利技术实施例提供一种敏感信息识别方法,通过横向联邦学习在保障数据隐私与安全的情况下联合训练模型,实现了敏感信息的高效精准识别,包括:建立显著敏感词语库;根据显著敏感词语库,对样本数据进行预处理,确定样本训练数据;根据样本训练数据,确定样本训练集;根据样本训练集,确定样本向量;在各参与方中根据样本向量,训练朴素贝叶斯模型,确定模型梯度;在各参与方中利用同态加密方式对模型梯度进行加密掩饰,确定加密数据,发送至中央参数服务器;在中央参数服务器中利用横向联邦学习,将加密数据基于同态运算进行聚合计算,确定聚合加密数据,发送至每一参与方;在各参与方中根据聚合加密数据,更新朴素贝叶斯模型,直至损失函数收敛,确定更新后朴素贝叶斯模型;根据更新后朴素贝叶斯模型,对样本训练数据进行敏感信息识别。本专利技术实施例还提供一种敏感信息识别装置,包括:显著敏感词语库建立模块,用于建立显著敏感词语库;预处理模块,用于根据显著敏感词语库,对样本数据进行预处理,确定样本训练数据;样本训练集确定模块,用于根据样本训练数据,确定样本训练集;样本向量确定模块,用于根据样本训练集,确定样本向量;模型梯度确定模块,用于在各参与方中根据样本向量,训练朴素贝叶斯模型,确定模型梯度;同态加密模块,用于在各参与方中利用同态加密方式对模型梯度进行加密掩饰,确定加密数据,发送至中央参数服务器;聚合加密数据确定模块,用于在中央参数服务器中利用横向联邦学习,将加密数据基于同态运算进行聚合计算,确定聚合加密数据,发送至每一参与方;更新后朴素贝叶斯模型确定模块,用于在各参与方中根据聚合加密数据,更新朴素贝叶斯模型,直至损失函数收敛,确定更新后朴素贝叶斯模型;敏感信息识别模块,用于根据更新后朴素贝叶斯模型,对样本训练数据进行敏感信息识别。本专利技术实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种敏感信息识别方法。本专利技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述一种敏感信息识别方法的计算机程序。本专利技术实施例提供的一种敏感信息识别方法和装置,首先建立显著敏感词语库;根据显著敏感词语库,对样本数据进行预处理,确定样本训练数据;利用显著敏感词语库对样本数据进行预处理,将样本数据进行过滤,可以减少模型训练所消耗的时间,提升效率;然后,根据样本训练数据,确定样本训练集;根据样本训练集,确定样本向量;通过将样本训练数据转化为样本向量,实现了特征对其,为多参与方进行横向联邦学习提供了基础;接着,在各参与方中根据样本向量,训练朴素贝叶斯模型,确定模型梯度;在各参与方中利用同态加密方式对模型梯度进行加密掩饰,确定加密数据,发送至中央参数服务器;在中央参数服务器中利用横向联邦学习,将加密数据基于同态运算进行聚合计算,确定聚合加密数据,发送至每一参与方;在各参与方中根据聚合加密数据,更新朴素贝叶斯模型,直至损失函数收敛,确定更新后朴素贝叶斯模型;根据更新后朴素贝叶斯模型,对样本训练数据进行敏感信息识别。本专利技术实施例中各参与方计算出模型梯度后加密上传至中央参数服务器,利用横向联邦学习将加密数据基于同态运算进行聚合计算,确定聚合加密数据,然后再分发至各个参与方对朴素贝叶斯模型进行更新,打破了多个参与方由于不信任或数据安全及用户隐私造成的“数据孤岛”困境,实现了联合训练模型,同时采用对样本数据预处理的方式,减少了本地朴素贝叶斯模型的训练时间,弥补了同态加密导致效率低下而耗费的时间,从整体上减少了训练得出更新后朴素贝叶斯模型的时间,提高了整体效率;采用横向联邦学习使得各个参与方进行联合训练,大大提高了模型识别的准确率,通过更新后朴素贝叶斯模型,可以对样本训练数据进行精准高效的敏感信息识别。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:图1为本专利技术实施例一种敏感信息识别方法示意图。图2为本专利技术实施例一种敏感信息识别方法的确定样本向量过程示意图。图3为本专利技术实施例一种敏感信息识别方法的确定更新后朴素贝叶斯模型过程示意图。图4为运行本专利技术实施的一种敏感信息识别方法的计算机装置示意图。图5为本专利技术实施例一种敏感信息识别装置示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本专利技术实施例做进一步详细说明。在此,本专利技术的示意性实施例及其说明用于解释本专利技术,但并不作为对本专利技术的限定。图1为本专利技术实施例一种敏感信息识别方法示意图,如图1所示,本专利技术实施例提供一种敏感信息识别方法,通过横向联邦学习在保障数据隐私与安全的情况下联合训练模型,实现了敏感信息的高效精准识别,包括:步骤101:建立显著敏感词语库;步骤102:根据显著敏感词语库,对样本数据进行预处理,确定样本训练数据;步骤103:根据样本训练数据,确定样本训练集;步骤104:根据样本训练集,确定样本向量;步骤105:在各参与方中根据样本向量,训练朴素贝叶斯模型,确定模型梯度;步骤106:在各参与方中利用同态加密方式对模型梯度进行加密掩饰,确定加密数据,发送至中央参数服务器;步骤107:在中央参数服务器中利用横向联邦学习,将加密数据基于同态运算进行聚合计算,确定聚合加密数据,发送至每一参与方;步骤108:在各参与方中根据聚合加密数据,更新朴素贝叶斯模型,直至损失函数收敛,确定更新后朴素贝叶斯模型;步骤109:根据更新后朴素贝叶斯模型,对样本训本文档来自技高网...

【技术保护点】
1.一种敏感信息识别方法,其特征在于,包括:/n建立显著敏感词语库;/n根据显著敏感词语库,对样本数据进行预处理,确定样本训练数据;/n根据样本训练数据,确定样本训练集;/n根据样本训练集,确定样本向量;/n在各参与方中根据样本向量,训练朴素贝叶斯模型,确定模型梯度;/n在各参与方中利用同态加密方式对模型梯度进行加密掩饰,确定加密数据,发送至中央参数服务器;/n在中央参数服务器中利用横向联邦学习,将加密数据基于同态运算进行聚合计算,确定聚合加密数据,发送至每一参与方;/n在各参与方中根据聚合加密数据,更新朴素贝叶斯模型,直至损失函数收敛,确定更新后朴素贝叶斯模型;/n根据更新后朴素贝叶斯模型,对样本训练数据进行敏感信息识别。/n

【技术特征摘要】
1.一种敏感信息识别方法,其特征在于,包括:
建立显著敏感词语库;
根据显著敏感词语库,对样本数据进行预处理,确定样本训练数据;
根据样本训练数据,确定样本训练集;
根据样本训练集,确定样本向量;
在各参与方中根据样本向量,训练朴素贝叶斯模型,确定模型梯度;
在各参与方中利用同态加密方式对模型梯度进行加密掩饰,确定加密数据,发送至中央参数服务器;
在中央参数服务器中利用横向联邦学习,将加密数据基于同态运算进行聚合计算,确定聚合加密数据,发送至每一参与方;
在各参与方中根据聚合加密数据,更新朴素贝叶斯模型,直至损失函数收敛,确定更新后朴素贝叶斯模型;
根据更新后朴素贝叶斯模型,对样本训练数据进行敏感信息识别。


2.如权利要求1所述的方法,其特征在于,所述显著敏感词语库,包括:显著敏感词语;
根据显著敏感词语库,对样本数据进行预处理,确定样本训练数据,包括:
根据显著敏感词语库,将样本数据通过AC自动机进行字符串匹配进行预处理,当样本数据中的样本匹配到显著敏感词语时,将该样本从样本数据中剔除,将剩余的样本数据确定为样本训练数据。


3.如权利要求1所述的方法,其特征在于,根据样本训练数据,确定样本训练集,包括:
对样本训练数据进行切词和去停用词处理,确定各参与方的样本训练集。


4.如权利要求3所述的方法,其特征在于,根据样本训练集,确定样本向量,包括:
各参与方根据样本训练集,计算各自不重复词语的数量;
各参与方分享各自不重复词语的数量,将每一参与方分享的各自不重复词语的数量相加,确定不重复词语总数量;
在各参与方中将样本训练集中每一样本分为多个词语,将每一样本的各个词语哈希散列到长度值为不重复词语总数量的一个向量上,确定样本向量。


5.如权利要求1所述的方法,其特征在于,在各参与方中根据聚合加密数据,更新朴素贝叶斯模型,直至损失函数收敛,确定更新后朴素贝叶斯模型,包括:
各参与方接收中央参数服务器发来的聚合加密数据;
对聚合加密数据进行解密,确定模型更新参数;
根据模型更新参数,更新朴素贝叶斯模型,进行二次训练;
检测朴素贝叶斯模型在二次训练过程中的损失函数,在损失函数收敛时,二次训练停止,确定更新后朴素贝叶斯模型。


6.一种敏感信息识别装置,其特征在于,包括:
显著敏感词语库建立模块,用于建立显著敏感词语库;
预处理模块,用于根据显著敏感词语库,对样本数据进行预处理,确定样本训练数据;
样本训练...

【专利技术属性】
技术研发人员:李瑞男
申请(专利权)人:中国银行股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1