API的敏感数据泄露检测方法及系统技术方案

技术编号:29401005 阅读:17 留言:0更新日期:2021-07-23 22:38
本发明专利技术提供一种API的敏感数据泄露检测方法,包括:获取API基于查询请求返回的查询信息,所述查询信息包括多个目标字段;识别出所述多个目标字段中的多个敏感字段;及根据所述多个敏感字段的字段数量和预设阈值,确定所述查询信息是否存在敏感数据泄露。本发明专利技术还提供一种API的敏感数据泄露检测系统。本发明专利技术能够及时有效判断API是否存在敏感数据泄露的问题,提高数据安全性。

【技术实现步骤摘要】
API的敏感数据泄露检测方法及系统
本专利技术实施例涉及安全领域,尤其涉及一种API的敏感数据泄露检测方法、系统、计算机设备及计算机可读存储介质。
技术介绍
随着大数据技术的兴起,数据已经成为核心资产。基于REST(RepresentationalStateTransfer,表述性状态传递)标准和API(ApplicationProgrammingInterface,应用程序接口)复用原因,在API设计过程中会考虑其通用性。基于通用性设计的API,其API针对不同需求的调用者,均返回全部的接口返回值。然而,上述做法会导致API调用过程中频繁发生敏感信息暴露。例如,提供用户信息查询的API,调用者A需求为:{用户名、住址},调用者B需求为:{用户名,年龄},但是,无论是响应调用者A的调用请求还是响应调用者B的调用请求,该API均返回如下接口返回值:{用户名、住址、年龄},此接口返回值对于调用者A来说多返回了“年龄”,对于调用者B来说多返回了“住址”,即API会将调用者不需要的部分值提供给调用者,造成敏感信息泄露,数据安全性低。因此,有必要提供API的敏感数据泄露检测方案,以防止敏感数据泄露,提高数据安全性。
技术实现思路
有鉴于此,本专利技术实施例提供了一种API的敏感数据泄露检测方法、系统、计算机设备及计算机可读存储介质,用于解决API调用过程中频繁发生敏感信息泄露的问题。本专利技术实施例是通过下述技术方案来解决上述技术问题:一种API的敏感数据泄露检测方法,包括:获取API基于查询请求返回的查询信息,所述查询信息包括多个目标字段;识别出所述多个目标字段中的多个敏感字段;及根据所述多个敏感字段的字段数量和预设阈值,确定所述查询信息是否存在敏感数据泄露。可选地,所述识别出所述多个目标字段中的多个敏感字段的步骤,包括:将各个目标字段输入到预先训练好的敏感字段识别模型组合中,并根据所述敏感字段识别模型组合输出所述各个目标字段的识别结果,所述识别结果用于指示相应目标字段是否为敏感字段;根据所述各个目标字段的识别结果,获取第一敏感字段集,所述第一敏感字段集包括根据所述敏感字段识别模型组合识别出的若干个第一敏感字段;根据预设的多个正则规则识别所述多个目标字段的多个字段内容,得到基于所述多个正则规则识别出的若干个敏感字段内容,并根据所述若干个敏感字段内容获取相应的若干个第二敏感字段,以根据所述若干个第二敏感字段构建第二敏感字段集;及对所述第一敏感字段集和所述第二敏感字段集取并集,并根据所述并集确定所述字段数量。可选地,所述敏感字段识别模型组合包括M个敏感字段识别模型,M为大于1的奇数;所述将各个目标字段输入到预先训练好的敏感字段识别模型组合中,并根据所述敏感字段识别模型组合输出所述各个目标字段的识别结果的步骤,包括:将第i个目标字段分别输入到每个敏感字段识别模型中,获取所述每个敏感字段识别模型的模型输出结果,所述每个敏感字段识别模型的模型输出结果为第一模型输出结果或第二模型输出结果,所述第一模型输出结果用于表征所述第i个目标字段为第一敏感字段,所述第二模型输出结果用于表征所述第i个目标字段为非敏感字段;所述第i个目标字段为所述多个目标字段中的其中一个目标字段,i为正整数;比较所述第一模型输出结果的数量和所述第二模型输出结果的数量;当所述第一模型输出结果的数量大于所述第二模型输出结果的数量,则确定所述识别结果为所述第i个目标字段为第一敏感字段;及当所述第一模型输出结果的数量小于所述第二模型输出结果的数量,则确定所述识别结果为所述第i个目标字段为非敏感字段。可选地,所述M个敏感字段识别模型根据相应的M个待训练模型训练得到;所述方法还包括对所述M个待训练模型进行预先训练的步骤:构造多个样本字段,每个样本字段携带对应的样本标记,所述样本标记用于表征相应的样本字段是否为敏感字段;将所述多个样本字段转化为多个样本字段特征向量;将每个样本字段特征向量输入至第j个待训练模型中,以获取所述每个样本字段对应的模型输出结果,其中,所述第j个待训练模型为所述M个待训练模型中的其中一个;比对所述每个样本字段的模型输出结果和对应的样本标记;及根据所述每个样本字段的模型输出结果和对应的样本标记的比对结果,调整所述第j个待训练模型的一个或多个模型参数,以得到第j个敏感字段识别模型,1≤j≤M,j为正整数。可选地,所述M个待训练模型包括深度神经网络模型、支持向量机模型和随机森林模型。可选地,所述多个样本字段包括敏感样本字段集合和非敏感样本字段集合,所述构造多个样本字段的步骤,包括:获取多个敏感样本字段,并根据所述多个敏感样本字段得到所述敏感样本字段集合;获取多个非敏感样本字段,并根据所述多个非敏感样本字段得到所述非敏感样本字段集合;获取每个敏感样本字段对应的多个扩展字段,其中,所述多个扩展字段的字段名称与相应敏感样本字段的字段名称之间具有相同含义但分别对应不同的表达形式;及将所述每个敏感样本字段对应的多个扩展字段加入到所述敏感样本字段集合中。可选地,还包括确定所述预设阈值的步骤:获取API调用行为日志,所述API调用行为日志包括多个历史敏感字段的数量;根据所述多个历史敏感字段的数量,确定第一四分位数和第三四分位数;根据所述第一四分位数和所述第三四分位数,确定四分位距;及根据所述第一四分位数、所述第三四分位数和所述四分位距,确定所述预设阈值。为了实现上述目的,本专利技术实施例还提供一种API的敏感数据泄露检测系统,包括:获取模块,用于获取API基于查询请求返回的查询信息,所述查询信息包括多个目标字段;识别模块,用于识别出所述多个目标字段中的多个敏感字段;及判断模块,用于根据所述多个敏感字段的字段数量和预设阈值,确定所述查询信息是否存在敏感数据泄露。为了实现上述目的,本专利技术实施例还提供一种计算机设备,所述计算机设备包括存储器、处理器以及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述API的敏感数据泄露检测方法的步骤。为了实现上述目的,本专利技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如上所述的API的敏感数据泄露检测方法的步骤。本专利技术实施例提供的API的敏感数据泄露检测方法、系统、计算机设备及计算机可读存储介质,通过识别出API基于查询请求返回的查询信息中的多个目标字段中的多个敏感字段,再根据识别出的多个敏感字段的字段数量和预设阈值的比较,确定所述查询信息是否存在敏感数据泄露;本专利技术实施例能够及时有效判断API是否存在敏感数据泄露的问题,提高数据安全性。以下结合附图和具体实施例对本专利技术进行详细描述,但不作为对本专利技术的限定。本文档来自技高网...

【技术保护点】
1.一种API的敏感数据泄露检测方法,其特征在于,包括:/n获取API基于查询请求返回的查询信息,所述查询信息包括多个目标字段;/n识别出所述多个目标字段中的多个敏感字段;及/n根据所述多个敏感字段的字段数量和预设阈值,确定所述查询信息是否存在敏感数据泄露。/n

【技术特征摘要】
1.一种API的敏感数据泄露检测方法,其特征在于,包括:
获取API基于查询请求返回的查询信息,所述查询信息包括多个目标字段;
识别出所述多个目标字段中的多个敏感字段;及
根据所述多个敏感字段的字段数量和预设阈值,确定所述查询信息是否存在敏感数据泄露。


2.根据权利要求1所述的API的敏感数据泄露检测方法,其特征在于,所述识别出所述多个目标字段中的多个敏感字段的步骤,包括:
将各个目标字段输入到预先训练好的敏感字段识别模型组合中,并根据所述敏感字段识别模型组合输出所述各个目标字段的识别结果,所述识别结果用于指示相应目标字段是否为敏感字段;
根据所述各个目标字段的识别结果,获取第一敏感字段集,所述第一敏感字段集包括根据所述敏感字段识别模型组合识别出的若干个第一敏感字段;
根据预设的多个正则规则识别所述多个目标字段的多个字段内容,得到基于所述多个正则规则识别出的若干个敏感字段内容,并根据所述若干个敏感字段内容获取相应的若干个第二敏感字段,以根据所述若干个第二敏感字段构建第二敏感字段集;及
对所述第一敏感字段集和所述第二敏感字段集取并集,并根据所述并集确定所述字段数量。


3.根据权利要求2所述的API的敏感数据泄露检测方法,其特征在于,所述敏感字段识别模型组合包括M个敏感字段识别模型,M为大于1的奇数;所述将各个目标字段输入到预先训练好的敏感字段识别模型组合中,并根据所述敏感字段识别模型组合输出所述各个目标字段的识别结果的步骤,包括:
将第i个目标字段分别输入到每个敏感字段识别模型中,获取所述每个敏感字段识别模型的模型输出结果,所述每个敏感字段识别模型的模型输出结果为第一模型输出结果或第二模型输出结果,所述第一模型输出结果用于表征所述第i个目标字段为第一敏感字段,所述第二模型输出结果用于表征所述第i个目标字段为非敏感字段;所述第i个目标字段为所述多个目标字段中的其中一个目标字段,i为正整数;
比较所述第一模型输出结果的数量和所述第二模型输出结果的数量;
当所述第一模型输出结果的数量大于所述第二模型输出结果的数量,则确定所述识别结果为所述第i个目标字段为第一敏感字段;及
当所述第一模型输出结果的数量小于所述第二模型输出结果的数量,则确定所述识别结果为所述第i个目标字段为非敏感字段。


4.根据权利要求3所述的API的敏感数据泄露检测方法,其特征在于,所述M个敏感字段识别模型根据相应的M个待训练模型训练得到;所述方法还包括对所述M个待训练模型进行预先训练的步骤:
构造多个样本字段,每个样本字段携带对应的样本标记,所述样本标记用于表征相应的样本字段是否为敏感字段;
将所述多个样本字段转化为多个样本字段特征向量;<...

【专利技术属性】
技术研发人员:范石林田礼军
申请(专利权)人:奇安信科技集团股份有限公司网神信息技术北京股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1