一种基于动态标签的接口数据暴露探测方法技术

技术编号:36392115 阅读:69 留言:0更新日期:2023-01-18 09:56
本发明专利技术公开了一种基于动态标签的接口数据暴露探测方法,包括以下步骤:从外部语料中提取数据安全相关的关键字作为标签写入标签库;标签库为敏感标签匹配模块提供匹配模式;敏感标签匹配模块进行风险接口识别;标签库评估标签风险系数;依据各标签的风险系数评估接口的数据安全暴露风险系数。上述技术方案针对App、小程序及网站的数据对外输出的API接口数据的安全探测,基于核心语料库,定义标签库中不同类型的标签后将给出从语料中挖掘并构建标签库,实现更为准确的接口数据安全监测,并可作为App运营者或电信监管部门接口数据安全方面支撑。方面支撑。方面支撑。

【技术实现步骤摘要】
一种基于动态标签的接口数据暴露探测方法


[0001]本专利技术涉及数据安全
,尤其涉及一种基于动态标签的接口数据暴露探测方法。

技术介绍

[0002]有资料显示,绝大多数App、小程序及网站的数据对外输出形式为基于Http的API接口,接口传输的数据包含用户ID、性别、地理位置、账号、昵称、账号与手机信息的绑定关系等个人敏感数据。如果接口数据未脱敏直接暴露在公网,则存在巨大的数据安全隐患,如被灰黑产利用则可能导致百万、千万、甚至亿级个人信息泄漏。而实际情况是,承载数据交互的API接口往往由于其“不可见”的特点,其安全问题易被忽略。App运营者及监管部门普遍关注数据库数据安全,从数据库权限控制和数据审计角度避免数据暴露,鲜有基于API接口数据安全管控、评估的方案及系统。
[0003]中国专利文献CN113986222A公开了一种“云计算的API接口翻译系统”。采用了主要针对开发方向,将接口编排系统用于在应用开发的需求下对接口进行自动编排或者手动编排,在自动或手动选择所需接口之后生成接口访问的路由,并将所有选择的接口按照应用所需的传输协议统一形成一个对外暴露的接口交由接口访问管理系统进行管理;接口访问管理系统用于对编排完成的接口进行集中化管理、监控以及访问优化,可针对不同平台实现的功能的不同,对接口进行编排,按需暴露接口,转换接口数据协议,统一数据协议,减少应用开发难度。上述技术方案采用统一格式管理,缺少针对性,对于结果难以实现高效查找和应用。

技术实现思路

[0004]本专利技术主要解决原有的技术方案采用统一格式管理,缺少针对性,对于结果难以实现高效查找和应用的技术问题,提供一种基于动态标签的接口数据暴露探测方法,针对App、小程序及网站的数据对外输出的API接口数据的安全探测,基于核心语料库,定义标签库中不同类型的标签后将给出从语料中挖掘并构建标签库,实现更为准确的接口数据安全监测,并可作为App运营者或电信监管部门接口数据安全方面支撑。
[0005]本专利技术的上述技术问题主要是通过下述技术方案得以解决的:本专利技术包括以下步骤:
[0006]S1从外部语料中提取数据安全相关的关键字作为标签写入标签库;
[0007]S2标签库为敏感标签匹配模块提供匹配模式;
[0008]S3敏感标签匹配模块进行风险接口识别;
[0009]S4标签库评估标签风险系数;
[0010]S5依据各标签的风险系数评估接口的数据安全暴露风险系数。
[0011]风险接口并不意味着存在敏感数据暴露行为,取决于接口数据是否脱敏,而数据脱敏判定不在本专利考虑范围内。
[0012]作为优选,所述的步骤S1中标签具备数据安全隐患相关特征,通过数据挖掘的手段不断从增量语料中提炼标签并不断更新标签库。数据库来源包括维基百科和数据安全领域文件,数据安全领域文件包含由国家工信部、网信办、司法部门、行业领头企业发布的数据安全白皮书、法律法规、政策、技术标准、指导、倡导性文件等。
[0013]作为优选,所述的步骤S3具体包括,数据请求方通过App运营的企业、组织提供的数据查询接口获取流量,系统接入网络流量后,首先需要对网络流量进行还原、解析形成接口数据,接口数据是标签匹配的对象,如果接口数据与标签匹配,则接口被判定为数据暴露风险接口。
[0014]作为优选,所述的对网络流量进行还原、解析形成接口数据具体包括,流量解析模块将不可读的二进制流还原为可读的字符串或文本,将Api接口数据还原为请求和响应数据,被还原数据均为受检对象。针对不同的场景本系统提供两种接入方案:镜像App运营方的出口网络流量;镜像监管部门的入口网络流量。
[0015]绝对大多数数据接口采用http协议传输数据,网络流量即特指符合http传输协议标准的二进制数据流。请求数据还原为“请求行-通用信息头-请求头-实体头-报文主体“的形式,响应数据被还原为“状态行-通用信息头-响应头-实体头-报文主体”的形式。其中,“请求行”与“报文主体”是标签匹配的对象。
[0016]作为优选,所述的标签包括:
[0017]元标签:从包括法律法规的重要文件中挖掘出的关键字,元标签不与接口数据匹配;
[0018]强标签:从非法律法规类的语料中挖掘出的与元标签关联性强的关键字;如果接口数据与强标签匹配,则意味着接口具有较高数据暴露风险。
[0019]弱标签:从语料中挖掘出的与强标签关联性不强的关键字,即强标签的衍生标签。如果接口内容与弱标签匹配,则意味着接口存在较低数据暴露风险。
[0020]作为优选,所述的关键字提取方法采用无监督的方法,不需要人工标注的语料,直接利用算法发现文本中重要的词作为标签关键字提取方法。
[0021]还包括有监督和半监督:
[0022]有监督的关键词抽取算法是将关键词抽取算法看作是二分类问题,判断文档中的词或者短语是或者不是关键词;既然是分类问题,就需要提供已经标注好的训练语料,利用训练语料训练关键词提取模型,根据模型对需要抽取关键词的文档进行关键词抽取。
[0023]半监督的关键词提取算法只需要少量的训练数据,利用这些训练数据构建关键词抽取模型,然后使用模型对新的文本进行关键词提取,对于这些关键词进行人工过滤,将过滤得到的关键词加入训练集,重新训练模型。
[0024]无监督意味着系统不需要专家意见或领域经验,只需要相关语料就能够提取出标签。而监督或半监督的方式都需要一定的领域知识支撑标签提取。避免了数据暴露风险判定需要数据安全领域专家高度干预的问题,并且能够克服领域专家干预模式(由领域专家给定数据标签、特征或指纹)下判定特征不完备、特征动态维护难度大、代价昂贵的问题。
[0025]本专利的核心是利用无监督数据挖掘算法抽取语料中的关键字构建标签库,避免了数据暴露风险判定需要数据安全领域专家高度干预的问题,并且能够克服领域专家干预模式(由领域专家给定数据标签、特征或指纹)下判定特征不完备、特征动态维护难度大、代
价昂贵的问题。标签挖掘即提取数据安全领域相关的特征关键字,依赖自然语言处理中数据挖掘算法。在自然语言处理领域,无论是对于长文本还是短文本语料,往往可以通过几个关键词窥探整个文本的主题或特征。不管是基于文本的推荐还是基于文本的分类,对于文本关键词的依赖都很大,关键词提取的准确程度直接关系到文本分类的最终效果。
[0026]作为优选,采用word2vec算法进行文本关键字提取的目标计算:
[0027]p(s|w
i
)
[0028]其中s是文本,w
i
是文本中的词,如果w
i
是文本的关键词,那么应该使得上式概率最大,因此只需对文本中所有的词计算上述概率,然后降序排列,即可提取关键词,使用朴素贝叶斯假设,如果s由n个词w1,w2,

,w
n
组成,那么
[0029][0030]这样,只需要估算词与词之间的转移概率p(w...

【技术保护点】

【技术特征摘要】
1.一种基于动态标签的接口数据暴露探测方法,其特征在于,包括以下步骤:S1从外部语料中提取数据安全相关的关键字作为标签写入标签库;S2标签库为敏感标签匹配模块提供匹配模式;S3敏感标签匹配模块进行风险接口识别;S4标签库评估标签风险系数;S5依据各标签的风险系数评估接口的数据安全暴露风险系数。2.根据权利要求1所述的一种基于动态标签的接口数据暴露探测方法,其特征在于,所述步骤S1中标签具备数据安全隐患相关特征,通过数据挖掘的手段不断从增量语料中提炼标签并不断更新标签库。3.根据权利要求1所述的一种基于动态标签的接口数据暴露探测方法,其特征在于,所述步骤S3具体包括,数据请求方通过App运营的企业、组织提供的数据查询接口获取流量,系统接入网络流量后,首先需要对网络流量进行还原、解析形成接口数据,接口数据是标签匹配的对象,如果接口数据与标签匹配,则接口被判定为数据暴露风险接口。4.根据权利要求3所述的一种基于动态标签的接口数据暴露探测方法,其特征在于,所述对网络流量进行还原、解析形成接口数据具体包括,流量解析模块将不可读的二进制流还原为可读的字符串或文本,将Api接口数据还原为请求和响应数据,被还原数据均为受检对象。5.根据权利要求1所述的一种基于动态标签的接口数据暴露探测方法,其特征在于,所述标签包括:元标签:从包括法律法规的数据安全领域重要文件中挖掘出的关键字,元标签不与接口数据匹配;强标签:从非法律法规类的语料中挖掘出的与元标签关联性强的关键字;弱标签:从语料中挖掘出的与强标签关联性不强的关键字,即强标签的衍生标签。6.根据权利要求1或5所述的一种基于动态标签的接口数据暴露探测方法,其特征在于,所述关键字提取方法采用无监督的方法,不需要人工标注的语料,直接利用算法发现文本中重要的词作为标签。7.根据权利要求1所述的一种基于动态标签的接口数据暴露探测方法,其特征在于,采用word2vec算法进行文本关键字提取的目标计算:p(s|w
i
)其中s是文本,w
i
是文本中的词,如果w
i
是文本的关键词,那么应该使得上式概率最大,因此只需对文本中所有的词计算上述概率,然后降序排列,即可提取关键词,使用朴素贝叶斯假设,如果s由n个词w1,w2,
...

【专利技术属性】
技术研发人员:董平郭竞巩勋黎彬刘晓波汤雨婷
申请(专利权)人:华信咨询设计研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1