一种通用场景的敏感密钥信息识别提取技术制造技术

技术编号:30371578 阅读:24 留言:0更新日期:2021-10-16 17:52
本发明专利技术公开了一种通用场景的敏感密钥信息识别提取技术,具体涉及敏感密钥识别领域,包括S1:对于任意给定文本,首先获取构成该文本的单词集;结合TD

【技术实现步骤摘要】
一种通用场景的敏感密钥信息识别提取技术


[0001]本专利技术涉及敏感密钥识别
,更具体地说,本专利技术涉及一种通用场景的敏感密钥信息识别提取技术。

技术介绍

[0002]随着移动应用、小程序、云服务等新型开发技术的兴起和普及,基于API的业务架构越来越流行。由于API系统广泛采用基于敏感密钥的身份认证机制,因此敏感密钥泄漏风险影响越来越严重,能够自动识别各类场景下的敏感密钥泄漏问题,成为当前API安全的研究热点。
[0003]常见的敏感密钥泄漏位置包括但不限于日志文件、网站前端代码、移动应用安装包、小程序本地代码、动态网络流量、公共代码托管平台、项目文档等。
[0004]目前常见的敏感密钥提取基于规则。基于规则的识别及提取敏感密钥的方法主要存在两类缺陷:
[0005]1.对不同平台、类型的敏感密钥需要添加特定规则,人工运营压力日益增加。
[0006]2.检测规则只能覆盖已知场景密钥模式,无法覆盖未知场景密钥模式。
[0007]种种问题始得迫切需要开发一种通用化敏感密钥识别技术。

技术实现思路

[0008]为了克服现有技术的上述缺陷,本专利技术的实施例提供一种通用场景的敏感密钥信息识别提取技术,本专利技术所要解决的技术问题是:如何解决敏感密钥泄漏风险影响越来越严重的问题。
[0009]为实现上述目的,本专利技术提供如下技术方案:一种通用场景的敏感密钥信息识别提取技术,具体识别提取步骤如下:
[0010]S1:对于任意给定文本,首先获取构成该文本的单词集;结合TD

IDF分词和空格分词两种方式,获得比较准确的分词结果,即给定文本的单词集;
[0011]S2:根据步骤S1中获取到的单词集,逐一分析该集合中的单词,根据单词的构成字符形态,将目标单词分类并形态解码操作,以获取目标单词的真实字符构成形式:
[0012][0013]S3:根据步骤S2中获取的目标单词的解码形态,分析其构成字节范围,将其分为两类单独计算信息熵值:
[0014][0015]S4:根据步骤S3中对目标单词的分类结果,基于其所属字符集按以下公式计算目标单词的信息熵,评估目标单词在其所属字符集中的混乱度:
[0016][0017][0018]其中,输入参数X和S分别表示:X:目标单词;S:目标单词所属字符集;
[0019]输出参数H(X)表示:H(X):目标单词信息熵;
[0020]S5:根据步骤S4中对目标单词信息熵计算结果,评估其是否属于敏感密钥;为了提高评估准确性,对两类单词分别单独设定评判基线;经过大量实验数据测试,基于信息熵的敏感密钥判定基线定义为:
[0021][0022]S6:通过上述步骤S1

S5的流程,对任意文本内容,其中存在的高熵字符串可被识别为敏感密钥,并且,在识别同时,完成敏感密钥原始形式及解码形式的提取。
[0023]在一个优选地实施方式中,所述步骤S1中,在大多数场景下,同一个敏感密钥字符串在同一份文本中出现的频次较低,因此,作为性能优化选项,可首先将出现频次较高的单词排除。
[0024]在一个优选地实施方式中,所述步骤S2中,更进一步,如果经过解码操作后的字符串形态依然处于编码形态,可继续执行解码操作,直至无法进一步解码为止。
[0025]在一个优选地实施方式中,所述步骤S2中目标单纯分类为可编码类和无编码类。
[0026]在一个优选地实施方式中,所述可编码类的类别包括URL编码类、BASE64编码类和HEX编码类。
[0027]在一个优选地实施方式中,所述步骤S3中目标单词的解码形态的类别标记分别设置为T1和T2,所述T1对应的字符集标记设置为S1,为完全可打印字符串;T2对应的字符集标记设置为S2,为不完全可打印字符串。
[0028]在一个优选地实施方式中,所述T1的基线值V设置为4.5,即T1类别单词满足H(X)>4.5即可判定为其属于敏感密钥;T2的基线值V设置为3.0,即T2类别单词满足H(X)>3.0即可判定为其属于敏感密钥。
[0029]本专利技术的技术效果和优点:
[0030]本专利技术通过将目标字符串通过其构成字符集分成两类,通过对应类型的信息熵描述目标字符串,并根据实验基线值评估字符串信息熵,判定目标字符串是否属于敏感密钥,在分析网络流量、项目代码、日志文件等数据时,自动化识别并提取其中的敏感密钥字符串信息;该技术可被应用于网络安全审计、数据泄漏审计等场景。
附图说明
[0031]图1为本专利技术的工艺流程图。
具体实施方式
[0032]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0033]本技术是要解决网络流量、项目代码、日志文件等数据中,各类敏感密钥自动识别提取问题;以往敏感密钥识别提取依赖特定场景下密钥规则分析及配置,无法适应通用化场景和未知密钥类型;本技术从敏感密钥自身组成特征与普通字符串的特征差异出发,基于敏感密钥字符串的信息熵相对普通字符串的信息熵偏高问题,提出一种通用场景下的敏感密钥识别提取方案。
[0034]本专利技术提供了一种通用场景的敏感密钥信息识别提取技术,流程分为以下几步骤:
[0035]S1:对于任意给定文本,首先获取构成该文本的单词集;结合TD

IDF分词和空格分词两种方式,获得比较准确的分词结果,即给定文本的单词集;一般而言,在大多数场景下,同一个敏感密钥字符串在同一份文本中出现的频次较低,因此,作为性能优化选项,可首先将出现频次较高的单词排除;
[0036]S2:根据步骤S1中获取到的单词集,逐一分析该集合中的单词,根据单词的构成字符形态,将目标单词进行如下分类并形态解码操作,以获取目标单词的真实字符构成形式:
[0037][0038]更进一步,如果经过解码操作后的字符串形态依然处于编码形态,可继续执行解码操作,直至无法进一步解码为止;
[0039]S3:根据步骤S2中获取的目标单词的解码形态,分析其构成字节范围,将其分为两类单独计算信息熵值:
[0040][0041]S4:根据步骤S3中对目标单词的分类结果,基于其所属字符集按以下公式计算目标单词的信息熵,评估目标单词在其所属字符集中的混乱度:
[0042][0043][0044]其中,输入参数X和S分别表示:X:目标单词;S:目标单词所属字符集;
[0045]输出参数H(X)表示:H(X):目标单词信息熵;
[0046]S5:根据步骤S4中对目标单词信息熵计算结果,评估其是否属于敏感密钥;为了提高评估准确性,对两类单词分别单独设定评判基线;经过大量实验数据测试,基于信息熵的敏感密钥判本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种通用场景的敏感密钥信息识别提取技术,其特征在于:具体识别提取步骤如下:S1:对于任意给定文本,首先获取构成该文本的单词集;结合TD

IDF分词和空格分词两种方式,获得比较准确的分词结果,即给定文本的单词集;S2:根据步骤S1中获取到的单词集,逐一分析该集合中的单词,根据单词的构成字符形态,将目标单词分类并形态解码操作,以获取目标单词的真实字符构成形式;S3:根据步骤S2中获取的目标单词的解码形态,分析其构成字节范围,将其分为两类单独计算信息熵值;S4:根据步骤S3中对目标单词的分类结果,基于其所属字符集按以下公式计算目标单词的信息熵,评估目标单词在其所属字符集中的混乱度:单词在其所属字符集中的混乱度:其中,输入参数X和S分别表示:X:目标单词;S:目标单词所属字符集;输出参数H(X)表示:H(X):目标单词信息熵;S5:根据步骤S4中对目标单词信息熵计算结果,评估其是否属于敏感密钥;为了提高评估准确性,对两类单词分别单独设定评判基线;S6:通过上述步骤S1

S5的流程,对任意文本内容,其中存在的高熵字符串可被识别为敏感密钥,并且,在识别同时,完成敏感密钥原始形式及解码形式的提取。2.根据权利要求1所述的一种通用场景的敏感密钥信息识别提取技术,其特征在于:所述步骤...

【专利技术属性】
技术研发人员:栾尚聪
申请(专利权)人:全知科技杭州有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1