一种通用场景的敏感密钥信息识别提取技术制造技术

技术编号：30371578 阅读：24 留言：0更新日期：2021-10-16 17:52

本发明专利技术公开了一种通用场景的敏感密钥信息识别提取技术，具体涉及敏感密钥识别领域，包括S1：对于任意给定文本，首先获取构成该文本的单词集；结合TD

全部详细技术资料下载

【技术实现步骤摘要】
一种通用场景的敏感密钥信息识别提取技术

[0001]本专利技术涉及敏感密钥识别
，更具体地说，本专利技术涉及一种通用场景的敏感密钥信息识别提取技术。

技术介绍

[0002]随着移动应用、小程序、云服务等新型开发技术的兴起和普及，基于API的业务架构越来越流行。由于API系统广泛采用基于敏感密钥的身份认证机制，因此敏感密钥泄漏风险影响越来越严重，能够自动识别各类场景下的敏感密钥泄漏问题，成为当前API安全的研究热点。
[0003]常见的敏感密钥泄漏位置包括但不限于日志文件、网站前端代码、移动应用安装包、小程序本地代码、动态网络流量、公共代码托管平台、项目文档等。
[0004]目前常见的敏感密钥提取基于规则。基于规则的识别及提取敏感密钥的方法主要存在两类缺陷：
[0005]1.对不同平台、类型的敏感密钥需要添加特定规则，人工运营压力日益增加。
[0006]2.检测规则只能覆盖已知场景密钥模式，无法覆盖未知场景密钥模式。
[0007]种种问题始得迫切需要开发一种通用化敏感密钥识别技术。

技术实现思路

[0008]为了克服现有技术的上述缺陷，本专利技术的实施例提供一种通用场景的敏感密钥信息识别提取技术，本专利技术所要解决的技术问题是：如何解决敏感密钥泄漏风险影响越来越严重的问题。
[0009]为实现上述目的，本专利技术提供如下技术方案：一种通用场景的敏感密钥信息识别提取技术，具体识别提取步骤如下：
[0010]S1：对于任意给定文本，首先获取构成该...

【技术保护点】

【技术特征摘要】
1.一种通用场景的敏感密钥信息识别提取技术，其特征在于：具体识别提取步骤如下：S1：对于任意给定文本，首先获取构成该文本的单词集；结合TD
‑
IDF分词和空格分词两种方式，获得比较准确的分词结果，即给定文本的单词集；S2：根据步骤S1中获取到的单词集，逐一分析该集合中的单词，根据单词的构成字符形态，将目标单词分类并形态解码操作，以获取目标单词的真实字符构成形式；S3：根据步骤S2中获取的目标单词的解码形态，分析其构成字节范围，将其分为两类单独计算信息熵值；S4：根据步骤S3中对目标单词的分类结果，基于其所属字符集按以下公式计算目标单词的信息熵，评估目标单词在其所属字符集中的混乱度：单词在其所属字符集中的混乱度：其中，输入参数X和S分别表示：X：目标单词；S：目标单词所属字符集；输出参数H(X)表示：H(X):目标单词信息熵；S5：根据步骤S4中对目标单词信息熵计算结果，评估其是否属于敏感密钥；为了提高评估准确性，对两类单词分别单独设定评判基线；S6：通过上述步骤S1
‑
S5的流程，对任意文本内容，其中存在的高熵字符串可被识别为敏感密钥，并且，在识别同时，完成敏感密钥原始形式及解码形式的提取。2.根据权利要求1所述的一种通用场景的敏感密钥信息识别提取技术，其特征在于：所述步骤...

【专利技术属性】
技术研发人员：栾尚聪，
申请(专利权)人：全知科技杭州有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人