一种基于集成学习的代码片段敏感信息检测方法技术

技术编号：40151010 阅读：28 留言：0更新日期：2024-01-26 23:01

本发明专利技术公开了一种基于集成学习的代码片段敏感信息检测方法，包括S1、对训练样本进行预处理，初始化配置文件；S2、从训练样本中提取特征，建立特征矩阵；S3、建立SVM‑AdaBoost模型并对该模型进行训练；S4、用训练好的SVM‑AdaBoost模型检测待测代码片段，初步判断代码片段是否存在敏感信息，并对存在敏感信息对样本进行自动标记。本发明专利技术加强了代码片段中敏感信息的检测能力，减少了人工检测的成本，同时基于集成学习结合多个基学习器可以获得比任意单个基学习器都要好的检测效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及网络空间安全领域，具体涉及一种基于集成学习的代码片段敏感信息检测方法。

技术介绍

1、随着互联网的发展，资源共建、共享成为一种主流，互联网在为大众提供方便的同时也存在着越来越多的风险。其中较为突出的则是敏感信息泄露。大部分的web漏洞在漏洞扫描工具检测、web应用防火墙等的帮助下可以进行自动化检测和防御，但是敏感信息泄露属于人为的逻辑漏洞，通常难以避免和被自动化检测到。

2、无论是在企业生产还是个人学习中，代码共享都是一种常见的行为，通过代码共享，开发者可以提高开发效率，促进协同与合作，增加代码的可用性，提高代码质量，促进技术进步。常见的代码共享平台包括：github，gitlab，bitbucket，sourceforge等。虽然代码共享平台为开发者带来了极大的便利，但共享的代码片段中可能包含私钥、密码、api令牌等敏感信息，这是一个极具危害的网络安全问题。2017年，北卡罗来纳州立大学(ncsu)网络安全团队开展了一项关于敏感信息泄漏的研究课题，六个月期间扫描github公共代码库数十亿个(约占文件总数13...

【技术保护点】

1.一种基于集成学习的代码片段敏感信息检测方法，其特征在于，包括如下步骤:

2.根据权利要求1所述的代码片段敏感信息检测方法，其特征在于，步骤S1包括如下步骤：将训练样本分为敏感信息样本和一般信息样本，遍历所有训练样本，提取出文件后缀名、关键字黑名单、关键字白名单，再手动添加目标域名，以数据字典形式写入配置文件。

3.根据权利要求2所述的代码片段敏感信息检测方法，其特征在于，提取关键字黑名单、关键字白名单的步骤包括：

4.根据权利要求1所述的代码片段敏感信息检测方法，其特征在于，步骤S2提取的特征包括：

5.根据权利要求1所述的代码片段敏感...

【技术特征摘要】

1.一种基于集成学习的代码片段敏感信息检测方法，其特征在于，包括如下步骤:

2.根据权利要求1所述的代码片段敏感信息检测方法，其特征在于，步骤s1包括如下步骤：将训练样本分为敏感信息样本和一般信息样本，遍历所有训练样本，提取出文件后缀名、关键字黑名单、关键字白名单，再手动添加目标域名，以数据字典形式写入配置文件。

3.根据权利要求2所述的代码片段敏感信息检测方法，其特征在于，提取关键字黑名单、关键字白名单的步骤包括：

4.根据权利要求1所述的代码片段敏感信息检测方法，其特征在于，步骤s2提取的特征包括：

5.根据权利要求1所述的代码片段敏感信息检测方法，其特征在于，步骤s3中对典型的增强学习迭代算法—adaboost算法加以改进，使用典型的机器学习算法—支持向量机svm作为adaboost的弱分类器，建立svm-adaboost模型并对模型进行训练；将训练好的svm-adaboost模型保存为svm-adaboost.pkl文件。

6.根据权利要...

【专利技术属性】
技术研发人员：魏林锋，何卓丰，丁振杨，李学明，黄宇勤，李开源，欧阳航，
申请(专利权)人：暨南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人