【技术实现步骤摘要】
本专利技术涉及网络空间安全领域,具体涉及一种基于集成学习的代码片段敏感信息检测方法。
技术介绍
1、随着互联网的发展,资源共建、共享成为一种主流,互联网在为大众提供方便的同时也存在着越来越多的风险。其中较为突出的则是敏感信息泄露。大部分的web漏洞在漏洞扫描工具检测、web应用防火墙等的帮助下可以进行自动化检测和防御,但是敏感信息泄露属于人为的逻辑漏洞,通常难以避免和被自动化检测到。
2、无论是在企业生产还是个人学习中,代码共享都是一种常见的行为,通过代码共享,开发者可以提高开发效率,促进协同与合作,增加代码的可用性,提高代码质量,促进技术进步。常见的代码共享平台包括:github,gitlab,bitbucket,sourceforge等。虽然代码共享平台为开发者带来了极大的便利,但共享的代码片段中可能包含私钥、密码、api令牌等敏感信息,这是一个极具危害的网络安全问题。2017年,北卡罗来纳州立大学(ncsu)网络安全团队开展了一项关于敏感信息泄漏的研究课题,六个月期间扫描github公共代码库数十亿个(约占文件总数13
...【技术保护点】
1.一种基于集成学习的代码片段敏感信息检测方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的代码片段敏感信息检测方法,其特征在于,步骤S1包括如下步骤:将训练样本分为敏感信息样本和一般信息样本,遍历所有训练样本,提取出文件后缀名、关键字黑名单、关键字白名单,再手动添加目标域名,以数据字典形式写入配置文件。
3.根据权利要求2所述的代码片段敏感信息检测方法,其特征在于,提取关键字黑名单、关键字白名单的步骤包括:
4.根据权利要求1所述的代码片段敏感信息检测方法,其特征在于,步骤S2提取的特征包括:
5.根据权利要求
...【技术特征摘要】
1.一种基于集成学习的代码片段敏感信息检测方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的代码片段敏感信息检测方法,其特征在于,步骤s1包括如下步骤:将训练样本分为敏感信息样本和一般信息样本,遍历所有训练样本,提取出文件后缀名、关键字黑名单、关键字白名单,再手动添加目标域名,以数据字典形式写入配置文件。
3.根据权利要求2所述的代码片段敏感信息检测方法,其特征在于,提取关键字黑名单、关键字白名单的步骤包括:
4.根据权利要求1所述的代码片段敏感信息检测方法,其特征在于,步骤s2提取的特征包括:
5.根据权利要求1所述的代码片段敏感信息检测方法,其特征在于,步骤s3中对典型的增强学习迭代算法—adaboost算法加以改进,使用典型的机器学习算法—支持向量机svm作为adaboost的弱分类器,建立svm-adaboost模型并对模型进行训练;将训练好的svm-adaboost模型保存为svm-adaboost.pkl文件。
6.根据权利要...
【专利技术属性】
技术研发人员:魏林锋,何卓丰,丁振杨,李学明,黄宇勤,李开源,欧阳航,
申请(专利权)人:暨南大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。