一种基于机器学习的GitHub敏感信息泄露监控方法技术

技术编号：35902244 阅读：24 留言：0更新日期：2022-12-10 10:38

本申请公开了一种基于机器学习的GitHub敏感信息泄露监控方法，所述基于机器学习的GitHub敏感信息泄露监控方法包括如下步骤：样本信息处理，将输入的样本信息与数据库内部的信息进行比对，通过比对结果对输入的样本信息进行进行降噪、分词处理，同时将敏感关键词、敏感端口号等敏感信息通过计算的逆词频率提取出来；文本算法分类；HMM概率预测；模型预测判定。HMM隐马尔科夫模型的随机生成观测序列的过程，进而生成模型，降低了无关信息的干扰，提高了泄露代码数据的检测的准确率；通过提取泄露代码数据的相关特征信息来分析是否为敏感信息，可以规避不符合相关特征的数据；可以通过SVM和HMM两种模型综合判断是否为敏感信息泄露，大大增加检测准确率。大大增加检测准确率。大大增加检测准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于机器学习的GitHub敏感信息泄露监控方法

[0001]本申请涉及信息泄露监控领域，尤其是一种基于机器学习的GitHub敏感信息泄露监控方法。

技术介绍

[0002]随着互联网的发展，开放源代码成为了一种主流，给大家带来了很多可以学习的机会，但是风险也伴随着而来，开放的源代码中有的就会包含公司内部敏感信息，如：核心技术代码、服务器的相关信息、数据库的账号和密码、接口的私钥相关信息等等，这些敏感信息泄露可能会给公司带来很大的危害。
[0003]现有的代码敏感信息扫描工具，使用模糊搜索，存在较多的误报，扫描出来的敏感信息需要人为再去鉴定一遍，这样就会存在消耗大量的人力，人力成本较高，同时长时间的验证会让人脑疲劳，就有可能会漏掉真正的敏感内容，造成漏报。最为关键的一点是人工审核较慢，如果攻击者在人为审核之前就发现了此敏感信息，可能会给公司带来损失，造成一些核心数据资产的流失。因此，针对上述问题提出一种基于机器学习的GitHub敏感信息泄露监控方法。

技术实现思路

[0004]在本实施例中提供了一种基于机器学习的GitHub敏感信息泄露监控方法用于解决现有技术中数据采集处理工作量大、精度较差，计算线损时，准确程度不高，未采用分级监测，影响线损数据处理的精准程度的问题。
[0005]根据本申请的一个方面，提供了一种基于机器学习的GitHub敏感信息泄露监控方法，所述基于机器学习的GitHub敏感信息泄露监控方法包括如下步骤：
[0006](1)样本信息处理，将输入的样本信息与数据...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习的GitHub敏感信息泄露监控方法，其特征在于：所述基于机器学习的GitHub敏感信息泄露监控方法包括如下步骤：(1)样本信息处理，将输入的样本信息与数据库内部的信息进行比对，通过比对结果对输入的样本信息进行进行降噪、分词处理，同时将敏感关键词、敏感端口号等敏感信息通过计算的逆词频率提取出来；(2)文本算法分类，利用SVM文本分类算法分类，主要是利用SVM支持向量机对敏感信息的数据集进行分类，同时对输入的样本数据进行分类；(3)HMM概率预测，利用HMM隐马尔可夫模型对敏感信息数据库内部的不同敏感样本的的数据集信息进行处理，实现敏感样本的概率预测；(4)模型预测判定，将SVM文本分类模型分类结果和HMM概率预测模型结果进行融合判定，并输出最终的预测结果。2.根据权利要求1所述的一种基于机器学习的GitHub敏感信息泄露监控方法，其特征在于：所述步骤(1)中在样本信息处理前，要获取原始的泄露数据，将数据作为输入样本进行处理。3.根据权利要求1所述的一种基于机器学习的GitHub敏感信息泄露监控方法，其特征在于：所述步骤(2)中在进行SVM线性分类时，设置最大进化代数，初始化粒子群，设定初始化速度和位置。编码计算，基于混沌理论算法生成种群，根据当前的初始种群利用SVM模型队训练集进行训练。模型训练结果作为下一步的参考值，根据结果计算适应度函数值，更新当前个体最优解和全局最优解，更新粒子速度和位置，此步骤粒子的速度和位置的结果作为下一步的终止条件。4.根据权利要求1所述的一种基于机器学习的GitHub敏感信息泄露监控方法，其特征在于：所述步骤(2)中根据步骤上述的结果决定判断是否满足终止条件，若是满足，则停止循环，继续往下走，若是不满足，则回到第一步继续循环计算。根据上述步骤得到最优的算法结果调试参数，作为下一步的输入结果...

【专利技术属性】
技术研发人员：王庆阳，尹正航，李玲，张源，
申请(专利权)人：北京比特易湃信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人