一种基于机器学习的GitHub敏感信息泄露监控方法技术

技术编号:35902244 阅读:24 留言:0更新日期:2022-12-10 10:38
本申请公开了一种基于机器学习的GitHub敏感信息泄露监控方法,所述基于机器学习的GitHub敏感信息泄露监控方法包括如下步骤:样本信息处理,将输入的样本信息与数据库内部的信息进行比对,通过比对结果对输入的样本信息进行进行降噪、分词处理,同时将敏感关键词、敏感端口号等敏感信息通过计算的逆词频率提取出来;文本算法分类;HMM概率预测;模型预测判定。HMM隐马尔科夫模型的随机生成观测序列的过程,进而生成模型,降低了无关信息的干扰,提高了泄露代码数据的检测的准确率;通过提取泄露代码数据的相关特征信息来分析是否为敏感信息,可以规避不符合相关特征的数据;可以通过SVM和HMM两种模型综合判断是否为敏感信息泄露,大大增加检测准确率。大大增加检测准确率。大大增加检测准确率。

【技术实现步骤摘要】
一种基于机器学习的GitHub敏感信息泄露监控方法


[0001]本申请涉及信息泄露监控领域,尤其是一种基于机器学习的GitHub敏感信息泄露监控方法。

技术介绍

[0002]随着互联网的发展,开放源代码成为了一种主流,给大家带来了很多可以学习的机会,但是风险也伴随着而来,开放的源代码中有的就会包含公司内部敏感信息,如:核心技术代码、服务器的相关信息、数据库的账号和密码、接口的私钥相关信息等等,这些敏感信息泄露可能会给公司带来很大的危害。
[0003]现有的代码敏感信息扫描工具,使用模糊搜索,存在较多的误报,扫描出来的敏感信息需要人为再去鉴定一遍,这样就会存在消耗大量的人力,人力成本较高,同时长时间的验证会让人脑疲劳,就有可能会漏掉真正的敏感内容,造成漏报。最为关键的一点是人工审核较慢,如果攻击者在人为审核之前就发现了此敏感信息,可能会给公司带来损失,造成一些核心数据资产的流失。因此,针对上述问题提出一种基于机器学习的GitHub敏感信息泄露监控方法。

技术实现思路

[0004]在本实施例中提供了一种基于机器学习的GitHub敏感信息泄露监控方法用于解决现有技术中数据采集处理工作量大、精度较差,计算线损时,准确程度不高,未采用分级监测,影响线损数据处理的精准程度的问题。
[0005]根据本申请的一个方面,提供了一种基于机器学习的GitHub敏感信息泄露监控方法,所述基于机器学习的GitHub敏感信息泄露监控方法包括如下步骤:
[0006](1)样本信息处理,将输入的样本信息与数据库内部的信息进行比对,通过比对结果对输入的样本信息进行进行降噪、分词处理,同时将敏感关键词、敏感端口号等敏感信息通过计算的逆词频率提取出来;
[0007](2)文本算法分类,利用SVM文本分类算法分类,主要是利用SVM支持向量机对敏感信息的数据集进行分类,同时对输入的样本数据进行分类;
[0008](3)HMM概率预测,利用HMM隐马尔可夫模型对敏感信息数据库内部的不同敏感样本的的数据集信息进行处理,实现敏感样本的概率预测;
[0009](4)模型预测判定,将SVM文本分类模型分类结果和HMM概率预测模型结果进行融合判定,并输出最终的预测结果。
[0010]进一步地,所述步骤(1)中在样本信息处理前,要获取原始的泄露数据,将数据作为输入样本进行处理。
[0011]进一步地,所述步骤(2)中在进行SVM线性分类时,设置最大进化代数,初始化粒子群,设定初始化速度和位置。编码计算,基于混沌理论算法生成种群,根据当前的初始种群利用SVM模型队训练集进行训练。模型训练结果作为下一步的参考值,根据结果计算适应度
函数值,更新当前个体最优解和全局最优解,更新粒子速度和位置,此步骤粒子的速度和位置的结果作为下一步的终止条件。
[0012]进一步地,所述步骤(2)中根据步骤上述的结果决定判断是否满足终止条件,若是满足,则停止循环,继续往下走,若是不满足,则回到第一步继续循环计算。根据上述步骤得到最优的算法结果调试参数,作为下一步的输入结果,将参数输入SVM模型进行最后的模型训练,使用测试集对SVM模型进行测试训练,同时查看对应的测试结果。
[0013]进一步地,所述步骤(3)中将样本信息进行分类,分为N种样本信息,分别对应HMM算法模型的λi~λn,根据判断条件判断是否已经所有的分配信息读取完成,如果没有读取完就继续读取,读取完成就继续进入训练样本,采集第i种样本信息的特征,提取相关的特征信息,用户HMM算法模型的训练。
[0014]进一步地,所述步骤(3)中初始化HMM算法模型,设置对应的初始的参数,采集的第i种样本信息,进行参数学习,根据分类的N种样本信息训练处的N种模型,输出最优的HMM算法模型参数,进行样本训练。
[0015]进一步地,所述步骤(3)中根据训练的样本结果,输出训练样本的概率集合,找出概率最大值和最小值。
[0016]进一步地,所述步骤(4)中将抓取到的泄露的代码数据,输入系统,将上述输入的数据进行相关特征的提取,对上述的特征提取结果,使用HMM预测算法模型进行概率预测,若在概率范围内就进入下一步骤,若未在概率范围内就直接结束。
[0017]进一步地,所述步骤(4)中对上述的数据特征提取结果,使用HMM预测算法模型进行概率预测,若在概率范围内就进入下一步骤,若未在概率范围内就直接结束。
[0018]进一步地,所述步骤(4)中将数据的特征提取结果,使用SVM文本分类算法模型再次进行文本分类,若满足目标文本的特征信息,进入下一步骤,若不满足就直接结束,输出结果。
[0019]通过本申请上述实施例,HMM隐马尔科夫模型的随机生成观测序列的过程,进而生成模型,降低了无关信息的干扰,提高了泄露代码数据的检测的准确率;通过提取泄露代码数据的相关特征信息来分析是否为敏感信息,由此可以规避不符合相关特征的数据带来的影响;可以通过SVM和HMM两种模型综合判断是否为敏感信息泄露,大大增加检测准确率。
附图说明
[0020]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
[0021]图1为本申请整体流程图;
[0022]图2为本申请SVM文本分类算法分类流程图;
[0023]图3为本申请HMM文本预测算法流程图;
[0024]图4为本申请多模型预测信息判定流程图。
具体实施方式
[0025]为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
[0026]需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0027]在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习的GitHub敏感信息泄露监控方法,其特征在于:所述基于机器学习的GitHub敏感信息泄露监控方法包括如下步骤:(1)样本信息处理,将输入的样本信息与数据库内部的信息进行比对,通过比对结果对输入的样本信息进行进行降噪、分词处理,同时将敏感关键词、敏感端口号等敏感信息通过计算的逆词频率提取出来;(2)文本算法分类,利用SVM文本分类算法分类,主要是利用SVM支持向量机对敏感信息的数据集进行分类,同时对输入的样本数据进行分类;(3)HMM概率预测,利用HMM隐马尔可夫模型对敏感信息数据库内部的不同敏感样本的的数据集信息进行处理,实现敏感样本的概率预测;(4)模型预测判定,将SVM文本分类模型分类结果和HMM概率预测模型结果进行融合判定,并输出最终的预测结果。2.根据权利要求1所述的一种基于机器学习的GitHub敏感信息泄露监控方法,其特征在于:所述步骤(1)中在样本信息处理前,要获取原始的泄露数据,将数据作为输入样本进行处理。3.根据权利要求1所述的一种基于机器学习的GitHub敏感信息泄露监控方法,其特征在于:所述步骤(2)中在进行SVM线性分类时,设置最大进化代数,初始化粒子群,设定初始化速度和位置。编码计算,基于混沌理论算法生成种群,根据当前的初始种群利用SVM模型队训练集进行训练。模型训练结果作为下一步的参考值,根据结果计算适应度函数值,更新当前个体最优解和全局最优解,更新粒子速度和位置,此步骤粒子的速度和位置的结果作为下一步的终止条件。4.根据权利要求1所述的一种基于机器学习的GitHub敏感信息泄露监控方法,其特征在于:所述步骤(2)中根据步骤上述的结果决定判断是否满足终止条件,若是满足,则停止循环,继续往下走,若是不满足,则回到第一步继续循环计算。根据上述步骤得到最优的算法结果调试参数,作为下一步的输入结果...

【专利技术属性】
技术研发人员:王庆阳尹正航李玲张源
申请(专利权)人:北京比特易湃信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1