【技术实现步骤摘要】
文件安全风险检测方法、模型的训练方法、装置和设备
[0001]本申请涉及网络安全
,特别是涉及一种文件安全风险检测方法、用于文件安全风险检测的模型的训练方法、装置、设备和计算机可读存储介质。
技术介绍
[0002]源代码也称源程序,是指一系列人类可读的计算机语言指令。源代码最为常用的格式是文本文件,一般以源码文件的形式呈现。源码文件的安全可靠,是计算机设备正常运行的重要因素。当源码文件存在漏洞时会影响到计算机设备的正常运行,甚至对计算机设备造成安全威胁。
[0003]目前对于源码文件的文件安全风险的检测主要依赖于特征词库匹配的方式,将出现过安全漏洞的历史源码文件进行收集,通过信息合并、特征提取等手段构建特征词库。当需要对当前的源码文件进行文件安全风险的检测时,将源码文件与特征词库进行匹配,若源码文件中存在与特征词库匹配的数据,则说明源码文件可能存在安全漏洞,此时可以将该源码文件交由管理人员进一步审核。
[0004]由于特征词库包含的特征信息形式较为固定且数量有限,因此基于特征词库检测源码文件漏洞的准确性 ...
【技术保护点】
【技术特征摘要】
1.一种文件安全风险检测方法,其特征在于,包括:将获取的源码文件按照设定的格式要求进行处理,以得到源码特征向量;利用训练好的层级网络模型对所述源码特征向量进行层级划分,以得到代码段和各代码段包含的代码句;并对各所述代码段和各所述代码句进行语义分析,以确定出所述源码文件存在安全漏洞的风险。2.根据权利要求1所述的文件安全风险检测方法,其特征在于,所述对各所述代码段和各所述代码句进行语义分析,以确定出所述源码文件存在安全漏洞的风险包括:依据所述层级网络模型中各层级注意力向量,对所述源码特征向量中包含的代码段和代码句进行量化;根据量化后的代码段和量化后的代码句,确定出所述源码文件存在安全漏洞的风险。3.根据权利要求2所述的文件安全风险检测方法,其特征在于,所述依据所述层级网络模型中各层级注意力向量,对所述源码特征向量中包含的代码段和代码句进行量化包括:基于初级注意力向量和各代码句包含的源码特征向量,确定出各所述代码句对应的权重值;其中,所述初级注意力向量为基于安全漏洞语料库对所述层级网络模型进行训练得到词向量;基于次级注意力向量和各代码段中包含的代码句,确定出各所述代码段对应的权重值;其中,所述次级注意力向量为基于安全漏洞语料库对所述层级网络模型进行训练得到句向量;基于所述代码句对应的权重值和所述代码段对应的权重值,确定出所述源码文件存在安全漏洞的风险。4.根据权利要求3所述的文件安全风险检测方法,其特征在于,所述基于所述代码句对应的权重值和所述代码段对应的权重值,确定出所述源码文件存在安全漏洞的风险包括:依据各所述代码段对应的权重值,选取出权重值最高的目标代码段;将所述目标代码段中权重值最高的代码句作为具有安全漏洞风险的语句。5.根据权利要求3所述的文件安全风险检测方法,其特征在于,还包括:记录所述源码文件中各代码段对应的权重值以及各代码句对应的权重值。6.根据权利要求3所述的文件安全风险检测方法,其特征在于,还包括:判断各代码句对应的权重值是否大于预设阈值;在存在权重值大于预设阈值的代码句的情况下,将所述权重值大于预设阈值的代码句作为风险语句。7.根据权利要求1至6任意一项所述的文件安全风险检测方法,其特征在于,所述将获取的源码文件按照设定的格式要求进行处理,以得到源码特征向量包括:对所述源码文件进行标准化处理;利用训练好的词向量模型将标准化的源码文件转化为源码特征向量。8.根据权利要求7所述的文件安全风险检测方法,其特征在于,所述对所述源码文件进行标准化处理包括:删除所述源码文件中的无效字符;按照设定的映射表,将删除无效字符后的源码文件中的变量名和函数名转换为对应的符号,以得到标准化的源码文件。
9.一种用于文件安全风险检测的模型的训练方法,其特征在于...
【专利技术属性】
技术研发人员:郑景中,徐敬蘅,闫凡,郜振峰,宁阳,王雄,徐云中,赵艺宾,
申请(专利权)人:深信服科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。