一种基于开源库与文本挖掘的并行漏洞挖掘方法技术

技术编号:10696519 阅读:267 留言:0更新日期:2014-11-27 00:01
本发明专利技术涉及一种基于开源库与文本挖掘的并行漏洞挖掘方法,属于计算机信息安全技术领域。其步骤包括:从开源库获取漏洞数据以及数据预处理,提取漏洞集合,文本向量化,计算阈值,发现并行漏洞。本发明专利技术的优点有:基于开源信息库,提取同一攻击模式下相关漏洞信息,从而便于分析漏洞间潜在的并行关系;将漏洞的文字描述信息向量化,便于计算机系统对漏洞记录数据进行智能化处理;区别于基于关键字匹配的查询,本发明专利技术根据训练集得出的阈值考察漏洞间的相似度;可以计算漏洞间的并行关系,从而在发现一个漏洞被利用时迅速弥补其它并行漏洞,进而弥补整个网络的脆弱性,增强防御能力,对信息安全有很大的意义。

【技术实现步骤摘要】
一种基于开源库与文本挖掘的并行漏洞挖掘方法
本专利技术属于计算机信息安全
具体而言,本专利技术涉及一种基于开源库与文本挖掘的并行漏洞挖掘方法。
技术介绍
随着互连网的不断普及和飞速发展,人们越来越多地使用到并依赖于互联网。同时,因互联网信息安全问题产生的经济损失大幅提高,造成的危害也明显增大。存在于各种软件和操作系统中的漏洞,为黑客们发动网络攻击、盗取用户信息、甚至破坏工业基础设施提供了条件。为此世界各国不予余力地研究防范网络中安全隐患的有效方法。从1996年开始,信息安全专家就开始对互联网攻击模式进行归纳和总结,试图从更高的层次理解网络攻击。而在这其中,被广泛认可的则是由美国国土安全部(UnitedStatesDepartmentofHomelandSecurity,DHS)支持的CAPEC(CommonAttackPatternEnumerationandClassification)项目。在CAPEC中,每个攻击模式被指定了唯一的ID,并提供了以下的信息:攻击模式描述、攻击步骤、前置条件(如依托的平台及软件版本等攻击前需要满足的技术条件)、后置条件(如攻击后获取的管理员权限等)、攻击实例、相关的CWE(CommonWeaknessEnumeration)脆弱性和CVE(CommonVulnerabilitiesandExposures)漏洞等。CAPEC不但阐述了网络攻击模式的具体细节,还指明了它与CWE、CVE之间的联系。CWE是一个描述软件中的脆弱性集合。对于每一个脆弱性,它提供了以下信息:脆弱性描述、适用的平台、造成的结果、实例以及相关的CVE漏洞。一个CWE脆弱性对应着许多个相关CVE漏洞。本专利技术涉及的并行漏洞(ParallelVulnerabilities),指的是具有相同攻击基础条件、能达到相同攻击目的和效果、但利用不同攻击路径的漏洞组合。简而言之,并行漏洞使用多路径的方法来分析攻击可能利用的途径,从而提高成功防御网络攻击的概率和覆盖率。与并行漏洞有着密切联系的则是攻击图:攻击图从攻击者或防御者的视角描述了如何利用系统中存在的漏洞达到攻击或防范的目的;系统管理可以通过攻击图评估他们系统的安全性,以及决定采取怎样的补救措施进行防范。并行漏洞就是源于攻击图中的同一起始点和结束点间的分支并行关系,用于发现这些有并行关系的漏洞组合,可在发现一个漏洞被利用时迅速弥补其它并行漏洞,便于及时对相应漏洞打补丁,进而弥补整个网络的脆弱性,具有较高的网络防御应用价值。
技术实现思路
本专利技术的目的在于,基于开源信息库,提取同一攻击模式下关联脆弱性CWE,再从脆弱性CWE关联到漏洞CVE,然后通过文本挖掘和自然语言处理技术,挖掘出并行漏洞,因而具有较高的网络防御应用价值。本专利技术的技术方案是:一种基于开源库与文本挖掘的并行漏洞挖掘方法,步骤包括:1.数据获取与预处理:a)从开源库中获取原始攻击模式信息、脆弱性信息和漏洞信息b)对获取的开源库信息数据进行数据清理,包括统一数据格式、数据净化、填充缺失属性和去除噪声数据c)对清理后的数据建立数据集合,并形成标识到非结构化文本信息的映射,形成三个集合Pattern{p1,p2,…,pn},Weak{w1,w2,…,wm},Vulnerability{v1,v2,…,vs}。其中pi代表一个攻击模式,wi代表一个脆弱性,vi代表一个漏洞。2.提取映射关系和漏洞集合解析出攻击模式pi到脆弱性wi的映射关系(一对多)、脆弱性wi到漏洞vi的映射关系(一对多),然后形成攻击模式pi到漏洞vi的映射关系,从而将庞大的漏洞库依据某一个攻击模式归纳到不同的漏洞集合。3.对漏洞的文本描述信息进行数学建模a)提取漏洞的文本描述信息,进行分词,提取词干,依据特征词库对描述进行文本向量化,可表示为Di=(w1,i,w2,i,w3,i,…,wn,i),其中wn,i表示词条n在文档Di中的数量指标表示。b)依据文本向量化的描述信息计算文档单词的TF/IDF(词频/倒文档频)值,进而文档可表示为di=(w1,i,w2,i,w3,i,…,wn,i),其中wn,i表示词条n在文档di中的TF/IDF加权值。4.对步骤2中提取到的漏洞集合的漏洞,根据攻击模式的前置条件、后置条件及阈值进行筛选,得到并行漏洞组合的集合Parrallel{(vi,vj)|i≠j,vi∈vulnerability}a)依据人工标注的并行漏洞训练集,计算并行漏洞的余弦相似值的阈值(方法见步骤4-a)和CVSS评估分数的欧几里得距离的阈值b)对在步骤2中获取的漏洞集合中,根据步骤3中获取到的漏洞向量信息,对应于攻击模式的前置条件以及后置条件分别计算两个漏洞的余弦相似值(方法见步骤4-a)c)根据两个漏洞的余弦相似值和CVSS的评估分数的欧几里得距离,将两项均在各自阈值范围内的漏洞判别为并行漏洞。步骤3-a)中所述分词方法,其步骤为将文本流按空格进行分隔,得到单词序列。去除特殊含义的字符,替换//,\\,/,\为/,去除单词尾号。步骤3-b)中所述提取词干的方法,采用KrovetzStemmer对文本进行处理。步骤3-b)中所述计算文本TF/IDF值的方法,TF(t,d)=0.5+(0.5*f(t,d))/(max{f(w,d):w∈d})IDF(t,D)=log(|D|)/(|{d∈D:t∈d}|)其中f(t,d)为单词t在文档d中的词频,f(w,d)为单词w在文档d中的词频,w属于文档d,它可以代表其中的任何一个单词;|D|为语料库D中包含的所有文档数,|{d∈D:t∈d}|为语料库D中包含单词t的文档数。步骤4-a)中所述计算余弦相似性的方法,其中vj表示漏洞j的描述文本,vk表示漏洞k的描述文本。wi,j表示词条i在文档dj中的TF/IDF加权值,wi,k表示词条i在文档dk中的TF/IDF加权值。vj表示漏洞j的描述文本,vk表示漏洞k的描述文本;wi,j表示词条i在文档dj中的TF/IDF加权值,wi,k表示词条i在文档dk中的TF/IDF加权值。本专利技术的优点主要有:1.现有漏洞记录数据的文字描述字段取值为非结构化文本数据,而且不同的漏洞描述来源造成其描述格式和用词不同,计算机无法自动完成对文字描述字段的自动理解。本专利技术依据特征词汇库对文字描述字段取值进行数值向量化处理,将不明确的文字描述明确化,便于计算机系统对漏洞记录数据的智能化、自动化、规模化处理。2.现有漏洞数据库的漏洞记录之间只有明确的类别一致、危险程序高低、发现时间先后的关系,漏洞记录之间的安全攻击依赖关系无法体现,本专利技术能挖掘出漏洞数据之间暗含的并行联接模式和规律,为漏洞数据的进一步应用提供基础。3.现有攻击模式只收录已经发生的网络攻击的攻击模式,对应的漏洞信息单一固定,扩展性不强,预见性不强,对应攻击模式的发现很困难。本专利技术依据开源库中的攻击模式到脆弱性,再到漏洞的映射关系,再利用文本挖掘发现并行漏洞,对已经产生的攻击模式可扩展出多种漏洞组合,也可预见一定的攻击模式,为网络安全防范提供了基础。附图说明图1为系统的流程图图2为图1中方框1001数据的获取与预处理流程图图3为图1中方框1005提取漏洞集合流程图图4为图1中方框1009文本向量化流本文档来自技高网
...
一种基于开源库与文本挖掘的并行漏洞挖掘方法

【技术保护点】
一种基于开源库与文本挖掘的并行漏洞挖掘方法,其特征在于,步骤包括:1)数据获取与预处理:a)从开源库中获取原始攻击模式信息、脆弱性信息和漏洞信息;b)对获取的开源库信息数据进行数据清理,包括统一数据格式、数据净化、填充缺失属性和去除噪声数据;c)对清理后的数据建立数据集合,并形成标识到非结构化文本信息的映射,形成三个集合Pattern{p1,p2...pn},Weak{w1,w2...wm},Vulnerability{v1,v2...v3};其中pi代表一个攻击模式,wi代表一个脆弱性,vi代表一个漏洞;2)提取映射关系和漏洞集合解析出攻击模式pi到脆弱性wj的映射关系、脆弱性wj到漏洞vk的映射关系,然后形成攻击模式pi到漏洞vk的映射关系,从而将庞大的漏洞库依据某一个攻击模式归纳到不同的漏洞集合;3)对漏洞的文本描述信息进行数学建模:d)提取漏洞的文本描述信息,进行分词,提取词干,依据特征词库对描述进行文本向量化;e)依据文本向量化的描述信息计算文档单词的tf/idf即词频/倒文档频值;4)对步骤2)中提取到的漏洞集合的漏洞,根据攻击模式的前置条件、后置条件及阈值进行筛选,得到并行漏洞组合的集合;a)依据人工标注的并行漏洞训练集,计算并行漏洞的余弦相似值的阈值和CVSS评估分数的欧几里得距离的阈值;b)对在步骤2)中获取的漏洞集合中,根据步骤3)中获取到的漏洞向量信息,对应于攻击模式的前置条件以及后置条件分别计算两个漏洞的余弦相似值;c)根据两个漏洞的余弦相似值和CVSS的评估分数的欧几里得距离,将两项均在各自阈值范围内的漏洞判别为并行漏洞。...

【技术特征摘要】
1.一种基于开源库与文本挖掘的并行漏洞挖掘方法,其特征在于,步骤包括:1)数据获取与预处理;a)从开源库中获取原始攻击模式信息、脆弱性信息和漏洞信息;b)对获取的开源库信息数据进行数据清理,包括统一数据格式、数据净化、填充缺失属性和去除噪声数据;c)对清理后的数据建立数据集合,并形成标识到非结构化文本信息的映射,形成三个集合Pattern{p1,p2,…,pn},Weak{w1,w2,…,wm},Vulnerability{v1,v2,…,vs};其中pi代表一个攻击模式,wi代表一个脆弱性,vi代表一个漏洞;2)提取映射关系和漏洞集合;解析出攻击模式pi到脆弱性wj的映射关系、脆弱性wj到漏洞vk的映射关系,然后形成攻击模式pi到漏洞vk的映射关系,从而将庞大的漏洞库依据某一个攻...

【专利技术属性】
技术研发人员:赵向辉刘林刘晖易锦陈海强张磊姚原岗李维杰偰赓刘彦钊
申请(专利权)人:中国信息安全测评中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1