一种基于文本分析的未知漏洞风险评估方法技术

技术编号：26598204 阅读：28 留言：0更新日期：2020-12-04 21:20

本发明专利技术涉及一种基于文本分析的未知漏洞风险评估方法，属于网络未知漏洞风险评估技术领域，包括：以美国国家漏洞数据库，NVD作为样本数据源，获取已有的漏洞文本描述；对样本漏洞文本描述进行文本分析，提取向量矩阵；利用提取的向量矩阵及对应的CVSS评分，建立分类模型；对任意一个未经评分的漏洞进行风险评估时，先进行步骤2，得到对应向量矩阵，然后将对应的向量矩阵输入到步骤3得到的分类模型中，得到漏洞风险等级。本发明专利技术对于不存在于已有漏洞库中的漏洞，根据其漏洞文本描述，自动化评估出其风险等级，不再局限于漏洞库数据。这种自动化的风险等级评估，有助于计算机用户根据漏洞描述来确定漏洞的严重性，为用户的处理排序提供依据。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于文本分析的未知漏洞风险评估方法
本专利技术涉及一种基于文本分析的未知漏洞风险评估方法，属于网络未知漏洞风险评估

技术介绍
近年来，信息系统安全漏洞数量呈指数级增长，相对应的安全漏洞威胁评估系统可根据漏洞自身属性和威胁严重等级差异做出排序，从而优先处理破坏性较强的安全漏洞，把漏洞威胁可造成能的风险损失降到最低。国内外安全专家学者从定性、定量以及定性与定量相结合的角度对系统安全漏洞风险评估方法都进行了探索研究。然而，目前还少有研究工作涉及到使用文本分析来评估漏洞的风险等级。
技术实现思路
为了解决上述技术问题，本专利技术提供一种基于文本分析的未知漏洞风险评估方法，其具体技术方案如下：一种基于文本分析的未知漏洞风险评估方法，包括以下步骤：步骤1：以美国国家漏洞数据库NationalVulnerabilityDatabase，NVD作为样本数据源，获取已有的漏洞文本描述；步骤2：对样本漏洞文本描述进行文本分析，提取向量矩阵，具体为，2.1，利用自然语言处理工具jieba对文本进行分词；2.2，去除标点符号及停用词；2.3，采用自然语言处理工具提取词干部分，去除无效的部分；2.4，采用词频-逆向文件频率TF-IDF（termfrequency-inversedocumentfrequency）方法建立关键词向量矩阵，具体为，2.4.1，计算词频TF：其中表示分词i在文本中出现的次数，分母则是文本中所有分...

【技术保护点】
1.一种基于文本分析的未知漏洞风险评估方法，其特征在于：包括以下步骤：/n步骤1：以美国国家漏洞数据库National Vulnerability Database，NVD作为样本数据源，获取已有的漏洞文本描述；/n步骤2：对样本漏洞文本描述进行文本分析，提取向量矩阵，具体为，/n2.1，利用自然语言处理工具jieba对文本进行分词；/n2.2，去除标点符号及停用词；/n2.3，采用自然语言处理工具提取词干部分，去除无效的部分；/n2.4，采用词频-逆向文件频率TF-IDF方法建立关键词向量矩阵，具体为，/n2.4.1，计算词频TF：/n

【技术特征摘要】
1.一种基于文本分析的未知漏洞风险评估方法，其特征在于：包括以下步骤：
步骤1：以美国国家漏洞数据库NationalVulnerabilityDatabase，NVD作为样本数据源，获取已有的漏洞文本描述；
步骤2：对样本漏洞文本描述进行文本分析，提取向量矩阵，具体为，
2.1，利用自然语言处理工具jieba对文本进行分词；
2.2，去除标点符号及停用词；
2.3，采用自然语言处理工具提取词干部分，去除无效的部分；
2.4，采用词频-逆向文件频率TF-IDF方法建立关键词向量矩阵，具体为，
2.4.1，计算词频TF：

其中表示分词i在文本中出现的次数，分母则是文本中所有分词出现的次数总和，即

2.4.2，计算逆向文件频率IDF：

其中，是语料库中的文本总数，表示包含词语的文本数目，即的文件数目，即

2.4.3，计算TF-IDF：

2.4.4，将漏洞文本j的所有分词按照TF-IDF值降序排列，提取排序靠前的分词作为漏洞文本j的类别关键词，其对应的TF-IDF值构建词向量矩阵；
步骤3：利用提取的向量矩阵及对应的CVSS评分，建立分类模型；
步骤4：对任意一个未经评分的漏洞进行风险评估时，先进行步骤2，得到对应向量矩阵，然后将对应的向量矩阵输入到步骤3得到的分类模型中，得到漏洞风险等级。

2.根据权利要求1所述的基于文本分析的未知漏洞风险评估方法，其特征在于：所述步骤3具体为：
3.1：构建Text-CNN模型，使用步骤2.4中建立的词向量矩阵作为输入；
3.2：根据国际标准，将CVSS评分划分为低危漏洞、中危漏洞、高危漏洞，标记对应的漏洞样本文本描述的危险等级，得到已标注样本集；
3.3：利用Text-CNN模型对已标记样本集中的标记数据样本进行训练与学习，得到最终的分类模型，用以实现对未知漏洞风险的自动评估。

3.根据权利要求2所述的基于文本分析的未知...

【专利技术属性】
技术研发人员：孟军，
申请(专利权)人：江苏开博科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人