基于文本预训练模型的漏洞相似性对比方法及系统技术方案

技术编号：36210668 阅读：67 留言：0更新日期：2023-01-04 12:06

本申请公开了一种基于文本预训练模型的漏洞相似性对比方法及系统。首先获取漏洞扫描产品的漏洞文本数据集，并进行预处理得到目标漏洞文本；基于Sentence

全部详细技术资料下载

【技术实现步骤摘要】
基于文本预训练模型的漏洞相似性对比方法及系统

[0001]本专利技术涉及漏洞数据检测领域，特别涉及一种基于文本预训练模型的漏洞相似性对比方法及系统。

技术介绍

[0002]目前，漏洞扫描评估产品主要采用的是基于漏洞知识库的技术。漏洞知识库，即各国信息安全中心及信息安全厂商和组织组建起的漏洞库，例如CVE(Common Vulnerabilities&Exposures，通用漏洞披露)等。现有的漏洞扫描产品往往支持多种漏洞库，甚至支持整合多种漏洞扫描技术。为提高漏洞扫描结果的精准性，更好地进行漏洞分析和风险评估，需要一种漏洞相似度对比技术，将相似漏洞归一化处理。
[0003]现有的漏洞相似性检测技术主要包括基于规则匹配的方法以及基于文本挖掘的方法。对于规则匹配法，主要是通过提取漏洞信息中的关键词，以关键词重合度作为漏洞间的相似度。漏洞关键词往往从漏洞描述，漏洞类型，漏洞风险等级等信息中提取。这种方式依赖于漏洞信息的完整性和一致性，且没有挖掘出漏洞信息中深层次的语义信息。由于不同漏洞扫描技术的规范不同，漏洞信息的描述方式往往也不同，很容易出现误判的情况。对于基于文本挖掘的方法，主要是通过利用现有的自然语言处理(Natural Language Processing，NLP)技术，对漏洞信息进行建模和比对。目前已有的漏洞相似性比对技术，主要是将漏洞相似性比对问题转化为NLP中的文本相似度问题，通过运用Word2Vec词向量生成模型以及TF
‑
IDF(Term Frequencyr/>–
Inverse Document Frequency)加权技术对漏洞文本进行向量化，然后以向量相似度作为漏洞相似度。这种技术相较于规则匹配法更为灵活，能够提取漏洞文本中深层次的语义信息，弥补了规则匹配法存在的缺陷。
[0004]然而，由于NLP技术的快速发展，现有漏洞相似性比对技术采用的Word2Vec+TF
‑
IDF的技术选型已经较为过时，其效果只能满足简单的，信息量较少的漏洞相似性判断，在实际的漏洞相似性比对问题中，存在很多比较棘手的相似性判断问题，例如两条漏洞文本除资产类型外，其余部分完全相同；或两条漏洞描述的是同一资产下的不同漏洞等情况。由于这些情况下的漏洞文本只存在细微的差异，即使运用了一些文本挖掘技术，也能够得到很高的相似性，但实际描述的并不是同一类漏洞。因此，需要一种更为精细化的，多维的漏洞相似性对比技术，能够更准确地判断漏洞相似性。

技术实现思路

[0005]基于此，本申请实施例提供了一种基于文本预训练模型的漏洞相似性对比方法及系统，从文本相似度，主体词和漏洞类型三个维度来判别两个漏洞文本是否属于同一类漏洞描述，从而提高了判断漏洞相似性的准确度。
[0006]第一方面，提供了一种基于文本预训练模型的漏洞相似性对比方法，该方法包括：
[0007]获取漏洞扫描产品的漏洞文本数据集；
[0008]对漏洞文本数据集进行预处理得到目标漏洞文本；
[0009]基于预先训练的Sentence
‑
BERT模型对所述目标漏洞文本进行向量化得到漏洞文本向量；所述漏洞文本向量用于表征句子在向量空间上的语义信息；
[0010]对所述目标漏洞文本进行文本分词和主体词库过滤，提取出所述目标漏洞文本的主体词；
[0011]基于漏洞关键词正则匹配以及HMCN模型对所述目标漏洞文本进行处理得到所述目标漏洞文本的漏洞类型；
[0012]将所获得的所述漏洞文本向量、所述主体词以及所述漏洞类型分别进行漏洞相似度计算，并将所得的各个漏洞相似度计算结果加权求和，得到漏洞相似性对比结果。
[0013]可选地，所述对漏洞文本数据集进行预处理，包括：
[0014]对所述漏洞文本数据集进行过滤描述短和/或长文本，英文转小写。
[0015]可选地，基于预先训练的Sentence
‑
BERT模型对所述目标漏洞文本进行向量化得到漏洞文本向量，包括：
[0016]使用孪生网络模型和三胞胎网络模型生成具有语义的句子Embedding向量。
[0017]可选地，对所述目标漏洞文本进行文本分词和主体词库过滤，提取出所述目标漏洞文本的主体词，包括：
[0018]将漏洞文本中的英文部分进行提取，再经过分词处理后，与英文主体词库进行比对，将比对结果中处于预设单词列表的单词作为漏洞文本的主题词；其中，所述预设单词列表通过人工设定具有意思的单词列表。
[0019]可选地，将所获得的漏洞文本向量进行漏洞相似度计算，包括：
[0020]基于漏洞文本向量间的余弦相似度计算得到第一漏洞相似度计算结果。
[0021]可选地，
[0022]将所获得的主体词进行漏洞相似度计算，包括：
[0023]获取到其主体词列表和位置权重列表；
[0024]获取主体词列表和位置权重列表的交集部分；
[0025]并根据公式
[0026][0027]得到第二漏洞相似度计算结果；其中，A表示目标漏洞文本，B表示对比漏洞文本，SPL
A
(i)表示主题词i在目标漏洞文本中位置权重，SPL
B
(i)表示主题词i在对比漏洞文本中位置权重，n表示主体词列表。
[0028]可选地，将所获得的漏洞类型进行漏洞相似度计算，包括：
[0029]当漏洞文本对的类型相同，则将第三漏洞相似度计算结果赋值为1；
[0030]当漏洞文本对的类型不相同，则将第三漏洞相似度计算结果赋值为0。
[0031]第二方面，提供了一种基于文本预训练模型的漏洞相似性对比系统，该系统包括：
[0032]获取模块，用于获取漏洞扫描产品的漏洞文本数据集；
[0033]预处理模块，用于对漏洞文本数据集进行预处理得到目标漏洞文本；
[0034]向量化模块，用于基于预先训练的Sentence
‑
BERT模型对所述目标漏洞文本进行向量化得到漏洞文本向量；所述漏洞文本向量用于表征句子在向量空间上的语义信息；
[0035]提取模块，用于对所述目标漏洞文本进行文本分词和主体词库过滤，提取出所述目标漏洞文本的主体词；
[0036]处理模块，用于基于漏洞关键词正则匹配以及HMCN模型对所述目标漏洞文本进行处理得到所述目标漏洞文本的漏洞类型；
[0037]计算模块，用于将所获得的所述漏洞文本向量、所述主体词以及所述漏洞类型分别进行漏洞相似度计算，并将所得的各个漏洞相似度计算结果加权求和，得到漏洞相似性对比结果。
[0038]可选地，所述预处理模块具体包括：
[0039]对所述漏洞文本数据集进行过滤描述。
[0040]可选地，所述向量化模块具体包括：
[0041]使用孪生网络模型和三胞胎网络模型生成具有语义的句子Embedding向量。
[0042]本申请实施例提供的技术方本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于文本预训练模型的漏洞相似性对比方法，其特征在于，所述方法包括：获取漏洞扫描产品的漏洞文本数据集；对漏洞文本数据集进行预处理得到目标漏洞文本；基于预先训练的Sentence
‑
BERT模型对所述目标漏洞文本进行向量化得到漏洞文本向量；所述漏洞文本向量用于表征句子在向量空间上的语义信息；对所述目标漏洞文本进行文本分词和主体词库过滤，提取出所述目标漏洞文本的主体词；基于漏洞关键词正则匹配以及HMCN模型对所述目标漏洞文本进行处理得到所述目标漏洞文本的漏洞类型；将所获得的所述漏洞文本向量、所述主体词以及所述漏洞类型分别进行漏洞相似度计算，并将所得的各个漏洞相似度计算结果加权求和，得到漏洞相似性对比结果。2.根据权利要求1所述的方法，其特征在于，所述对漏洞文本数据集进行预处理，包括：对所述漏洞文本数据集进行过滤描述短和/或长文本，英文转小写。3.根据权利要求1所述的方法，其特征在于，基于预先训练的Sentence
‑
BERT模型对所述目标漏洞文本进行向量化得到漏洞文本向量，包括：使用孪生网络模型和三胞胎网络模型生成具有语义的句子Embedding向量。4.根据权利要求1所述的方法，其特征在于，对所述目标漏洞文本进行文本分词和主体词库过滤，提取出所述目标漏洞文本的主体词，包括：将漏洞文本中的英文部分进行提取，再经过分词处理后，与英文主体词库进行比对，将比对结果中处于预设单词列表的单词作为漏洞文本的主题词；其中，所述预设单词列表通过人工设定具有意思的单词列表。5.根据权利要求1所述的方法，其特征在于，将所获得的漏洞文本向量进行漏洞相似度计算，包括：基于漏洞文本向量间的余弦相似度计算得到第一漏洞相似度计算结果。6.根据权利要求1所述的方法，其特征在于，将所获得的主体词进行漏洞相似度...

【专利技术属性】
技术研发人员：宋同庆，张佳琪，何召阳，董昊辰，刘兵，郭路路，
申请(专利权)人：北京墨云科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人