System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种组件关联词挖掘方法、装置、计算机设备及存储介质制造方法及图纸_技高网

一种组件关联词挖掘方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:40196026 阅读:8 留言:0更新日期:2024-01-26 23:59
本发明专利技术涉及网络安全技术领域,具体涉及一种组件关联词挖掘方法、装置、计算机设备及存储介质。方法包括:获取组件和漏洞相关的数据集;基于数据集中的实体、属性和关系构建知识图谱;基于知识图谱,获取待挖掘组件的关联文本信息;采用基于图的排序算法对所述关联文本信息进行处理,确定待挖掘组件的关联词。本发明专利技术实施例提供的组件关联词挖掘方法,通过知识图谱构建组件间的关联,提高了对组件涉及的关联词挖掘的准确性和完整性。采用自然语言处理技术和知识图谱技术提取关键词,避免了人工标注的繁琐过程,大大提高了效率。由此,该方法可以更加高效地挖掘组件关联词,从而更好地保障系统的安全性。对于组件漏洞的分析和预防都具有重要意义。

【技术实现步骤摘要】

本专利技术涉及网络安全,具体涉及一种组件关联词挖掘方法、装置、计算机设备及存储介质


技术介绍

1、随着信息化时代的发展,网络安全问题变得日益突出。随着越来越多的开源组件被引入到软件系统中,这也带来了越来越多的漏洞和安全问题。为了更好地保障系统的安全性,需要对组件间的关联词进行深入挖掘和分析。在实际应用中,组件名称都是厂商根据自己的规范进行命名的,除了基本的cpe(common platform enumeration,通用枚举平台)规范,没有其它统一的名称规范。因此,根据组件名查到组件相关的信息是一项具有挑战性的任务。目前的做法主要是根据组件名进行全词匹配查找。但是,由于cve(commonvulnerabilities and exposures,通用漏洞披露)和组件的多对多关系,需要耗费大量的时间和人力成本去对匹配的内容进行筛选。


技术实现思路

1、有鉴于此,本专利技术提供了一种组件关联词挖掘方法、装置、计算机设备及存储介质,以解决当前组件关联词挖掘需要耗费大量的时间和人力成本的问题。

2、第一方面,本专利技术提供了一种组件关联词挖掘方法,方法包括:获取组件和漏洞相关的数据集;基于数据集中的实体、属性和关系构建知识图谱;基于知识图谱,获取待挖掘组件的关联文本信息;采用基于图的排序算法对关联文本信息进行处理,确定待挖掘组件的关联词。

3、本专利技术实施例提供的组件关联词挖掘方法,通过知识图谱构建组件间的关联,提高了对组件涉及的关联词挖掘的准确性和完整性。采用自然语言处理技术和知识图谱技术提取关键词,避免了人工标注的繁琐过程,大大提高了效率。由此,该方法可以更加高效地挖掘组件关联词,从而更好地保障系统的安全性。该方法可以广泛应用于软件安全领域,对于组件漏洞的分析和预防都具有重要意义。

4、在一种可选的实施方式中,获取组件和漏洞相关的数据集,包括:获取数据集,数据集包括cve数据集、cwe数据集、cpe数据集、漏洞分析文章数据集以及组件描述信息数据集;对获取的数据集进行清洗、去重、分词和去停用词处理,得到组件和漏洞相关的数据集。

5、本实施例中,采用cve数据集、cwe数据集、cpe数据集、漏洞分析文章数据集以及组件描述信息数据集作为构建知识图谱的原始数据集,使得该数据集更加全面。

6、在一种可选的实施方式中,基于数据集中的实体、属性和关系构建知识图谱,包括:提取数据集中的实体,实体包括cve、cwe、组件实体和文章实体;采用关系识别技术挖掘实体之间的关系;基于实体、实体之间的关系和对应的属性构建知识图谱,属性包括名称、描述信息、类别以及可读性。

7、在一种可选的实施方式中,基于知识图谱,获取待挖掘组件的关联文本信息,包括:获取待挖掘组件;基于知识图谱,确定待挖掘组件的组件描述信息以及和待挖掘组件存在关系的cve、cwe和文章实体;根据文章实体的可读性对文章实体进行筛选;基于筛选的文章实体、组件描述信息以及cve和cwe对应的属性确定待挖掘组件的关联文本信息。

8、本实施例中,采用实体、实体之间的关系和对应的属性构建知识图谱,由此,获取的待挖掘组件的关联文本信息包含筛选的文章实体、组件描述信息以及cve和cwe对应的属性各个层面的信息,使得获取的关联文本信息更加丰富全面,从而使得后续挖掘的关键词更精准,质量更高。

9、在一种可选的实施方式中,采用基于图的排序算法对关联文本信息进行处理,确定待挖掘组件的关联词,包括:对关联文本信息进行分词和去停用词处理,得到处理后的文本;采用预设滑动窗口在处理后的文本上滑动,基于每个窗口内的词语是否共现构建图结构;采用textrank算法计算图结构中每个节点的权重;基于权重计算结果确定待挖掘组件的关联词。

10、在一种可选的实施方式中,图结构包括节点和边,权重采用如下公式计算:

11、

12、式中,d表示阻尼系数,wji表示图结构中节点vi和节点vj之间的边的权重,in(vi)表示指向节点vi的节点集合,out(vj)表示节点vj的后继节点集合,ws(vi)表示节点vi的权重,ws(vj)节点vj的权重。

13、在一种可选的实施方式中,方法还包括:对确定的关联词进行统计加权。

14、本实施例中,通过结合自然语言处理技术和知识图谱技术,使用标准数据集如cve、cwe、cpe以及抓取的公开的互联网上的漏洞分析文章、组件的详细中文描述信息作为补充数据集,构建知识图谱。并利用textrank技术的文本分析模型对组件在补丁、缓解措施、技术说明等多个层面进行词语抽取和语义解析,从而为软件系统的安全性分析提供支持,并实现挖掘组件名称的关联词。这种方法可以提高关联词挖掘的精度和效率,缩短挖掘时间,减少人工干预,更加准确地识别和分析组件间的关联词,提高系统安全性。

15、第二方面,本专利技术提供了一种组件关联词挖掘装置,装置包括:数据获取模块,用于获取组件和漏洞相关的数据集;知识图谱构建模块,用于基于数据集中的实体、属性和关系构建知识图谱;关联文本确定模块,用于基于知识图谱,获取待挖掘组件的关联文本信息;关联词确定模块,用于采用基于图的排序算法对关联文本信息进行处理,确定待挖掘组件的关联词。

16、在一种可选的实施方式中,数据获取模块具体用于:获取数据集,数据集包括cve数据集、cwe数据集、cpe数据集、漏洞分析文章数据集以及组件描述信息数据集;对获取的数据集进行清洗、去重、分词和去停用词处理,得到组件和漏洞相关的数据集。

17、在一种可选的实施方式中,知识图谱构建模块具体用于:提取数据集中的实体,实体包括cve、cwe、组件实体和文章实体;采用关系识别技术挖掘实体之间的关系;基于实体、实体之间的关系和对应的属性构建知识图谱,属性包括名称、描述信息、类别以及可读性。

18、在一种可选的实施方式中,关联文本确定模块具体用于:获取待挖掘组件;基于知识图谱,确定待挖掘组件的组件描述信息以及和待挖掘组件存在关系的cve、cwe和文章实体;根据文章实体的可读性对文章实体进行筛选;基于筛选的文章实体、组件描述信息以及cve和cwe对应的属性确定待挖掘组件的关联文本信息。

19、在一种可选的实施方式中,关联词确定模块具体用于:对关联文本信息进行分词和去停用词处理,得到处理后的文本;采用预设滑动窗口在处理后的文本上滑动,基于每个窗口内的词语是否共现构建图结构;采用textrank算法计算图结构中每个节点的权重;基于权重计算结果确定待挖掘组件的关联词。

20、在一种可选的实施方式中,图结构包括节点和边,权重采用如下公式计算:

21、

22、式中,d表示阻尼系数,wji表示图结构中节点vi和节点vj之间的边的权重,in(vi)表示指向节点vi的节点集合,out(vj)表示节点vj的后继节点集合,ws(vi)表示节点vi的权重,ws(vj)节点vj的权重。

23、在一种可选的本文档来自技高网...

【技术保护点】

1.一种组件关联词挖掘方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,获取组件和漏洞相关的数据集,包括:

3.根据权利要求2所述的方法,其特征在于,基于所述数据集中的实体、属性和关系构建知识图谱,包括:

4.根据权利要求3所述的方法,其特征在于,基于所述知识图谱,获取待挖掘组件的关联文本信息,包括:

5.根据权利要求1所述的方法,其特征在于,采用基于图的排序算法对所述关联文本信息进行处理,确定待挖掘组件的关联词,包括:

6.根据权利要求5所述的方法,其特征在于,所述图结构包括节点和边,所述权重采用如下公式计算:

7.根据权利要求1所述的方法,其特征在于,所述方法还包括:

8.一种组件关联词挖掘装置,其特征在于,所述装置包括:

9.一种计算机设备,其特征在于,包括:

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使计算机执行权利要求1至7中任一项所述的组件关联词挖掘方法。

【技术特征摘要】

1.一种组件关联词挖掘方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,获取组件和漏洞相关的数据集,包括:

3.根据权利要求2所述的方法,其特征在于,基于所述数据集中的实体、属性和关系构建知识图谱,包括:

4.根据权利要求3所述的方法,其特征在于,基于所述知识图谱,获取待挖掘组件的关联文本信息,包括:

5.根据权利要求1所述的方法,其特征在于,采用基于图的排序算法对所述关联文本信息进行处理,确定待挖掘组件的关...

【专利技术属性】
技术研发人员:高昆仑王文辉张錋张道娟韩龙玺葛广凯魏桂臣
申请(专利权)人:国网智能电网研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1