基于多种数据库与文件系统的软件样本混合存储系统技术方案

技术编号:26170734 阅读:30 留言:0更新日期:2020-10-31 13:39
本发明专利技术公开了一种基于多种数据库与文件系统的软件样本混合存储系统,包括缓存模块、检索模块、分布式文件存储系统和数据库系统,数据库系统包括并排设置的关系型数据库、分布式非关系型数据库和图数据库,关系型数据库存储结构性数据,分布式非关系型数据库存储从软件样本提取的指纹特征信息,图数据库存储关联关系数据,分布式文件系统存储文本信息,缓存模块和检索模块连接,检索模块分别与分布式文件存储系统、关系型数据库、分布式非关系型数据库和图数据库连接。本发明专利技术解决了海量软件样本特性数据入库与检索效率低、数据存储与管理困难、数据服务扩展性差和无法满足多用户获取实时请求数据的问题,具有分类存储、高效管理与快速检索的优点。

【技术实现步骤摘要】
基于多种数据库与文件系统的软件样本混合存储系统
本专利技术主要涉及软件存储
,具体地说,涉及一种基于多种数据库与文件系统的软件样本混合存储系统。
技术介绍
海量的软件样本及其特征是实现软件盗版检测、恶意软件检测、漏洞检测等同源性分析(软件同源性分析可理解为不同的软件代码是否源自同一套软件代码或是否由同一个作者、团队编写,其是否具有内在关联性、相似性)的基础,由于软件样本与特征具有数据属性多、类型杂等特点,既有结构性数据,如元数据,也有非结构数据,如属性值,也有图数据,如关联关系数据,既有文件类型也有数据库类型数据,现有的单一种类数据库、文件系统或有限混合类型存储方案均存在海量软件样本特性数据入库与检索效率低、数据存储与管理困难、数据服务扩展性差和无法满足多用户获取实时请求数据的问题。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种基于多种数据库与文件系统的软件样本混合存储系统,可解决现有技术海量软件样本特性数据入库与检索效率低、数据存储与管理困难、数据服务扩展性差和无法满足多用户获取实时请求数据的缺陷。本专利技术的基于多种数据库与文件系统的软件样本混合存储系统,包括缓存模块、检索模块、分布式文件存储系统和数据库系统,所述缓存模块和检索模块连接,所述分布式文件存储系统用于存储文本信息,其中,所述数据库系统包括并排设置的关系型数据库、分布式非关系型数据库和图数据库,所述关系型数据库用于存储结构性数据,所述分布式非关系型数据库用于存储从软件样本提取的指纹特征信息,所述图数据库用于存储关联关系数据,所述检索模块分别与分布式文件存储系统、关系型数据库、分布式非关系型数据库和图数据库连接。进一步地,所述分布式文件存储系统采用HDFS分布式文件系统,所述HDFS分布式文件系统与图数据库、分布式非关系型数据库和关系型数据库从右至左依次并排设置。进一步地,所述检索模块使用Elasticsearch建立高效检索机制,用于实现对分布式文件存储系统与数据库系统的数据快速查询。进一步地,所述缓存模块为Redis缓存数据库,用于提高检索效率,减少响应时间。进一步地,所述结构性数据包括源代码和函数信息,所述指纹特征信息包括动态指纹、静态指纹和源代码指纹信息,所述关联关系数据包括关联性信息、函数调用关系图和程序控制流图信息,所述文本信息包括安全分析报告、漏洞信息、论坛相关安全信息、安全相关博客信息。进一步地,所述检索模块使用Elasticsearch建立高效检索机制用于实现对分布式文件存储系统与数据库系统的数据快速查询,具体表现为:步骤1、提出外部查询请求;步骤2、通过Redis缓存数据库查询是否存在已经缓存的数据,如果存在,执行步骤5;否则,执行步骤3;步骤3、将外部查询请求提交给检索模块进行检索,由检索模块对查询请求语句进行分词处理,然后在关系型数据库、分布式非关系型数据库和图数据库与HDFS分布式文件系统的索引中进行分片检索,按需获取结构化、非结构化、图关系型数据以及软件样本文件,并由检索模块汇聚返回的检索结果;步骤4、查询结果在返回的同时,在Redis缓存数据库中进行缓存,为随后对相同数据的重复使用提供高效的数据服务;步骤5、返回检索结果。本专利技术提供的基于多种数据库与文件系统的软件样本混合存储系统,包括缓存模块、检索模块、分布式文件存储系统和数据库系统,其中,数据库系统包括并排设置的关系型数据库、分布式非关系型数据库和图数据库,缓存模块用于存储数据,检索模块用于实现对分布式文件存储系统与数据库系统的数据快速查询,分布式文件存储系统用于存储文本信息,关系型数据库用于存储结构性数据,分布式非关系型数据库用于存储从软件样本提取的指纹特征信息,图数据库用于存储关联关系数据,缓存模块和检索模块连接,检索模块分别与分布式文件存储系统、关系型数据库、分布式非关系型数据库和图数据库连接,相比现有技术,本专利技术解决了海量软件样本特性数据入库与检索效率低、数据存储与管理困难、数据服务扩展性差和无法满足多用户获取实时请求数据的问题,实现了软件样本数据的分类存储、高效管理与快速检索。附图说明构成本专利技术的一部分的附图用于提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是本专利技术一实施例的基于多种数据库与文件系统的软件样本混合存储系统的结构框图;图2是本专利技术一实施例的检索模块通过Elasticsearch检索实现数据查询检索的流程图。具体实施方式需要说明的是,在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本专利技术。本专利技术中,使用的方位如“左”、“右”均以图1所示的视图为基准。本专利技术提供了一种基于多种数据库与文件系统的软件样本混合存储系统,包括缓存模块、检索模块、分布式文件存储系统和数据库系统,其中,数据库系统包括并排设置的关系型数据库(MySQL)、分布式非关系型数据库(Cassandra)和图数据库(Neo4j),具体地,缓存模块用于存储数据,可提高检索效率,减少响应时间,检索模块用于实现对分布式文件存储系统与数据库系统的数据快速查询,分布式文件存储系统用于存储文本信息,MySQL用于存储结构性数据,Cassandra用于存储从软件样本提取的指纹特征信息,Neo4j用于存储关联关系数据,缓存模块和检索模块连接,实现数据的双向传递,检索模块分别与分布式文件存储系统、MySQL、Cassandra和Neo4j连接,亦实现数据的双向传递。通过上述设置,一方面,可充分利用分布式文件存储系统和各数据库的优点来适用于系统的不同应用场景;另一方面,可实现软件样本数据的高效管理与快速检索。作为本专利技术的优选实施例,分布式文件存储系统采用HDFS分布式文件系统,检索模块使用Elasticsearch建立高效检索机制,且HDFS分布式文件系统与Neo4j、Cassandra和MySQL从右至左依次并排设置,具体参见图1。在进一步地技术方案中,前述结构性数据包括源代码和函数信息,指纹特征信息包括动态指纹、静态指纹和源代码指纹信息,关联关系数据包括关联性信息、函数调用关系图和程序控制流图信息,文本信息包括安全分析报告、漏洞信息、论坛相关安全信息、安全相关博客信息,但不仅限于此,即实现了软件样本数据的分类存储,当出现源代码和函数信息时,则存储于MySQL中,当出现动态指纹、静态指纹、源代码指纹信息时,则存储于Cassandra中,当出现关联性信息、函数调用关系图和程序控制流图信息时,则存储于Neo4j中。同时,参见图2,为检索模块通过Elasticsearch检索实现数据查询检索的流程图,具体包括如下步骤:步骤1、提出外部查询请求;步骤2、通过Redis缓存数据库查询是否存在已经缓存的数据,如果存在,执行步骤5;否则,执行步骤3;步骤3、将外部查询请求提交给Elasticse本文档来自技高网...

【技术保护点】
1.基于多种数据库与文件系统的软件样本混合存储系统,其特征在于,包括缓存模块、检索模块、分布式文件存储系统和数据库系统,所述缓存模块和检索模块连接,所述分布式文件存储系统用于存储文本信息,其中,所述数据库系统包括并排设置的关系型数据库、分布式非关系型数据库和图数据库,所述关系型数据库用于存储结构性数据,所述分布式非关系型数据库用于存储从软件样本提取的指纹特征信息,所述图数据库用于存储关联关系数据,所述检索模块分别与分布式文件存储系统、关系型数据库、分布式非关系型数据库和图数据库连接。/n

【技术特征摘要】
1.基于多种数据库与文件系统的软件样本混合存储系统,其特征在于,包括缓存模块、检索模块、分布式文件存储系统和数据库系统,所述缓存模块和检索模块连接,所述分布式文件存储系统用于存储文本信息,其中,所述数据库系统包括并排设置的关系型数据库、分布式非关系型数据库和图数据库,所述关系型数据库用于存储结构性数据,所述分布式非关系型数据库用于存储从软件样本提取的指纹特征信息,所述图数据库用于存储关联关系数据,所述检索模块分别与分布式文件存储系统、关系型数据库、分布式非关系型数据库和图数据库连接。


2.根据权利要求1所述的基于多种数据库与文件系统的软件样本混合存储系统,其特征在于,所述分布式文件存储系统采用HDFS分布式文件系统,所述HDFS分布式文件系统与图数据库、分布式非关系型数据库和关系型数据库从右至左依次并排设置。


3.根据权利要求2所述的基于多种数据库与文件系统的软件样本混合存储系统,其特征在于,所述检索模块使用Elasticsearch建立高效检索机制,用于实现对分布式文件存储系统与数据库系统的数据快速查询。


4.根据权利要求3所述的基于多种数据库与文件系统的软件样本混合存储系统,其特征在于,所述缓存模块为Redis缓存数据库,用于提高检索效率,减少响应时间...

【专利技术属性】
技术研发人员:肖哲锋
申请(专利权)人:湖南泛联新安信息科技有限公司
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1