System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种分布式多任务的电子取证数据治理系统及方法技术方案_技高网

一种分布式多任务的电子取证数据治理系统及方法技术方案

技术编号:41250093 阅读:2 留言:0更新日期:2024-05-09 23:58
本发明专利技术提供一种分布式多任务的电子取证数据治理系统及方法,包括:电子取证模块,用于采集不同来源及不同格式的来源数据包;文件文件同步模块,包括同步服务Filesync单元和Fileserver服务单元,用于通过配置方式对不同来源数据包进行汇聚扫描,对外提供统一的文件分布式存储和统一文件访问接口;数据解析模块,对来源数据包进行访问并解析,获得统一的标准化格式数据;数据中间处理模块,用于将标准化格式数据,存储至消息队列;数据治理模块,用于对获取的标准化格式数据进行统一的治理;数据组织模块,生成统一标准化的原始库、主题库、资源库、业务库和知识库。本发明专利技术对电子取证数据治理过程进行服务模块化的分层解耦,大大提高了电子取证数据的治理效率。

【技术实现步骤摘要】

本申请涉及电子取证,特别是涉及一种分布式多任务的电子取证数据治理系统及方法


技术介绍

1、随着手机、计算机等智能设备的高速发展和电子取证技术的不断完善发展,电子取证所产生的数据的格式和数据种类越来越多,市面上常用的标准格式有bcp、xml、json、efp、mfc等不同格式。由于不同格式的电子取证数据代表着不同行业、不同厂商对数据定义的标准不一致,往往导致电子取证数据分析平台的接入不同格式数据的兼容度不高,且适配开发周期长,治理效率慢的特点。因此对于如何快速的治理电子取证数据形成统一的数据资源平台,为执法机关能够快速分析电子取证数据,提取关键信息起到至关重要的环节。

2、传统的电子取证数据治理模式基本都是单机版,无法利用多节点动态的横向扩展优势,面对大数据量文件汇聚时,容易存在治理效率慢问题。在传统的治理过程中,数据治理服务往往都是从获取来源数据包,到解析、处理、入库等环节都是一条龙处理,每个环节的耦合性太强,导致治理服务代码臃肿,越到后期越难维护,开发成本高。随着智能设备的高速发展,电子取证数据格式的多样性和种类繁多,传统的电子取证数据治理无法快速的兼容所有的标准,适配难度大,难以快速满足客户的数据分析需求。


技术实现思路

1、为了解决上述技术问题,本专利技术提供一种分布式多任务的电子取证数据治理系统及方法,采用模块化分层解耦设计,对治理服务进行细粒度拆分,达到可运行多节点上的执行单元;对于多种不同标准的电子取证数据,采用统一库表设计,最大程度的兼容所有不同行业标准的电子取证数据,同时在治理过程中,通过统一的标准化库表配置,实现不同的原始库、主题库、资源库等自动化数据治理。

2、本专利技术采用如下技术方案:

3、第一方面,一种分布式多任务的电子取证数据治理系统,包括:

4、电子取证模块,用于采集不同来源及不同格式的来源数据包;

5、文件文件同步模块,包括同步服务filesync单元和fileserver服务单元;所述同步服务filesync单元用于通过配置方式对不同来源数据包进行汇聚扫描,并同步至fileserver服务单元进行统一存储管理;fileserver服务单元记录各来源数据包的存储坐标,对外提供统一的文件分布式存储和统一文件访问接口;

6、数据解析模块,用于监听同步服务filesync单元发送的数据包解析消息,基于数据包解析消息中的存储坐标,通过fileserver服务单元提供的统一文件访问对来源数据包进行访问并解析,获得统一的标准化格式数据;

7、数据中间处理模块,用于接收数据解析模块发送的标准化格式数据,存储至消息队列;

8、数据治理模块,用于获取来自数据中间处理模块的标准化格式数据,对数据进行统一的治理;数据治理服务包括原始库治理服务、主题库治理服务、资源库治理服务、业务库治理服务和知识库治理服务;

9、数据组织模块,用于基于治理后的数据,生成统一标准化的原始库、主题库、资源库、业务库和知识库。

10、优选的,通过配置方式对不同来源数据包进行汇聚扫描,并同步至fileserver服务单元进行统一存储管理,具体包括:

11、同步服务filesync单元通过xml任务配置方式对不同来源数据包进行汇聚扫描,xml任务配置包括数据包来源端<scan>扫描配置,用于扫描远端或者本地扫描获取来源数据,还包括通过<chain>责任链<command>配置数据包处理过程和目标存储端配置,实现对不同来源数据包统一汇聚扫描。

12、优选的,记录各来源数据包的存储坐标,对外提供统一的文件分布式存储和统一文件访问接口,具体包括:

13、fileserver服务单元通过存储类型、存储路径和存储节记录各来源数据包的实际存储坐标;其中,存储类型支持各种存储方式;fileserver服务单元对外屏蔽了内部的不同存储方式,通过对外提供sdk或者http方式实现对来源数据包的上传和下载提供统一的接口访问。

14、优选的,所述数据解析模块的解析过程,具体包括:

15、将解析拆分为bcp解析服务、xml解析服务、mfc解析服务和efp解析服务,分别对应格式的来源数据包进行处理。

16、优选的,将解析拆分为bcp解析服务、xml解析服务、mfc解析服务和efp解析服务,分别对应格式的来源数据包进行处理,具体包括:

17、对不同标准的来源数据包进行校验,判断是否符合各行业标准格式及是否缺少电子取证关键信息;对不同标准的来源数据包按照对应的来源的标准格式进行解析,获取对应行业的电子取证数据;对于关键数据归一化处理,确保数据类型的一致性存储;对不同标准的来源数据包进行统一的目标电子取证数据标准化映射,确保最终电子取证数据的一致性;标准化映射包括目标表级别和字段级别对标映射处理。

18、优选的,所述消息队列包括kafka消息队列;所述数据解析模块作为电子取证数据的生产者,不断往kafka消息队列发送数据。

19、优选的,获取来自数据中间处理模块的标准化格式数据,对数据进行统一的治理,具体包括:

20、消费来自数据中间处理模块的标准来源数据,对数据进行统一的映射、提取、关联、比对、标识和入库处理;其中,原始库治理服务、主题库治理服务、资源库治理服务、业务库治理服务和知识库治理服务作为不同的消费组,能够消费相同主题的数据。

21、优选的,所述电子取证模块、文件同步模块、数据解析模块、数据中间处理模块、数据治理模块和数据组运行在不同的机器节点上,并执行分布式多任务多线程的运行机制。

22、优选的,在多节点多任务运行机制下,每个任务执行流程为一个标准化执行流程,包括来源表数据接收、数据映射前处理、数据映射中处理、数据映射后处理和目标数据处理。

23、另一方面,一种分布式多任务的电子取证数据治理方法,包括:

24、采集不同来源及不同格式的来源数据包;

25、同步服务filesync通过配置方式对不同来源数据包进行汇聚扫描,并同步至fileserver服务进行统一存储管理;fileserver服务记录各来源数据包的存储坐标,对外提供统一的文件分布式存储和统一文件访问接口;

26、监听同步服务filesync发送的数据包解析消息,基于数据包解析消息中的存储坐标,通过fileserver服务提供的统一文件访问对来源数据包进行访问并解析,获得统一的标准化格式数据;

27、接收数据解析模块发送的标准化格式数据,存储至消息队列;

28、获取来自数据中间处理模块的标准化格式数据,对数据进行统一的治理;数据治理服务包括原始库治理服务、主题库治理服务、资源库治理服务、业务库治理服务和知识库治理服务;

29、基于治理后的数据,生成统一标准化的原始库、主题库、资源库、业务库和知识库。

30本文档来自技高网...

【技术保护点】

1.一种分布式多任务的电子取证数据治理系统,其特征在于,包括:

2.根据权利要求1所述的分布式多任务的电子取证数据治理系统,其特征在于,通过配置方式对不同来源数据包进行汇聚扫描,并同步至Fileserver服务单元进行统一存储管理,具体包括:

3.根据权利要求1所述的分布式多任务的电子取证数据治理系统,其特征在于,记录各来源数据包的存储坐标,对外提供统一的文件分布式存储和统一文件访问接口,具体包括:

4.根据权利要求1所述的分布式多任务的电子取证数据治理系统,其特征在于,所述数据解析模块的解析过程,具体包括:

5.根据权利要求4所述的分布式多任务的电子取证数据治理系统,其特征在于,将解析拆分为BCP解析服务、XML解析服务、MFC解析服务和EFP解析服务,分别对应格式的来源数据包进行处理,具体包括:

6.根据权利要求1所述的分布式多任务的电子取证数据治理系统,其特征在于,所述消息队列包括kafka消息队列;所述数据解析模块作为电子取证数据的生产者,不断往kafka消息队列发送数据。

7.根据权利要求1所述的分布式多任务的电子取证数据治理系统,其特征在于,获取来自数据中间处理模块的标准化格式数据,对数据进行统一的治理,具体包括:

8.根据权利要求1所述的分布式多任务的电子取证数据治理系统,其特征在于,所述电子取证模块、文件同步模块、数据解析模块、数据中间处理模块、数据治理模块和数据组运行在不同的机器节点上,并执行分布式多任务多线程的运行机制。

9.根据权利要求8所述的分布式多任务的电子取证数据治理系统,其特征在于,在多节点多任务运行机制下,每个任务执行流程为一个标准化执行流程,包括来源表数据接收、数据映射前处理、数据映射中处理、数据映射后处理和目标数据处理。

10.一种分布式多任务的电子取证数据治理方法,其特征在于,包括:

...

【技术特征摘要】

1.一种分布式多任务的电子取证数据治理系统,其特征在于,包括:

2.根据权利要求1所述的分布式多任务的电子取证数据治理系统,其特征在于,通过配置方式对不同来源数据包进行汇聚扫描,并同步至fileserver服务单元进行统一存储管理,具体包括:

3.根据权利要求1所述的分布式多任务的电子取证数据治理系统,其特征在于,记录各来源数据包的存储坐标,对外提供统一的文件分布式存储和统一文件访问接口,具体包括:

4.根据权利要求1所述的分布式多任务的电子取证数据治理系统,其特征在于,所述数据解析模块的解析过程,具体包括:

5.根据权利要求4所述的分布式多任务的电子取证数据治理系统,其特征在于,将解析拆分为bcp解析服务、xml解析服务、mfc解析服务和efp解析服务,分别对应格式的来源数据包进行处理,具体包括:

6.根据权利要求1所述的分布式多任务的电子取证数据治理系统...

【专利技术属性】
技术研发人员:吴金汉孙奕严世伟陈云
申请(专利权)人:厦门市美亚柏科信息安全研究所有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1