【技术实现步骤摘要】
取证数据解析准确性的智能校验方法和系统
本专利技术涉及信息
,并且特别涉及一种取证数据解析准确性的智能校验方法和系统。
技术介绍
随着社会流动性以及个人交际圈的扩大,个体所拥有的身份信息量增加,再加上人与人之间的关联性进一步提高,以及存储技术和计算机网络通信技术的发展,计算机网络中每天产生的数据庞大而复杂,取证产生的数据也趋于庞大,由原先的几百上千到现在的百亿大关。数据量的迅猛增长导致取证分析领域的数据比对越发困难,再加上取证标准和取证格式的多样化,使得取证数据比对的难度增加,原先的手工检测基本上难以完成。此外,由于取证分析领域属于新的领域,市面上没有类似的工具和方法。因此,取证相关的检测人员只能不断重复地埋头比对数据,效率低、会造成视觉疲劳、容易出错且周期耗费过长,难以满足取证分析领域的产品和技术的快速更新迭代的需求。在目前的取证分析实践中,发现了以下三个现象:(一)以XML和BCP格式生成的取证数据包经过逐层数据清洗后,在各类取证分析平台中的展示呈现分散的状态,表与表之间并非一一对应,部分字段名称和值均经过转译,增加比对的困难。(二)取证数据量大,一个取证数据包中往往有数十甚至数百张表,而一个系统中又拥有数十甚至数百万的取证数据包,如何检测取证数据包在传输、解析以及清洗的过程中的数据正确性,采用人工比对明显很困难。(三)取证分析平台所对接的取证设备呈现多样化的趋势,不同生产厂商所采用的行业标准也不一致,不同取证设备所生成的取证数据包存在或多或少的差异。
技术实现思路
针对上述问题,本专利技术提出了一种取证数据解析准确性的智能校验方法和系统,实现了校验 ...
【技术保护点】
1.一种取证数据解析准确性的智能校验方法,其特征在于,包括:在数据库中建立原始数据与HTML数据的映射关系表,并配置该原始数据与入库数据的映射关系;从目标取证分析平台取得需要核对的所有原始数据包以建立文件集合,遍历该文件集合以取得第一个数据包的文件名,并根据该文件名拷贝对应的文件到本地目录;根据该文件名从该目标取证分析平台找到文件页面展示数据所对应的HTML数据结构,遍历该HTML数据结构以取得列表数据集合并以特定存储格式进行本地保存;解压缩该原始数据包以取得全部原始数据文件的集合,遍历该原始数据文件集合并通过IO流逐个读取并按属性与值对应的格式保存到本地;以及以特定存储格式对该原始数据文件集合进行转译和存储,从该原始数据文件集合取得第一个原始数据文件,根据配置关系找到对应的HTML数据文件,分别读取该原始数据文件和该HTML数据文件到该列表数据集合中,根据配置关系表找到对应字段的映射索引关系的集合并据以执行数据字符串的相同性比较。
【技术特征摘要】
1.一种取证数据解析准确性的智能校验方法,其特征在于,包括:在数据库中建立原始数据与HTML数据的映射关系表,并配置该原始数据与入库数据的映射关系;从目标取证分析平台取得需要核对的所有原始数据包以建立文件集合,遍历该文件集合以取得第一个数据包的文件名,并根据该文件名拷贝对应的文件到本地目录;根据该文件名从该目标取证分析平台找到文件页面展示数据所对应的HTML数据结构,遍历该HTML数据结构以取得列表数据集合并以特定存储格式进行本地保存;解压缩该原始数据包以取得全部原始数据文件的集合,遍历该原始数据文件集合并通过IO流逐个读取并按属性与值对应的格式保存到本地;以及以特定存储格式对该原始数据文件集合进行转译和存储,从该原始数据文件集合取得第一个原始数据文件,根据配置关系找到对应的HTML数据文件,分别读取该原始数据文件和该HTML数据文件到该列表数据集合中,根据配置关系表找到对应字段的映射索引关系的集合并据以执行数据字符串的相同性比较。2.根据权利要求1所述的方法,其特征在于,根据该文件名从该目标取证分析平台找到文件页面展示数据所对应的HTML数据结构,遍历该HTML数据结构以取得列表数据集合并以特定存储格式进行本地保存的步骤包括:取得该目标取证分析平台的HTML结构数据;以及遍历该HTML数据结构并逐层寻找展示数据,使用通用定位条件取得存放数据的表,遍历该存放数据的表以取得所有的该展示数据并进行分页保存。3.根据权利要求1所述的方法,其特征在于,以特定存储格式对该原始数据文件集合进行转译和存储,从该原始数据文件集合取得第一个原始数据文件,根据配置关系找到对应的HTML数据文件,分别读取该原始数据文件和该HTML数据文件到该列表数据集合中,根据配置关系表找到对应字段的映射索引关系的集合并据以执行数据字符串的相同性比较的步骤包括:遍历该原始数据文件和该HTML数据文件,根据该配置关系找到该原始数据文件对应的该HTML数据文件,根据该原始数据与界面数据的映射关系找到对应的映射字段并执行字符串的比较,而后将比较结果保存到该列表数据集合中。4.根据权利要求1所述的方法,其特征在于,以特定存储格式对该原始数据文件集合进行转译和存储,从该原始数据文件集合取得第一个原始数据文件,根据配置关系找到对应的HTML数据文件,分别读取该原始数据文件和该HTML数据文件到该列表数据集合中,根据配置关系表找到对应字段的映射索引关系的集合并据以执行数据字符串的相同性比较的步骤还包括:若比较结果中出现不相同的情况,保存失败信息到该列表数据集合,当遍历完该原始数据文件的该列表数据集合时保存该失败信息到该本地文件。5.根据权利要求1所述的方法,其特征在于,其中该映射关系表包括原始表名、原始字段映射后的界面所呈现的表名、字段、以及是否需要转换至少其中之一。6.一种取证数据解析准确性的智能校验系统,包...
【专利技术属性】
技术研发人员:陈碧秀,吴高峰,江汉祥,施剑朕,吴神培,连洲红,
申请(专利权)人:厦门市美亚柏科信息股份有限公司,
类型:发明
国别省市:福建,35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。