取证数据解析准确性的智能校验方法和系统技术方案

技术编号:19122205 阅读:26 留言:0更新日期:2018-10-10 05:15
本发明专利技术公开了一种取证数据解析准确性的智能校验方法,该方法通过遍历并提取行业标准中的所有字段信息,并以一定的规则整合到文件中,从而实现了校验技术的智能化,大大节约了人力资源成本、提高了校验效率,同时能有效地避免因为人工干预所造成的一些主观因素和视觉疲劳所导致的失误,改善了数据的可靠性。本发明专利技术还公开了一种取证数据解析准确性的智能校验系统,可实现前述的取证数据解析准确性的智能校验方法。

【技术实现步骤摘要】
取证数据解析准确性的智能校验方法和系统
本专利技术涉及信息
,并且特别涉及一种取证数据解析准确性的智能校验方法和系统。
技术介绍
随着社会流动性以及个人交际圈的扩大,个体所拥有的身份信息量增加,再加上人与人之间的关联性进一步提高,以及存储技术和计算机网络通信技术的发展,计算机网络中每天产生的数据庞大而复杂,取证产生的数据也趋于庞大,由原先的几百上千到现在的百亿大关。数据量的迅猛增长导致取证分析领域的数据比对越发困难,再加上取证标准和取证格式的多样化,使得取证数据比对的难度增加,原先的手工检测基本上难以完成。此外,由于取证分析领域属于新的领域,市面上没有类似的工具和方法。因此,取证相关的检测人员只能不断重复地埋头比对数据,效率低、会造成视觉疲劳、容易出错且周期耗费过长,难以满足取证分析领域的产品和技术的快速更新迭代的需求。在目前的取证分析实践中,发现了以下三个现象:(一)以XML和BCP格式生成的取证数据包经过逐层数据清洗后,在各类取证分析平台中的展示呈现分散的状态,表与表之间并非一一对应,部分字段名称和值均经过转译,增加比对的困难。(二)取证数据量大,一个取证数据包中往往有数十甚至数百张表,而一个系统中又拥有数十甚至数百万的取证数据包,如何检测取证数据包在传输、解析以及清洗的过程中的数据正确性,采用人工比对明显很困难。(三)取证分析平台所对接的取证设备呈现多样化的趋势,不同生产厂商所采用的行业标准也不一致,不同取证设备所生成的取证数据包存在或多或少的差异。
技术实现思路
针对上述问题,本专利技术提出了一种取证数据解析准确性的智能校验方法和系统,实现了校验技术的智能化,大大节约了人力资源成本、提高了校验效率,同时能有效地避免因为人工干预所造成的一些主观因素和视觉疲劳所导致的失误,改善了数据的可靠性。在一个方面,提出了一种取证数据解析准确性的智能校验方法,其包括:在数据库中建立原始数据与HTML数据的映射关系表,并配置该原始数据与入库数据的映射关系;从目标取证分析平台取得需要核对的所有原始数据包以建立文件集合,遍历该文件集合以取得第一个数据包的文件名,并根据该文件名拷贝对应的文件到本地目录;根据该文件名从该目标取证分析平台找到文件页面展示数据所对应的HTML数据结构,遍历该HTML数据结构以取得列表数据集合并以特定存储格式进行本地保存;解压缩该原始数据包以取得全部原始数据文件集合,遍历该原始数据文件集合并通过IO流逐个读取并按属性与值对应的格式保存到本地;以及以特定存储格式对该原始数据文件集合进行转译和存储,从该原始数据文件集合中获取第一个原始数据文件,根据配置关系找到对应的HTML数据文件,分别读取该原始数据文件和该HTML数据文件到该列表数据集合中,根据配置关系表找到对应字段的映射索引关系的集合并据以执行数据字符串的相同性比较。在一些具体实施例中,取得该目标取证分析平台的HTML结构数据,以及遍历该HTML数据结构并逐层寻找展示数据,使用通用定位条件取得存放数据的表,遍历该存放数据的表以取得所有的该展示数据并进行分页保存。在一些具体实施例中,遍历该原始数据文件和该HTML数据文件,根据该配置关系找到该原始数据文件对应的该HTML数据文件,根据该原始数据与界面数据的映射关系找到对应的映射字段并执行字符串的比较,而后将比较结果保存到该列表数据集合中。在一些具体实施例中,若比较结果中出现不相同的情况,保存失败信息到该列表数据集合,当遍历完该原始数据文件的该列表数据集合时保存该失败信息到该本地文件。在一些具体实施例中,该映射关系表包括原始表名、原始字段映射后的界面所呈现的表名、字段、以及是否需要转换至少其中之一。在另一个方面,提出了一种取证数据解析准确性的智能校验系统,其包括处理器和存储器,该存储器中存储有取证数据解析准确性的智能校验单元。该取证数据解析准确性的智能校验单元用于:该取证数据解析准确性的智能校验单元用于:在数据库中建立原始数据与HTML数据的映射关系表,并配置该原始数据与入库数据的映射关系;从目标取证分析平台取得需要核对的所有原始数据包以建立文件集合,遍历该文件集合以取得第一个数据包的文件名,并根据该文件名拷贝对应的文件到本地目录;根据该文件名从该目标取证分析平台找到文件页面展示数据所对应的HTML数据结构,遍历该HTML数据结构以取得列表数据集合并以特定存储格式进行本地保存;解压缩该原始数据包以取得全部原始数据文件的集合,遍历该原始数据文件集合并通过IO流逐个读取并按属性与值对应的格式保存到本地;以及以特定存储格式对该原始数据文件集合进行转译和存储,从该原始数据文件集合取得第一个原始数据文件,根据配置关系找到对应的HTML数据文件,分别读取该原始数据文件和该HTML数据文件到该列表数据集合中,根据配置关系表找到对应字段的映射索引关系的集合并据以执行数据字符串的相同性比较。本专利技术通过遍历并提取行业标准中的所有字段信息,并以一定的规则整合到文件中,从而实现了校验技术的智能化,大大节约了人力资源成本、提高了校验效率,同时能有效地避免因为人工干预所造成的一些主观因素和视觉疲劳所导致的失误,改善了数据的可靠性。附图说明包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本专利技术的原理。将容易认识到其它实施例和实施例的很多预期优点,因为通过引用以下详细描述,它们变得被更好地理解。附图的元件不一定是相互按照比例的。同样的附图标记指代对应的类似部件。图1是根据本专利技术的一个实施例的取证数据解析准确性的智能校验方法的流程图;以及图2是根据本专利技术的一个实施例的取证数据解析准确性的智能校验系统的示意图。具体实施方式在以下详细描述中,参考附图,该附图形成详细描述的一部分,并且通过其中可实践本专利技术的说明性具体实施例来示出。应当理解的是,可以利用其他实施例或可以做出逻辑改变,而不背离本专利技术的范围。因此以下详细描述不应当在限制的意义上被采用,并且本专利技术的范围由所附权利要求来限定。图1示出了根据本专利技术的一个实施例的取证数据解析准确性的智能校验方法的流程图。在一实施例中,该手机取证分析方法由图2所示的取证数据解析准确性的智能校验系统100实现。如图1所示,该手机取证方法包括以下步骤:S10:在数据库中建立原始数据与HTML数据的映射关系表,并配置该原始数据与入库数据的映射关系。在一实施例中,该映射关系表包括原始表名、原始字段映射后的界面所呈现的表名、字段及/或是否需要转换。S20:从目标取证分析平台取得需要核对的所有原始数据包以建立文件集合,遍历该文件集合以取得第一个数据包的文件名,并根据该文件名拷贝对应的文件到本地目录。例如从目标取证分析平台200(见图2)取得入库成功的原始数据包,将解析成功的数据包存储在特定目录,通过读取该特定目录取得文件集合{z1,z2,…,zN},遍历该集合以取得第一个数据包z1(图未示)的文件名(以同样的方式,可取得第N个数据包zN的文件名),并根据该文件名拷贝对应的文件到本地目录。重复以上步骤,可将所有原始数据包保存到本地目录。S30:根据该文件名从该目标取证分析平台找到文件页面展示数据所对应的HTML数据结构,遍历该HTM本文档来自技高网...
取证数据解析准确性的智能校验方法和系统

【技术保护点】
1.一种取证数据解析准确性的智能校验方法,其特征在于,包括:在数据库中建立原始数据与HTML数据的映射关系表,并配置该原始数据与入库数据的映射关系;从目标取证分析平台取得需要核对的所有原始数据包以建立文件集合,遍历该文件集合以取得第一个数据包的文件名,并根据该文件名拷贝对应的文件到本地目录;根据该文件名从该目标取证分析平台找到文件页面展示数据所对应的HTML数据结构,遍历该HTML数据结构以取得列表数据集合并以特定存储格式进行本地保存;解压缩该原始数据包以取得全部原始数据文件的集合,遍历该原始数据文件集合并通过IO流逐个读取并按属性与值对应的格式保存到本地;以及以特定存储格式对该原始数据文件集合进行转译和存储,从该原始数据文件集合取得第一个原始数据文件,根据配置关系找到对应的HTML数据文件,分别读取该原始数据文件和该HTML数据文件到该列表数据集合中,根据配置关系表找到对应字段的映射索引关系的集合并据以执行数据字符串的相同性比较。

【技术特征摘要】
1.一种取证数据解析准确性的智能校验方法,其特征在于,包括:在数据库中建立原始数据与HTML数据的映射关系表,并配置该原始数据与入库数据的映射关系;从目标取证分析平台取得需要核对的所有原始数据包以建立文件集合,遍历该文件集合以取得第一个数据包的文件名,并根据该文件名拷贝对应的文件到本地目录;根据该文件名从该目标取证分析平台找到文件页面展示数据所对应的HTML数据结构,遍历该HTML数据结构以取得列表数据集合并以特定存储格式进行本地保存;解压缩该原始数据包以取得全部原始数据文件的集合,遍历该原始数据文件集合并通过IO流逐个读取并按属性与值对应的格式保存到本地;以及以特定存储格式对该原始数据文件集合进行转译和存储,从该原始数据文件集合取得第一个原始数据文件,根据配置关系找到对应的HTML数据文件,分别读取该原始数据文件和该HTML数据文件到该列表数据集合中,根据配置关系表找到对应字段的映射索引关系的集合并据以执行数据字符串的相同性比较。2.根据权利要求1所述的方法,其特征在于,根据该文件名从该目标取证分析平台找到文件页面展示数据所对应的HTML数据结构,遍历该HTML数据结构以取得列表数据集合并以特定存储格式进行本地保存的步骤包括:取得该目标取证分析平台的HTML结构数据;以及遍历该HTML数据结构并逐层寻找展示数据,使用通用定位条件取得存放数据的表,遍历该存放数据的表以取得所有的该展示数据并进行分页保存。3.根据权利要求1所述的方法,其特征在于,以特定存储格式对该原始数据文件集合进行转译和存储,从该原始数据文件集合取得第一个原始数据文件,根据配置关系找到对应的HTML数据文件,分别读取该原始数据文件和该HTML数据文件到该列表数据集合中,根据配置关系表找到对应字段的映射索引关系的集合并据以执行数据字符串的相同性比较的步骤包括:遍历该原始数据文件和该HTML数据文件,根据该配置关系找到该原始数据文件对应的该HTML数据文件,根据该原始数据与界面数据的映射关系找到对应的映射字段并执行字符串的比较,而后将比较结果保存到该列表数据集合中。4.根据权利要求1所述的方法,其特征在于,以特定存储格式对该原始数据文件集合进行转译和存储,从该原始数据文件集合取得第一个原始数据文件,根据配置关系找到对应的HTML数据文件,分别读取该原始数据文件和该HTML数据文件到该列表数据集合中,根据配置关系表找到对应字段的映射索引关系的集合并据以执行数据字符串的相同性比较的步骤还包括:若比较结果中出现不相同的情况,保存失败信息到该列表数据集合,当遍历完该原始数据文件的该列表数据集合时保存该失败信息到该本地文件。5.根据权利要求1所述的方法,其特征在于,其中该映射关系表包括原始表名、原始字段映射后的界面所呈现的表名、字段、以及是否需要转换至少其中之一。6.一种取证数据解析准确性的智能校验系统,包...

【专利技术属性】
技术研发人员:陈碧秀吴高峰江汉祥施剑朕吴神培连洲红
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1