一种电子证据分类提取方法及系统技术方案

技术编号:15330507 阅读:218 留言:0更新日期:2017-05-16 13:57
本发明专利技术申请一种电子证据分类提取方法及系统,涉及计算机信息处理分类技术领域,本发明专利技术基于内存分布式数据集RDD对提取的电子证据进行聚类处理,对聚类电子数据根据电子证据来源及类型进行分类并标引,电子证据分类器对获取的电子数据聚类,在经过模糊融合识别,获得分类电子证据;文档层处理模块,对目标数据进行文档化处理,呈述层模块对目标数据进行相关描述,自动生成描述型句子。本发明专利技术能够在多种数据来源,海量数据中快速准确提取出相关联的电子证据,并与案件进行关联,方便取证人员及办案人员能够快速准确的获取需要的相关电子证据。

Electronic evidence classified extraction method and system

The application of the invention and a system for the classification of electronic evidence extraction method, classification technology relates to the field of computer information processing, the invention memory distributed data sets based on RDD electronic evidence on the extraction of clustering, clustering of electronic data according to electronic evidence sources and types for classification and indexing, the electronic evidence classifier for electronic data capture cluster. After fuzzy fusion recognition, classification of electronic evidence; document layer processing module, the target data document processing, is the layer module relevant description of the target data, automatically generate descriptive sentences. The invention can in a variety of data sources, data quickly and accurately extract the electronic evidence associated, and were associated with the case, investigators and investigators can facilitate the rapid and accurate access to electronic evidence need.

【技术实现步骤摘要】
一种电子证据分类提取方法及系统
本专利技术涉及计算机信息处理
,具体是一种电子证据的提取和保全方法。
技术介绍
随着电子信息技术的发展,电子数据已经渗透到人们工作生活的方方面面,每天数以十亿计的人使用电脑、手机等电子设备进行即时交流,收发电子邮件、存储、管理、更新数据信息,使得电子数据成为当今工作生活中不可或缺的组成部分,与此同时,电子数据对刑事犯罪也产生了深远的影响,不少犯罪分子直接利用电子信息技术实施犯罪,利用电子邮件诈骗,利用因特网散布色情照片,利用病毒进行网络攻击。电子数据在刑事犯罪中的广泛渗透给侦查活动提出了巨大的挑战。电子证据是基于计算机应用、通信和现代管理技术等电子化技术手段形成包括文字、图形符号、数字、字母等的客观资料,包括电子邮件、电子数据交换、网上聊天记录、博客、手机短信、电子签名、域名等电子信息。当今世界已步入信息化社会,计算机技术与互联网、智能手机已经深入到生活的方方面面。电子数据证据作为揭露犯罪事实的证据形式,在查办案件过程中就显得更加重要,掌握电子数据收集与固定的方法,对提高办案能力具有重要意义。自2016年10月1日起施行的最高人民法院最高人民检察院公安部印发《关于办理刑事案件收集提取和审查判断电子数据若干问题的规定》中,对电子证据及电子证据的提取保存等作了相关规定,明确了电子证据所包含的类别等,在大数据时代要从海量的电子数据中提取与案件和犯罪嫌疑人相关联的证据犹如大海捞针。并且由于电子证据的特殊性,必须保证提取的电子证据是客观真实的,能证明事实,才能对案件的侦破起到作用,才能在法庭上作为证据使用。随着计算机犯罪数字不断上升和犯罪手段的数字化,搜集电子证据的工作成为提供重要线索及破案的关键。恢复已被破坏的计算机数据及提供相关的电子资料证据就是电子取证。为确保电子证据的原始性、真实性、合法性,在电子证据的收集时应采用专业的数据复制备份设备将电子证据文件复制备份。电子证据的认证也就是审查电子证据是否符合电子证据认定的相关性、真实性、合法性等标准。在审查电子证据真实性过程中,首先必须严格审查电子证据的来源。在证据采信过程中,主要体现在如下几个方面:第一,证据的来源必须是客观存在的,第二,确定证据来源的真实可靠性,根据电子证据形成的时间、地点等情况,明确电子证据所反映的是否真实可靠。结合电子证据本身的技术含量及加密条件、加密方法,判断电子证据是否真实、有无剪裁、拼凑、伪造、篡改等。由于电子证据容易被篡改,破坏和伪造而不易留痕,电子证据依附的计算机系统容易受到攻击、篡改且不易发觉,也使电子证据面临着被诉讼的问题,电子证据的完整性也变成了当前法庭,侦查机关和被告极为关注的重要的问题。但电子证据完整性涉及到从电子证据源的固定、证据提取、分析推理、报告的生成中的每个方面,是一个复杂的技术过程。用户在使用计算机设备以及在网络中传输的过程中往往会留下使用痕迹,这些使用痕迹通常作为存储在设备中的一部分数据源被保存下来。在特定情况下,这些用户的使用痕迹将被提取和分析,甚至可能会成为案件中具有重大意义的数字证据。在数字取证过程中,鉴定专家将根据案件的鉴定需求来制定取证策略,作为选用恰当数字取证技术和取证工具的判断依据,从而对待取证设备进行数据获取与取证分析。针对互联网中的有必要成为电子证据(司法证据)的电子数据,如电子交易的关键信息、文本、图片、音视频、电子邮件、网页内容、聊天过程等,形成了真实的、唯一的、完整的数据链条,满足了作为司法证据的客观性、关联性、合法性的要求。专利技术专利“基于社交平台的电子证据处理系统及处理方法”公开了一种基于社交平台的电子证据处理系统,包括取证服务器、数字签名模块、证据存储模块、出证模块。取证服务器接收社交平台服务器转发来的源自社交平台客户端产生的取证请求,并根据该取证请求采集相应的数据同时生成记录文件;数字签名模块对记录文件进行数字签名、时间戳签名形成证据;证据存储模块对经过数字签名模块签名的证据进行存储;出证模块对证据存储模块中经过签名的证据进行完整性验证,根据通过验证的证据所记录的内容出具相应的报告;取证服务器、数字签名模块以及出证模块均处于具备公信力的第三方监控环境下。该系统实现了数据的取证、存储及出证的全过程见证,可以对所取的网络数据的真实性进行还原,增加所取证数据的证据效力。申请号为201610315054.6的专利技术专利申请一种电子文件基因提取系统,提供一种电子文件基因提取系统,包括:防火墙、时频服务器、交换机和服务器,所述服务器通过交换机分别连接时频服务器和防火墙,在电子文件形成过程中或形成时,提取电子文件关键信息,通过哈希算法将文件关键信息配合第三方时效脉冲加密成一段唯一不可逆密码;所述服务器包括依次串联的电子保全系统服务器、签名验证服务器和安全认证网关,所述电子保全系统服务器通过计算机接口连接交换机。该系统可为司法鉴定单位的电子证据指纹校对提供原始素材,可确保电子数据的原始性和客观性。现有技术的电子证据验证保全方法的基本原理是利用单向散列函数(Hash函数)对发送信息进行运算,生成一串固定长度的数字摘要。将生成的数字摘要与源文件进行对比,验证该数据是否被篡改。数字摘要用来判断数据有没有被窜改,从而保证了信息的完整性不被破坏。上述现有技术只是在取证过程中对电子数据进行完整性检查,真假时间戳和数字签名,以解决提取证据的真实性问题。但随着计算信息技术的发展,大数据时代的到来,海量的电子数据存放在犯罪工具设备中、云平台或者在网络上传播,要从海量的数据中提取出与案件相关联的电子证据,能够满足对证据关联性的要求,并且在相关证据中对证据进行分类,在对相关事实进行证明时方便提取,并进行分类保全,以方便取证专家及相关人员能够快速准确获取完整有效的电子证据,加强证明力。
技术实现思路
本专利技术所要解决的技术问题是,针对现有技术电子证据提取过程中缺乏对证据类型进行分类识别,难以在海量数据中快速准确提取出相关联的电子证据,以及没有对电子证据进行相关分类等问题,本专利技术提出一种电子证据分类提取方法。本专利技术解决上述技术问题的技术方案是,提出一种电子证据分类提取方法,包括步骤:电子证据获取模块调用RDD序列化存储函数读取电子数据,对电子数据进行归一化处理获得标称电子数据集构成测试集;为每个分区保存一个标签,分类训练模块将训练集中的样本数据转化为样本特征和标签,该样本集中的所有样本数据获得标签,将获得标签的样本数据输入基分类器进行训练,获得电子证据分类器;将测试集中的电子数据输入电子证据分类器中进行预测,为测试集中每个电子数据寻找对应的标签,并分配到与其标签对应的RDD分区中,对每个RDD分区进行簇排序,得到不同层次结构上的簇号,合并分区,排除电子数据中的噪声信息,输出聚类的结果;模糊融合识别模块对经过聚类到各RDD分区的电子数据进行模糊识别,获得分类电子证据;文档层处理模块从RDD各分区中拷贝分类电子证据形成目标数据,对目标数据进行文档化处理,送入呈述层模块,呈述层模块对目标数据进行相关描述,自动生成描述型句子。本专利技术的优选实施例进一步包括,所述将预测集中电子数据分配到对应的RDD分区分区中具体包括,将标称电子数据集通过map键值对函数转化为对应的键值对的形式,根据键值对将本文档来自技高网
...
一种电子证据分类提取方法及系统

【技术保护点】
一种电子证据分类提取方法,其特征在于,包括步骤,电子证据获取模块调用RDD序列化存储函数读取电子数据,对电子数据进行归一化处理获得标称电子数据集构成测试集;分类训练模块将训练集中的样本数据转化为样本特征和标签,该样本集中的所有样本数据获得标签,将获得标签的样本数据输入基分类器进行训练,获得电子证据分类器;将测试集中的电子数据输入电子证据分类器进行聚类,为测试集中每个电子数据寻找对应的标签,并分配到与其标签对应的RDD分区中,对每个RDD分区进行簇排序,得到不同层次结构上的簇号,合并分区,为每个分区保存一个标签,排除电子数据中的噪声信息,输出聚类结果;模糊融合识别模块对经过聚类到各RDD分区的电子数据进行模糊识别,获得分类电子证据;文档层处理模块从RDD各分区中拷贝分类电子证据形成目标数据,对目标数据进行文档化处理,送入呈述层模块,呈述层模块对目标数据进行相关描述,自动生成描述型句子。

【技术特征摘要】
1.一种电子证据分类提取方法,其特征在于,包括步骤,电子证据获取模块调用RDD序列化存储函数读取电子数据,对电子数据进行归一化处理获得标称电子数据集构成测试集;分类训练模块将训练集中的样本数据转化为样本特征和标签,该样本集中的所有样本数据获得标签,将获得标签的样本数据输入基分类器进行训练,获得电子证据分类器;将测试集中的电子数据输入电子证据分类器进行聚类,为测试集中每个电子数据寻找对应的标签,并分配到与其标签对应的RDD分区中,对每个RDD分区进行簇排序,得到不同层次结构上的簇号,合并分区,为每个分区保存一个标签,排除电子数据中的噪声信息,输出聚类结果;模糊融合识别模块对经过聚类到各RDD分区的电子数据进行模糊识别,获得分类电子证据;文档层处理模块从RDD各分区中拷贝分类电子证据形成目标数据,对目标数据进行文档化处理,送入呈述层模块,呈述层模块对目标数据进行相关描述,自动生成描述型句子。2.根据权利要求1所述的方法,其特征在于,所述将预测集中电子数据分配到对应的RDD分区分区中具体包括,将标称电子数据集通过map键值对函数转化为对应的键值对的形式,根据键值对将标称数据集分配到一系列的RDD分区中。3.根据权利要求1所述的方法,其特征在于,所述对每个RDD分区进行簇排序进一步具体包括:选择一个电子数据样本点放入全局邻居数组,在全局邻居数组中选择第一个对象p进行扩张,判断对象p是否为核心点,如果p不是核心点,从全局邻居数组中删除p;如果p是核心点,对核心点p的邻域内任一未处理的邻居点q计算欧式距离,如果q已在全局邻居数组中且从p到q的可达距离小于此时q的欧式距离,更新q的可达距离为q的欧式距离,并根据更新的可达距离,调整q到全局邻居数组中的相应位置;如果q不在全局邻居数组中,则根据p到q的可达距离将其插入有序队列中,直到核心点p的所有邻居点都插入队列,获得所有核心点的队列即为分区的簇排序。4.根据权利要求1所述的方法,其特征在于,所述所有电子证据获得标签进一步包括:将训练集中的样本数据转化为样本特征和标签(1,featuress,labels)的形式,采用广播变量的形式将样本特征和标签进行分离,对特征进行广播变量,将特征和标签(1,featuress,labels)转化为特征(1,featuress),标签(1,1,label1),(1,2,label2),(1,3,label3),……(1,n*(n+1)/2,labeln*(n+1)/2),转化获得的标签分配到n*(n+1)/2个RDD分区分区中,为每个分区保存一个标签。5.根据权利要求1所述的方法,其特征在于,所述模糊识别具体包括,模糊融合识别模块将电子数据对比度值域区间非线性划分,提取特征,利用模糊隶属函数获取待分类电子证据样本特征隶属于各类别的卡方距离,对卡方距离内的各特征进行权重融合,获得分类结果。6.根据权利要求2所述的方法,其特征在于,根据任意RDD分区的前边界数据样本和广播变量的后边界点获得键值对map,根据map的方向向前合并簇号,所有RDD分区中的标称数据样本点都根据键值对Map合并簇号,并输出所有标称电子数据对应的簇号,合并的簇号加入map中。7.根据权利要求1所述的方法,其特征在于,呈述层模块根据特征信息进行完整性检查,获取完整性程度高的电子证据,根据经过完整性检查的特征信息生成固定长度的特征向量,利用投影矩阵将特征向量对应描述句子中的词...

【专利技术属性】
技术研发人员:高敏江圣航熊志海
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1