The application of the invention and a system for the classification of electronic evidence extraction method, classification technology relates to the field of computer information processing, the invention memory distributed data sets based on RDD electronic evidence on the extraction of clustering, clustering of electronic data according to electronic evidence sources and types for classification and indexing, the electronic evidence classifier for electronic data capture cluster. After fuzzy fusion recognition, classification of electronic evidence; document layer processing module, the target data document processing, is the layer module relevant description of the target data, automatically generate descriptive sentences. The invention can in a variety of data sources, data quickly and accurately extract the electronic evidence associated, and were associated with the case, investigators and investigators can facilitate the rapid and accurate access to electronic evidence need.
【技术实现步骤摘要】
一种电子证据分类提取方法及系统
本专利技术涉及计算机信息处理
,具体是一种电子证据的提取和保全方法。
技术介绍
随着电子信息技术的发展,电子数据已经渗透到人们工作生活的方方面面,每天数以十亿计的人使用电脑、手机等电子设备进行即时交流,收发电子邮件、存储、管理、更新数据信息,使得电子数据成为当今工作生活中不可或缺的组成部分,与此同时,电子数据对刑事犯罪也产生了深远的影响,不少犯罪分子直接利用电子信息技术实施犯罪,利用电子邮件诈骗,利用因特网散布色情照片,利用病毒进行网络攻击。电子数据在刑事犯罪中的广泛渗透给侦查活动提出了巨大的挑战。电子证据是基于计算机应用、通信和现代管理技术等电子化技术手段形成包括文字、图形符号、数字、字母等的客观资料,包括电子邮件、电子数据交换、网上聊天记录、博客、手机短信、电子签名、域名等电子信息。当今世界已步入信息化社会,计算机技术与互联网、智能手机已经深入到生活的方方面面。电子数据证据作为揭露犯罪事实的证据形式,在查办案件过程中就显得更加重要,掌握电子数据收集与固定的方法,对提高办案能力具有重要意义。自2016年10月1日起施行的最高人民法院最高人民检察院公安部印发《关于办理刑事案件收集提取和审查判断电子数据若干问题的规定》中,对电子证据及电子证据的提取保存等作了相关规定,明确了电子证据所包含的类别等,在大数据时代要从海量的电子数据中提取与案件和犯罪嫌疑人相关联的证据犹如大海捞针。并且由于电子证据的特殊性,必须保证提取的电子证据是客观真实的,能证明事实,才能对案件的侦破起到作用,才能在法庭上作为证据使用。随着计算机犯罪数字不断 ...
【技术保护点】
一种电子证据分类提取方法,其特征在于,包括步骤,电子证据获取模块调用RDD序列化存储函数读取电子数据,对电子数据进行归一化处理获得标称电子数据集构成测试集;分类训练模块将训练集中的样本数据转化为样本特征和标签,该样本集中的所有样本数据获得标签,将获得标签的样本数据输入基分类器进行训练,获得电子证据分类器;将测试集中的电子数据输入电子证据分类器进行聚类,为测试集中每个电子数据寻找对应的标签,并分配到与其标签对应的RDD分区中,对每个RDD分区进行簇排序,得到不同层次结构上的簇号,合并分区,为每个分区保存一个标签,排除电子数据中的噪声信息,输出聚类结果;模糊融合识别模块对经过聚类到各RDD分区的电子数据进行模糊识别,获得分类电子证据;文档层处理模块从RDD各分区中拷贝分类电子证据形成目标数据,对目标数据进行文档化处理,送入呈述层模块,呈述层模块对目标数据进行相关描述,自动生成描述型句子。
【技术特征摘要】
1.一种电子证据分类提取方法,其特征在于,包括步骤,电子证据获取模块调用RDD序列化存储函数读取电子数据,对电子数据进行归一化处理获得标称电子数据集构成测试集;分类训练模块将训练集中的样本数据转化为样本特征和标签,该样本集中的所有样本数据获得标签,将获得标签的样本数据输入基分类器进行训练,获得电子证据分类器;将测试集中的电子数据输入电子证据分类器进行聚类,为测试集中每个电子数据寻找对应的标签,并分配到与其标签对应的RDD分区中,对每个RDD分区进行簇排序,得到不同层次结构上的簇号,合并分区,为每个分区保存一个标签,排除电子数据中的噪声信息,输出聚类结果;模糊融合识别模块对经过聚类到各RDD分区的电子数据进行模糊识别,获得分类电子证据;文档层处理模块从RDD各分区中拷贝分类电子证据形成目标数据,对目标数据进行文档化处理,送入呈述层模块,呈述层模块对目标数据进行相关描述,自动生成描述型句子。2.根据权利要求1所述的方法,其特征在于,所述将预测集中电子数据分配到对应的RDD分区分区中具体包括,将标称电子数据集通过map键值对函数转化为对应的键值对的形式,根据键值对将标称数据集分配到一系列的RDD分区中。3.根据权利要求1所述的方法,其特征在于,所述对每个RDD分区进行簇排序进一步具体包括:选择一个电子数据样本点放入全局邻居数组,在全局邻居数组中选择第一个对象p进行扩张,判断对象p是否为核心点,如果p不是核心点,从全局邻居数组中删除p;如果p是核心点,对核心点p的邻域内任一未处理的邻居点q计算欧式距离,如果q已在全局邻居数组中且从p到q的可达距离小于此时q的欧式距离,更新q的可达距离为q的欧式距离,并根据更新的可达距离,调整q到全局邻居数组中的相应位置;如果q不在全局邻居数组中,则根据p到q的可达距离将其插入有序队列中,直到核心点p的所有邻居点都插入队列,获得所有核心点的队列即为分区的簇排序。4.根据权利要求1所述的方法,其特征在于,所述所有电子证据获得标签进一步包括:将训练集中的样本数据转化为样本特征和标签(1,featuress,labels)的形式,采用广播变量的形式将样本特征和标签进行分离,对特征进行广播变量,将特征和标签(1,featuress,labels)转化为特征(1,featuress),标签(1,1,label1),(1,2,label2),(1,3,label3),……(1,n*(n+1)/2,labeln*(n+1)/2),转化获得的标签分配到n*(n+1)/2个RDD分区分区中,为每个分区保存一个标签。5.根据权利要求1所述的方法,其特征在于,所述模糊识别具体包括,模糊融合识别模块将电子数据对比度值域区间非线性划分,提取特征,利用模糊隶属函数获取待分类电子证据样本特征隶属于各类别的卡方距离,对卡方距离内的各特征进行权重融合,获得分类结果。6.根据权利要求2所述的方法,其特征在于,根据任意RDD分区的前边界数据样本和广播变量的后边界点获得键值对map,根据map的方向向前合并簇号,所有RDD分区中的标称数据样本点都根据键值对Map合并簇号,并输出所有标称电子数据对应的簇号,合并的簇号加入map中。7.根据权利要求1所述的方法,其特征在于,呈述层模块根据特征信息进行完整性检查,获取完整性程度高的电子证据,根据经过完整性检查的特征信息生成固定长度的特征向量,利用投影矩阵将特征向量对应描述句子中的词...
【专利技术属性】
技术研发人员:高敏,江圣航,熊志海,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:重庆,50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。