基于聚类技术的刑事犯罪案件关联串并方法及系统技术方案

技术编号:16080526 阅读:70 留言:0更新日期:2017-08-25 15:47
本发明专利技术公开了一种基于聚类技术的刑事犯罪案件关联串并方法,包括如下步骤:S1、获取与案件关联串并分析有关的高维度、异构数据类型的案件数据变量;S2、根据案件数据变量建立描述案件关联程度的相似度模型,根据相似度模型计算相似度矩阵;S3、利用图分解技术,将相似度矩阵转换成的一个图分解为若干连通子图;S4、对连通子图使用聚类算法进行图切割计算,将所有案件准确分组;S5、提取每个案件群组的关键特征参数,将关键特征参数根据优先级高低推送给用户。本发明专利技术不仅能处理源数据具有明确、唯一性特征的数据,也能处理仅具有可能性特征的数据,极大的提高了刑事犯罪案件关联串并的效率,并且准确性高。

【技术实现步骤摘要】
基于聚类技术的刑事犯罪案件关联串并方法及系统
本专利技术涉及侦查破案
,具体涉及一种基于聚类技术的刑事犯罪案件关联串并方法及系统。
技术介绍
对团伙型、系列性犯罪案件的串并关联分析是犯罪案件执法部门侦查破案工作的重要环节。通过分析、提取多个案件之间的共同点,连接关键信息,执法部门可以拓宽侦查视野;将系列案件并案侦查,能够显著减少执法成本,提高打击犯罪的深度和广度,增强整体工作效能。伴随整个社会的信息化发展,刑事犯罪执法机构建立了犯罪案件计算机管理系统,积累了大量犯罪案件数据。从案件并案分析的角度,每个犯罪案件包含很多特征要素,具有不同程度的确定性(可能性),主要有两类:第一种数据的内容具有明确、唯一性特征,例如身份证件号码、公司名称、税务登记号、银行账号、电话号码等。例如,假设一个犯罪嫌疑人的身份证件号码在两个犯罪案件中出现,那么可以确定这两个犯罪案件存在明确关联,进而发起并案侦查。第二种数据不具有唯一性特征,只能描述可能性(大小)。例如人的外在自然属性,包括身高、年龄等。例如对于两个犯罪案件,如果目击者分别描述的犯罪嫌疑人身高接近或相同,仅凭这个因素并不能确定是否有联系。但是本文档来自技高网...
基于聚类技术的刑事犯罪案件关联串并方法及系统

【技术保护点】
一种基于聚类技术的刑事犯罪案件关联串并方法,其特征在于,包括如下步骤:S1、获取与案件关联串并分析有关的高维度、异构数据类型的案件数据变量;S2、根据案件数据变量建立描述案件关联程度的相似度模型,根据相似度模型计算相似度矩阵;S3、利用图分解技术,将相似度矩阵转换成的一个图分解为若干连通子图;S4、对连通子图使用聚类算法进行图切割计算,将所有案件准确分组。

【技术特征摘要】
1.一种基于聚类技术的刑事犯罪案件关联串并方法,其特征在于,包括如下步骤:S1、获取与案件关联串并分析有关的高维度、异构数据类型的案件数据变量;S2、根据案件数据变量建立描述案件关联程度的相似度模型,根据相似度模型计算相似度矩阵;S3、利用图分解技术,将相似度矩阵转换成的一个图分解为若干连通子图;S4、对连通子图使用聚类算法进行图切割计算,将所有案件准确分组。2.根据权利要求1所述的基于聚类技术的刑事犯罪案件关联串并方法,其特征在于,所述基于聚类技术的刑事犯罪案件关联串并方法还包括:S5、提取每个案件群组的关键特征参数,将关键特征参数根据优先级高低推送给用户。3.根据权利要求2所述的基于聚类技术的刑事犯罪案件关联串并方法,其特征在于,步骤S1中,所述案件数据变量从刑事犯罪案件信息管理系统中抽取;案件数据变量的高维度包括嫌疑人身份证号码、手机号码、银行账号、作案手法、作案时间、作案天气、作案地域、作案工具、嫌疑人身高、嫌疑人年龄;案件数据变量的异构数据类型包括数值型、字符串型、树形结构的分层代码型。4.根据权利要求3所述的基于聚类技术的刑事犯罪案件关联串并方法,其特征在于,步骤S2中,建立相似度模型具体包括:S21、将案件数据变量分为唯一性变量和可能性变量;S22、定义唯一性变量的相似度模型:唯一性变量为字符串类型,将一个案件m的所有字符串构成一个集合Cm,案件m,n的相似度表示为Wa(m,n)=|Cm∩Cn|(1)S23、定义可能性变量的相似度模型:案件m,n的相似度,是多个数据变量的综合贡献,定义为Wb(m,n)=ΣiwiFi(m,n)(2)其中,wi为归一化权重,表示各数据变量对于整体相似度的贡献比例,∑iwi=1;Fi(m,n)表示案件m,n基于一个特定数据变量的相似度。5.根据权利要求4所述的基于聚类技术的刑事犯罪案件关联串并方法,其特征在于,步骤S23具体包括:将可能性变量分为数值型和树形结构的分层代码型;定义数值型可能性变量的相似度模型:犯罪嫌疑人的身高范围[ha,hb]、年龄范围[aa,ab],对于犯罪嫌疑人的身高和年龄变量,取平均值,即对案件m,n分别涉及的两个犯罪嫌疑人Pm,Pn,相似度表达式为其中,hm,hn为二人身高,am,an为年龄,σh,σa为控制参数,取经验值5cm,5岁;与两个发案时间tm,tn有关的相似度,即犯罪案件的时间相关性为σt为控制参数,根据案件类型选取;发案地点表示为几何坐标空间相关性表示为表示坐标点的几何距离,σd为控制参数;定义树形结构的分层代码型可能性变量的相似度模型:树形结构的分层代码型表示为一个树形结构,根节点表示代码名称,每下一层节点为对父节点的进一步细分,在树形结构中,从根节点Ro到任意一个节点Nk有唯一的一条路径,表示为Pk=RoNi1Nj2…Npq,Npq=Nk(7)Npq表示在第q层的某个节点,这条路径的长度为q,即节点Nk的高度H(Nk)=q,节点Nk与路径Pk等效,表示分层代码数据类型的一个唯一代码值,对于两个案件的两个代码值,对应代码树的两条路径Pi,Pj,如果从根节点开始,直到第k层,二者具有相同的节点,那么这两条路径,亦即两个代码的相似度定义为F4(Pi,Pj)=k/max(H(i),H(j))(8)所有的Fi,i=1-4满足归一化条件0≤Fi(a,b)≤1,值为1表示完全匹配,相似度最大;值为0表示最弱的关系,即完全无关。6.根据权利要求5所述的基于聚类技术的刑事犯罪案件关联串并...

【专利技术属性】
技术研发人员:谢晓川
申请(专利权)人:广州可度析信息科技有限公司
类型:发明
国别省市:广东,44

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1