一种基于聚类分析的串并案方法技术

技术编号:37135582 阅读:22 留言:0更新日期:2023-04-06 21:34
本发明专利技术公开了一种基于聚类分析的串并案方法,包括以下步骤:S1、构建案件词汇库;S2、构建案件语料库;S3、基于案件语料库提取案件特征;S4、案件特征进行聚类;S5、案件串并结果推荐。本发明专利技术使用无监督分析方法,对案件信息进行特征信息提取,通过特征信息进行智能串并,将相似案件中并到一起,实现海量案件的快速串并分析,从而替换了原有的手工串并方式,提升案件串并效率与质量,解决了人工方式需要大量的重复性工作。的重复性工作。的重复性工作。

【技术实现步骤摘要】
一种基于聚类分析的串并案方法


[0001]本专利技术涉及案件串并分析
,具体涉及一种基于聚类分析的串并案方法。

技术介绍

[0002]当前,刑事犯罪斗争的形势十分严峻,刑事案件发案不断上升,流窜作案与系列团伙案件尤为明显。
[0003]犯罪分子往往采用跨区域、跳跃式的大范围流窜作案,犯罪手段日趋狡猾,呈现智能化、技术化、时空跨大等特点。常规方式往往需要花费大量人力、物力,对案件逐一分析、研判,串并分析效率较低,且不利于快速的集中警力,达到事半功倍的效果。

技术实现思路

[0004]本专利技术需要解决的技术问题是提供一种基于聚类分析的串并案方法,可解决目前侦查办案民警,需要从海量案件中,对案件进行逐一筛查、分析、研判的人工串并过程,从而提升案件串并分析效率。
[0005]为解决上述技术问题,本专利技术所采取的技术方案如下。
[0006]一种基于聚类分析的串并案方法,包括以下步骤:
[0007]S1、构建案件词汇库;
[0008]S2、构建案件语料库;
[0009]S3、基于案件语料库提取案件特征;
[0010]所述步骤S3具体包括:
[0011]S31、基于案件语料库得到词汇字典;
[0012]S32、根据已得到的案件词汇字典,依次计算每个案件的特征向量并对案件特征向量进行压缩,得到压缩后的案件特征向量矩阵;
[0013]S4、案件特征进行聚类;
[0014]所述步骤S4为:获取已压缩后的案件特征向量矩阵,以案件的小案类别数k,作为初始化分类个数,对案件特征向量进行初始化硬分类,得到分类结果集;对于每个结果集,随机抽取两个案件特征向量作为质心向量,计算其它案件特征向量到质心向量的余弦相似度,将余弦相似度值较大的向量划分一簇;对于每个簇,计算簇内的误差平方和SSE,找出SSE值较大的簇,同时,计算其轮廓系数,如果其轮廓系数值大于设定轮廓系数阀值:0.5,则将其标识为可继续聚类分析簇,重复对其进行聚类处理操作,直至所有簇不可再分为止时,将所有簇集进行合并,得到最终聚类分析结果集;
[0015]S5、案件串并结果推荐。
[0016]优选的,所述步骤S1中,案件词汇库以侦查名词为基础,结合人工录入的各类方言、暗语和网络词汇构建案件词汇库。
[0017]优选的,所述步骤S2具体包括:
[0018]S21、以案件侦查信息结构为标准,在案件管理系统中补充案件侦查信息并进行保
存;
[0019]S22、读取所有案件信息,将每个案件的基本信息与侦查信息使用“空格”进行拼接,得到案件信息文本;结合案件词汇库,使用分词工具,对案件信息文本进行分词、停用词处理,得到案件的词汇数组:N=[n1,n2,n3,...n
x
],全部案件处理完成,形成案件语料库:A={N1,N2,N3,...N
m
},N
m
∈A。
[0020]优选的,所述步骤S31具体为:加载案件语料库A,依次循环处理每个案件N
m
(N
m
∈A)的词汇数组,将词频大于1次且未在词汇字典中出现的词汇,加入到词汇字典中,并按词汇字符进行排序,得到完整的案件词汇字典。
[0021]优选的,所述步骤S32的具体步骤如下:
[0022]S321、以案件词汇字典为词汇对照表,统计案件N
m
(N
m
∈A)词汇数组N中的每个词汇n,在案件词汇数组中的出现情况,得到该案件词频向量TF=[tf1,tf2,tf3,...tf
j
];
[0023]S322、以案件词汇字典T为词汇对照表,计算案件N
m
(N
m
∈A)词汇数组N中的每个词汇n,在案件语料库中的逆向文档率向量IDF=[idf1,idf2,idf3,...idf
j
];
[0024]S323、将案件N
m
(N
m
∈A)的词频向量tf
j
与逆向文档率向量idf
j
相乘得到TF

IDF,即案件的特征向量;同时,结合主成分析方法(PCA)对案件特征向量进行压缩,得到压缩后的案件特征向量矩阵;
[0025]S324、在进行案件特征向量处理时,同时生成案件信息矩阵,案件信息包括:案件编号、案件名称、案件类别、小案类别、简要案情、案发时间、案发地点。
[0026]优选的,所述步骤S4具体包括:
[0027]S41、获取已压缩后的案件特征向量矩阵,以案件的小案类别个数k,作为簇的初始化数量,将案件特征向量进行初始化硬分类,得到k个案件特征向量结果集:C={C1,C2,C
3,
C4,C5,...C
k
};
[0028]S42、获取k个案件特征向量结果集中的子集C
k
(C
k
∈C),将其标记作为父簇:P
k
(P
k
=C
k
);
[0029]S43、获取簇P
k
内的所有案件特征向量v
m
(v
m
∈P
k
),在簇P
k
中随机抽取两个案件特征向量作为质心向量:U={u1,u2};计算簇P
k
内其余案件特征向量v
m
与质心向量的余弦相似度;将案件特征向量v
i
与质心向量u
i
余弦相似度值较大的划分为一个簇,此时得到新聚类结果子集:S={S1,S2};
[0030]S44、对新聚类结果子集S
i
进行处理,获取簇S
i
的所有案件特征向量v
m
∈P
k
,在v
m
∈S
i
中随机抽取两个案件特征向量作为作为质心向量:NU={nu1,nu2};计算簇S
i
内其余案件特征向量v
m
与质心向量的余弦相似度;将案件特征向量v
m
与质心向量NU
i
余弦相似度值较大的划分为一个簇,得到S
i
的子集结果集:NS={NS1,NS2};
[0031]S45、计算簇S
i
的误差平方和SSE,得到簇S
i
的SSE值,标记为:E
i
;计算簇S
i
下的子结果集NS的误差平方和得到SSE值,标记为:ENS
i
;求出簇S
i
的SSE与S
i
的子结果集SSE的差值,并求出最大差值maxDV
i
与对应的簇S
i

[0032]S46、得到具有SSE最大差值的簇S
i
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于聚类分析的串并案方法,其特征在于:包括以下步骤:S1、构建案件词汇库;S2、构建案件语料库;S3、基于案件语料库提取案件特征;所述步骤S3具体包括:S31、基于案件语料库得到词汇字典;S32、根据已得到的案件词汇字典,依次计算每个案件的特征向量并对案件特征向量进行压缩,得到压缩后的案件特征向量矩阵;S4、案件特征进行聚类;所述步骤S4为:获取已压缩后的案件特征向量矩阵,以案件的小案类别数k,作为初始化分类个数,对案件特征向量进行初始化硬分类,得到分类结果集;对于每个结果集,随机抽取两个案件特征向量作为质心向量,计算其它案件特征向量到质心向量的余弦相似度,将余弦相似度值较大的向量划分一簇;对于每个簇,计算簇内的误差平方和SSE,找出SSE值较大的簇,同时,计算其轮廓系数,如果其轮廓系数值大于设定轮廓系数阀值:0.5,则将其标识为可继续聚类分析簇,重复对其进行聚类处理操作,直至所有簇不可再分为止时,将所有簇集进行合并,得到最终聚类分析结果集;S5、案件串并结果推荐。2.根据权利要求1所述的一种基于聚类分析的串并案方法,其特征在于:所述步骤S1中,案件词汇库以侦查名词为基础,结合人工录入的各类方言、暗语和网络词汇构建案件词汇库。3.根据权利要求1所述的一种基于聚类分析的串并案方法,其特征在于:所述步骤S2具体包括:S21、以案件侦查信息结构为标准,在案件管理系统中补充案件侦查信息并进行保存;S22、读取所有案件信息,将每个案件的基本信息与侦查信息使用“空格”进行拼接,得到案件信息文本;结合案件词汇库,使用分词工具,对案件信息文本进行分词、停用词处理,得到案件的词汇数组:N=[n1,n2,n3,...n
x
],全部案件处理完成,形成案件语料库:A={N1,N2,N3,...N
m
},N
m
∈A。4.根据权利要求3所述的一种基于聚类分析的串并案方法,其特征在于:所述步骤S31具体为:加载案件语料库A,依次循环处理每个案件N
m
(N
m
∈A)的词汇数组,将词频大于1次且未在词汇字典中出现的词汇,加入到词汇字典中,并按词汇字符进行排序,得到完整的案件词汇字典。5.根据权利要求4所述的一种基于聚类分析的串并案方法,其特征在于:所述步骤S32的具体步骤如下:S321、以案件词汇字典为词汇对照表,统计案件N
m
(N
m
∈A)词汇数组N中的每个词汇n,在案件词汇数组中的出现情况,得到该案件词频向量TF=[tf1,tf2,tf3,...tf
j
];S322、以案件词汇字典T为词汇对照表,计算案件N
m
(N
m
∈A)词汇数组N中的每个词汇n,在案件语料库中的逆向文档率向量IDF=[idf1,idf2,idf3,...idf
j
];S323、将案件N
m
(N
m
∈A)的词频向量tf
j
与逆向文档率向量idf
j
相乘得到TF

IDF,即案件的特征向量;同时,结合主成分析方法(PCA)对案件特征向量进行压缩,得到压缩后的案件
特征向量矩阵;S324、在进行案件特征向量处理时,同时生成案件信息矩阵,案件信息包括:案件编号、案件名称、案件类别、小案类别、简要案情、案发时间、案发地点。6.根据权利要求5所述的一种基于聚类分析的串并案方法,其特征在于:所述步骤S4具体包括:S41、获取已压缩后的案件特征向量矩阵,以案件的小案类别个数k,作为簇的初始化数量,将案件特征向量进行初始化硬分类,得到k个案件特征向量结果集:C={C1,C2,C
3,
C4,C5,...C
k
};S42、获取k个案件特征向量结果集中的子集C
k
(C
k

【专利技术属性】
技术研发人员:刘怀春何晓伟杨力彪夏欢龚波苏学武水军孙全忠陈武黄国华
申请(专利权)人:珠海市新德汇信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1