案情数据的归并方法及装置制造方法及图纸

技术编号:19822287 阅读:28 留言:0更新日期:2018-12-19 14:52
本申请公开了案情数据的归并方法及装置,首先基于两种不同的算法,分别从已知案件类别的案情数据中获取第一动词集和第二动词集,并根据第一动词集和第二动词集生成与案件类别对应的特征动词集合,提高了获取特征动词的准确率;其次利用该特征动词集合训练获得案情数据分类模型,通过该案情数据分类模型确定待归并案情数据的命中类别,提高了模型对待归并案情数据的分类精度;最后根据命中类别预设的至少一个串并维度,将待归并案情数据和该命中类别中的已知案情数据进行串并,并根据串并结果进行数据归并,提高了公安领域案件串并工作的精度和效率,同时提高了海量案情数据的利用率。

【技术实现步骤摘要】
案情数据的归并方法及装置
本申请涉及犯罪案情数据挖掘
,尤其涉及一种案情数据的归并方法及装置。
技术介绍
在刑事案件侦破
,案件串并是串联案件和并案侦查的简称,案件串并分析不仅有利于打击多发性、连续性、区域性犯罪活动,遏制案件的多发态势,还能使执法人员对可能发生的犯罪活动进行预测,从而及时打击预防。通常,案件串并首先要对案情数据进行分类,例如,盗窃类、抢劫类等,其次,再将同一案件类别的不同案情数据进行对比分析,执法人员凭借其办案经验来判断案件的相似程度,进而完成案件的串并侦查工作。然而,由于执法机构常年积累的犯罪案情数据量巨大,且其中不乏一大部分内容有缺失、特征要素不明确的数据,这就使得针对任意一组案情数据,尤其是不完整的案情数据的串并分析,都需要消耗大量的时间,加之这些分析均是基于执法人员的经验进行,因此串并的准确率也无法得到保证。由此,大量的案件之间潜在的关联,难以得到挖掘,从而导致数据利用率低且办案效率低下的问题。因此,如何提高对案情数据的串并精度和效率,尤其是对不完整的案情数据的串并,成为本领域技术人员亟待解决的技术问题。
技术实现思路
本申请提供一种案情数据的归并方本文档来自技高网...

【技术保护点】
1.一种案情数据的归并方法,其特征在于,所述方法包括:通过两种不同算法分别从已知案件类别的案情数据中,获取到第一动词集和第二动词集;根据所述第一动词集和第二动词集,生成与案件类别对应的特征动词集合;利用所述特征动词集合训练获得案情数据分类模型;根据所述案情数据分类模型,获取待归并案情数据的命中类别;根据所述命中类别预设的至少一个串并维度,将所述待归并案情数据和所述命中类别中的已知案情数据进行串并,并根据串并结果进行数据归并。

【技术特征摘要】
1.一种案情数据的归并方法,其特征在于,所述方法包括:通过两种不同算法分别从已知案件类别的案情数据中,获取到第一动词集和第二动词集;根据所述第一动词集和第二动词集,生成与案件类别对应的特征动词集合;利用所述特征动词集合训练获得案情数据分类模型;根据所述案情数据分类模型,获取待归并案情数据的命中类别;根据所述命中类别预设的至少一个串并维度,将所述待归并案情数据和所述命中类别中的已知案情数据进行串并,并根据串并结果进行数据归并。2.根据权利要求1所述的方法,其特征在于,所述从已知案件类别的案情数据中获取第一动词集和第二动词集的步骤,包括:对案情数据进行切词,并对切词得到的分词添加词性标签;根据词性标签,从所有所述分词中提取动词,以及,对提取到的动词进行去停用词处理,生成候选词集;从候选动词集中获取第一动词集和第二动词集。3.根据权利要求2所述的方法,其特征在于,所述从候选词集中获取第一动词集的步骤,包括:统计候选词集中每个动词的正向词频和反向词频;根据所述正向词频和反向词频,获取候选词集中每个动词相对于自身所属案件类别的第一分类权重;将所述第一分类权重满足第一预设条件的动词添加至第一动词集中;其中,根据所述动词在其自身所属的案情数据中的词频获得正向词频,根据案情数据总量和包含所述动词的案情数据量获得反向词频。4.根据权利要求2所述的方法,其特征在于,所述从候选词集中获取第二动词集的步骤,包括:获取候选词集中每个动词相对于自身所属案件类别的第二分类权重;以及,将所述第二分类权重满足第二预设条件的动词添加至第二动词集中;其中,通过以下公式获取所述第二分类权重:其中,A表示与目标动词类别相同,且包含目标动词的案情数据量;B表示与目标动词类别不同,且包含目标动词的案情数据量;C表示与目标动词类别相同,且不包含目标动词的案情数据量;D表示与目标动词类别不同,且不包含目标动词的案情数据量。5.根据权利要求3或4所述的方法,其特征在于,所述根据第一动词集和第二动词集,生成与案件类别对应的特征动词集合的步骤,包括:根据预设规则,确定第一动词集的候选特征动词和第二动词集的候选特征动词;选取第一动词集和第二动词集中相同的候选特征动词,形成与案件类别对应的特征动词集合。6.根据权利要求1所述的方法,其特征在于,所述利用特征动词集合训练获得案情数据分类模型的步骤,包括:将特征动词集合中的特征动词转换为特征向量;根据...

【专利技术属性】
技术研发人员:钟翔宇李士勇张瑞飞李广刚
申请(专利权)人:北京神州泰岳软件股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1