【技术实现步骤摘要】
一种团伙关联数据挖掘方法、装置、设备及存储介质
[0001]本专利技术涉及大数据处理
,尤其涉及一种团伙关联数据挖掘方法、装置、设备及存储介质。
技术介绍
[0002]现代电子商务、运输、物流业的发展过程中,产生了大量的、各种形式的实物或者电子化交易平台。而犯罪分子利用这些交换平台从事非法交易,通过相互的复杂交易行为,形成犯罪团伙。与单个罪犯的犯罪行为相比,由于犯罪团伙具有复杂的组织结构,其犯罪行为更为复杂,执法机构对此的调查和打击难度大。因此,快速准确地辨识犯罪团伙成员,挖掘出犯罪团伙,对提高犯罪团伙打击效果来说具有重要意义。
[0003]随着信息化建设,执法机构获取到的各类社会数据也日益增多,这些数据为犯罪团伙的挖掘提供了重要支持。但由于犯罪团伙的结构性质,仅靠人工来对大量的社会数据进行分析以挖掘犯罪团伙,实现的难度较大且效率较低,因此,亟需高效准确的大数据分析手段来进行团伙挖掘。
技术实现思路
[0004]有鉴于此,本专利技术目的在于提供一种基于警务大数据的团伙关联数据挖掘方法、装置、设备和存储介质。
[0005]第一方面,本专利技术提供的一种团伙关联数据挖掘方法,包括:获取用于团伙挖掘的业务数据,基于所述业务数据通过进行关联关系判定建立关联关系数据库;对所述关联关系数据库中数据进行数据清洗得到第一清洗结果集;基于第一清洗结果集采用变异系数法计算得到亲密度关系人集合;根据当前关注人员信息从所述亲密度关系人集合中获得与当前关注人员对应的亲密度关系人数据;和/或对所述关联关系数 ...
【技术保护点】
【技术特征摘要】
1.一种团伙关联数据挖掘方法,其特征在于,包括:获取用于团伙挖掘的业务数据,基于所述业务数据通过进行关联关系判定建立关联关系数据库;对所述关联关系数据库中数据进行数据清洗得到第一清洗结果集;基于第一清洗结果集采用变异系数法计算得到亲密度关系人集合;根据当前关注人员信息从所述亲密度关系人集合中获得与当前关注人员对应的亲密度关系人数据;和/或对所述关联关系数据库中数据进行数据清洗得到第二清洗结果集;基于第二清洗结果集采用社区挖掘算法计算得到团伙关系人集合;根据当前关注人员信息从所述团伙关系人集合中获得与当前关注人员对应的团伙关系人数据。2.根据权利要求1所述的方法,其特征在于:所述方法还包括,根据所述亲密度关系人数据确定当前关注人员的潜在犯罪团伙;或是根据所述团伙关系人数据确定当前关注人员的潜在犯罪团伙;或是根据所述亲密度关系人数据与所述团伙关系人数据的交集或并集确定当前关注人员的潜在犯罪团伙。3.根据权利要求1所述的方法,其特征在于:所述关联关系数据库包括轨迹数据库、通讯数据库、警情数据库、亲属关系数据库中的至少一种。4.根据权利要求3所述的方法,其特征在于:若所述关联关系数据库包括轨迹数据库,所述获取用于团伙挖掘的业务数据,基于所述业务数据通过进行关联关系判定建立关联关系数据库,具体为:获取轨迹数据,按照第一组关联关系对所述轨迹数据进行整理得到第一组关系结果集,基于所述第一组关系结果集建立轨迹数据库;若所述关联关系数据库包括通讯数据库,所述获取用于团伙挖掘的业务数据,基于所述业务数据通过进行关联关系判定建立关联关系数据库,具体为:获取通讯数据,按照第二组关联关系对所述通讯数据进行整理得到第二组关系结果集,基于所述第二组关系结果集建立通讯数据库;若所述关联关系数据库包括警情数据库,所述获取用于团伙挖掘的业务数据,基于所述业务数据通过进行关联关系判定建立关联关系数据库,具体为:获取警情数据,按照第三组关联关系对所述警情数据进行整理得到第三组关系结果集,基于所述第三组关系结果集建立警情数据库;若所述关联关系数据库包括亲属关系数据库,所述获取用于团伙挖掘的业务数据,基于所述业务数据通过进行关联关系判定建立关联关系数据库,具体为:获取亲属关系数据,按照第四组关联关系对所述亲属关系数据进行整理得到第四组关系结果集,基于所述第四组关系结果集建立亲属关系数据库。5.根据权利要求4所述的方法,其特征在于:所述第一组关联关系包括同旅馆住宿关系、同网吧上网关系、同交通出行关系;所述第二组关联关系包括微信好友关系、qq好友关系、手机通讯录关系、存在通话记录关系;所述第三组关联关系包括同拘留所关系、同监所关系、同派出所关系、同看守所关系、同案件关系、接处警关系;所述第四组关联关系包括父子关系、父女关系、母子关系、母女关系、甥舅关系、祖孙关
系、夫妻关系、离婚关系。6.根据权利要求1所述的方法,其特征在于:所述关联关系数据库中的数据采用第一预设数据结构,所述第一预设数据结构的字段包括公民身份信息、关系人身份信息、关系名称和次数;所述对所述关联关系数据库中数据进行数据清洗得到第一清洗结果集具体为:根据所述公民身份信息字段,将数据库中包含同一公民身份信息的所有数据进行合并得到公民及其关系人关系集合,通过将所述公民及其关系人关系集合中所有数据变换为第二预设数据结构以得到第一清洗结果集;所述第二预设数据结构的字段包括公民身份信息、关系人身份信息和关系指标列;所述关系指标列的列数为预设值,所述关系指标列的列值根据关联关系以及次数字段确定。7.根据权利要求6所述的方法,其特征在于:所述关系指标列的列值根据关联关系以及所述次数字段确定具体为,首先判断是否存在关联关系,若不存在关联关系,则将所述关系指标列的列值赋值为0,若存在关联关系,则进一步判断所述次数字段是否为空,若所述次数字段不为空则将所述关系指标列的列值赋值为所述次数字段对应次数值,若所述次数字段为空则将所述关系指标列的列值赋值为1;所述判断是否存在关联关系具体为,判断所述关系指标列对应的关系名称是否存在于所述公民及其关系人关系集合中,若存在则判断为存在关联...
【专利技术属性】
技术研发人员:杨水利,杨贺凯,吴建平,
申请(专利权)人:北京数网信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。