一种团伙关联数据挖掘方法、装置、设备及存储介质制造方法及图纸

技术编号:27481276 阅读:9 留言:0更新日期:2021-03-02 17:52
本发明专利技术公开了一种团伙关联数据挖掘方法、装置、设备及存储介质,属于大数据处理技术领域,该方法包括:利用获取的用于团伙挖掘的业务数据建立关联关系数据库,对数据库中数据进行数据清洗可以得到第一清洗结果集和第二清洗结果集;基于第一清洗结果集可以得到亲密度关系人集合以便获得与当前关注人员对应的亲密度关系人数据;基于第二清洗结果集可以得到团伙关系人集合以便获得与当前关注人员对应的团伙关系人数据,根据所述亲密度关系人数据与所述团伙关系人数据可以确定当前关注人员的潜在犯罪团伙。的潜在犯罪团伙。的潜在犯罪团伙。

【技术实现步骤摘要】
一种团伙关联数据挖掘方法、装置、设备及存储介质


[0001]本专利技术涉及大数据处理
,尤其涉及一种团伙关联数据挖掘方法、装置、设备及存储介质。

技术介绍

[0002]现代电子商务、运输、物流业的发展过程中,产生了大量的、各种形式的实物或者电子化交易平台。而犯罪分子利用这些交换平台从事非法交易,通过相互的复杂交易行为,形成犯罪团伙。与单个罪犯的犯罪行为相比,由于犯罪团伙具有复杂的组织结构,其犯罪行为更为复杂,执法机构对此的调查和打击难度大。因此,快速准确地辨识犯罪团伙成员,挖掘出犯罪团伙,对提高犯罪团伙打击效果来说具有重要意义。
[0003]随着信息化建设,执法机构获取到的各类社会数据也日益增多,这些数据为犯罪团伙的挖掘提供了重要支持。但由于犯罪团伙的结构性质,仅靠人工来对大量的社会数据进行分析以挖掘犯罪团伙,实现的难度较大且效率较低,因此,亟需高效准确的大数据分析手段来进行团伙挖掘。

技术实现思路

[0004]有鉴于此,本专利技术目的在于提供一种基于警务大数据的团伙关联数据挖掘方法、装置、设备和存储介质。
[0005]第一方面,本专利技术提供的一种团伙关联数据挖掘方法,包括:获取用于团伙挖掘的业务数据,基于所述业务数据通过进行关联关系判定建立关联关系数据库;对所述关联关系数据库中数据进行数据清洗得到第一清洗结果集;基于第一清洗结果集采用变异系数法计算得到亲密度关系人集合;根据当前关注人员信息从所述亲密度关系人集合中获得与当前关注人员对应的亲密度关系人数据;和/或对所述关联关系数据库中数据进行数据清洗得到第二清洗结果集;基于第二清洗结果集采用社区挖掘算法计算得到团伙关系人集合;根据当前关注人员信息从所述团伙关系人集合中获得与当前关注人员对应的团伙关系人数据。
[0006]以及还包括根据所述亲密度关系人数据确定当前关注人员的潜在犯罪团伙;或是根据所述团伙关系人数据确定当前关注人员的潜在犯罪团伙;或是根据所述亲密度关系人数据与所述团伙关系人数据的交集或并集确定当前关注人员的潜在犯罪团伙。
[0007]上述关联关系数据库包括轨迹数据库、通讯数据库、警情数据库、亲属关系数据库中的至少一种。
[0008]优选的,若上述关联关系数据库包括轨迹数据库,所述获取用于团伙挖掘的业务数据,基于所述业务数据通过进行关联关系判定建立关联关系数据库,具体为:获取轨迹数据,按照第一组关联关系对所述轨迹数据进行整理得到第一组关系结果集,基于所述第一组关系结果集建立轨迹数据库;
优选的,若上述关联关系数据库包括通讯数据库,所述获取用于团伙挖掘的业务数据,基于所述业务数据通过进行关联关系判定建立关联关系数据库,具体为:获取通讯数据,按照第二组关联关系对所述通讯数据进行整理得到第二组关系结果集,基于所述第二组关系结果集建立通讯数据库;优选的,若上述关联关系数据库包括警情数据库,所述获取用于团伙挖掘的业务数据,基于所述业务数据通过进行关联关系判定建立关联关系数据库,具体为:获取警情数据,按照第三组关联关系对所述警情数据进行整理得到第三组关系结果集,基于所述第三组关系结果集建立警情数据库;优选的,若上述关联关系数据库包括亲属关系数据库,所述获取用于团伙挖掘的业务数据,基于所述业务数据通过进行关联关系判定建立关联关系数据库,具体为:获取亲属关系数据,按照第四组关联关系对所述亲属关系数据进行整理得到第四组关系结果集,基于所述第四组关系结果集建立亲属关系数据库。
[0009]上述第一组关联关系包括同旅馆住宿关系、同网吧上网关系、同交通出行关系;上述第二组关联关系包括微信好友关系、qq好友关系、手机通讯录关系、存在通话记录关系;上述第三组关联关系包括同拘留所关系、同监所关系、同派出所关系、同看守所关系、同案件关系、接处警关系;上述第四组关联关系包括父子关系、父女关系、母子关系、母女关系、甥舅关系、祖孙关系、夫妻关系、离婚关系。
[0010]优选的,所述关联关系数据库中的数据采用第一预设数据结构,所述第一预设数据结构的字段包括公民身份信息、关系人身份信息、关系名称和次数;所述对所述关联关系数据库中数据进行数据清洗得到第一清洗结果集具体为:根据所述公民身份信息字段,将数据库中包含同一公民身份信息的所有数据进行合并得到公民及其关系人关系集合,通过将所述公民及其关系人关系集合中所有数据变换为第二预设数据结构以得到第一清洗结果集;所述第二预设数据结构的字段包括公民身份信息、关系人身份信息和关系指标列;所述关系指标列的列数为预设值,所述关系指标列的列值根据关联关系以及所述次数字段确定。
[0011]优选的,上述关系指标列的列值根据关联关系以及所述次数字段确定具体为,首先判断是否存在关联关系,若不存在关联关系,则将所述关系指标列的列值赋值为0,若存在关联关系,则进一步判断所述次数字段是否为空,若所述次数字段不为空则将所述关系指标列的列值赋值为所述次数字段对应次数值,若所述次数字段为空则将所述关系指标列的列值赋值为1。所述判断是否存在关联关系具体为,判断所述关系指标列对应的关系名称是否存在于所述公民及其关系人关系集合中,若存在则判断为存在关联关系,否则判断为不存在关联关系。
[0012]优选的,上述对所述关联关系数据库中数据进行数据清洗得到第二清洗结果集具体为:先对所述关联关系数据库中数据进行数据清洗得到第一清洗结果集,再对第一清洗结果集中各数据通过仅保留公民身份号码字段及关系人身份号码字段两列数据的方式进行处理得到第二清洗结果集。
[0013]优选的,上述方法中所述基于第一清洗结果集采用变异系数法计算得到亲密度关系人集合具体为:对第一清洗结果集中每一个公民身份信息所对应人员,采用变异系数法计算与其相关的所有关系人的亲密度得分,形成采用第三预设数据结构的数据组成的亲密
度关系人集合,所述第三预设数据结构的字段包括公民身份信息、关系人身份信息、亲密度得分;所述根据当前关注人员信息从所述亲密度关系人集合中获得与当前关注人员对应的亲密度关系人数据具体为:首先根据公民身份信息字段从所述亲密度关系人集合中获取与当前关注人员所对应的数据,并将获取的数据按照亲密度得分字段所对应分值从高到低的顺序进行排序,从排序结果中提取关系人身份信息作为亲密度关系人数据。
[0014]优选的,上述方法中所述基于第二清洗结果集采用社区发现算法计算得到团伙关系人集合具体为:将根据第二清洗结果集中数据所确定的所有公民及其关系人作为网络中相邻节点,构建社会关系网络图,采用社区发现算法对所述社会关系网络图进行社区划分,将划分得到的每个社区作为一个团伙,每个团伙标识有唯一的社区号,形成采用第四预设数据结构的数据组成的团伙关系人集合,所述第四预设数据结构的字段包括公民身份号码、关系人身份号码、社区号;所述根据当前关注人员信息从所述团伙关系人集合中获得与当前关注人员对应的团伙关系人数据具体为:首先根据公民身份号码字段在团伙关系人集合中查询与当前关注人员的身份号码所对应的社区号,并将查询获得的社区号所对应的所有关系人身份号码作为团伙关系人数据。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种团伙关联数据挖掘方法,其特征在于,包括:获取用于团伙挖掘的业务数据,基于所述业务数据通过进行关联关系判定建立关联关系数据库;对所述关联关系数据库中数据进行数据清洗得到第一清洗结果集;基于第一清洗结果集采用变异系数法计算得到亲密度关系人集合;根据当前关注人员信息从所述亲密度关系人集合中获得与当前关注人员对应的亲密度关系人数据;和/或对所述关联关系数据库中数据进行数据清洗得到第二清洗结果集;基于第二清洗结果集采用社区挖掘算法计算得到团伙关系人集合;根据当前关注人员信息从所述团伙关系人集合中获得与当前关注人员对应的团伙关系人数据。2.根据权利要求1所述的方法,其特征在于:所述方法还包括,根据所述亲密度关系人数据确定当前关注人员的潜在犯罪团伙;或是根据所述团伙关系人数据确定当前关注人员的潜在犯罪团伙;或是根据所述亲密度关系人数据与所述团伙关系人数据的交集或并集确定当前关注人员的潜在犯罪团伙。3.根据权利要求1所述的方法,其特征在于:所述关联关系数据库包括轨迹数据库、通讯数据库、警情数据库、亲属关系数据库中的至少一种。4.根据权利要求3所述的方法,其特征在于:若所述关联关系数据库包括轨迹数据库,所述获取用于团伙挖掘的业务数据,基于所述业务数据通过进行关联关系判定建立关联关系数据库,具体为:获取轨迹数据,按照第一组关联关系对所述轨迹数据进行整理得到第一组关系结果集,基于所述第一组关系结果集建立轨迹数据库;若所述关联关系数据库包括通讯数据库,所述获取用于团伙挖掘的业务数据,基于所述业务数据通过进行关联关系判定建立关联关系数据库,具体为:获取通讯数据,按照第二组关联关系对所述通讯数据进行整理得到第二组关系结果集,基于所述第二组关系结果集建立通讯数据库;若所述关联关系数据库包括警情数据库,所述获取用于团伙挖掘的业务数据,基于所述业务数据通过进行关联关系判定建立关联关系数据库,具体为:获取警情数据,按照第三组关联关系对所述警情数据进行整理得到第三组关系结果集,基于所述第三组关系结果集建立警情数据库;若所述关联关系数据库包括亲属关系数据库,所述获取用于团伙挖掘的业务数据,基于所述业务数据通过进行关联关系判定建立关联关系数据库,具体为:获取亲属关系数据,按照第四组关联关系对所述亲属关系数据进行整理得到第四组关系结果集,基于所述第四组关系结果集建立亲属关系数据库。5.根据权利要求4所述的方法,其特征在于:所述第一组关联关系包括同旅馆住宿关系、同网吧上网关系、同交通出行关系;所述第二组关联关系包括微信好友关系、qq好友关系、手机通讯录关系、存在通话记录关系;所述第三组关联关系包括同拘留所关系、同监所关系、同派出所关系、同看守所关系、同案件关系、接处警关系;所述第四组关联关系包括父子关系、父女关系、母子关系、母女关系、甥舅关系、祖孙关
系、夫妻关系、离婚关系。6.根据权利要求1所述的方法,其特征在于:所述关联关系数据库中的数据采用第一预设数据结构,所述第一预设数据结构的字段包括公民身份信息、关系人身份信息、关系名称和次数;所述对所述关联关系数据库中数据进行数据清洗得到第一清洗结果集具体为:根据所述公民身份信息字段,将数据库中包含同一公民身份信息的所有数据进行合并得到公民及其关系人关系集合,通过将所述公民及其关系人关系集合中所有数据变换为第二预设数据结构以得到第一清洗结果集;所述第二预设数据结构的字段包括公民身份信息、关系人身份信息和关系指标列;所述关系指标列的列数为预设值,所述关系指标列的列值根据关联关系以及次数字段确定。7.根据权利要求6所述的方法,其特征在于:所述关系指标列的列值根据关联关系以及所述次数字段确定具体为,首先判断是否存在关联关系,若不存在关联关系,则将所述关系指标列的列值赋值为0,若存在关联关系,则进一步判断所述次数字段是否为空,若所述次数字段不为空则将所述关系指标列的列值赋值为所述次数字段对应次数值,若所述次数字段为空则将所述关系指标列的列值赋值为1;所述判断是否存在关联关系具体为,判断所述关系指标列对应的关系名称是否存在于所述公民及其关系人关系集合中,若存在则判断为存在关联...

【专利技术属性】
技术研发人员:杨水利杨贺凯吴建平
申请(专利权)人:北京数网信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1