团伙挖掘方法、装置、设备及存储介质制造方法及图纸

技术编号:23604887 阅读:37 留言:0更新日期:2020-03-28 05:55
本发明专利技术实施例提供一种团伙挖掘方法、装置、设备及存储介质。本发明专利技术的团伙挖掘方法,通过获取各个用户的第一行为数据和第二行为数据,根据所述各个用户的第一行为数据和第二行为数据,分别确定任意两个用户之间的多个类型的关联关系的权重,使用多个调节参数,分别对所述任意两个用户之间的多个类型的关联关系的权重进行拟合处理,确定任意两个用户之间的权重信息,根据所述任意两个用户之间的权重信息构建待挖掘的关联网络,通过计算模块度的方式对所述待挖掘的关联网络进行挖掘,输出团伙信息。本发明专利技术实施例可以提升团伙识别的准确率。

Gang mining methods, devices, equipment and storage media

【技术实现步骤摘要】
团伙挖掘方法、装置、设备及存储介质
本专利技术实施例涉及计算机
,尤其涉及一种团伙挖掘方法、装置、设备及存储介质。
技术介绍
随着科技的不断发展,互联网特别是移动互联网行为普及到社会生活的各个方面。越来越多团伙不仅仅使用线下碰头,还采用互联网线上接触等多种方式联系,甚至有些通过网盘、邮箱共享等方式进行联系的趋势呈现井喷式增长。在此背景下,结合用户线上行为和线下行为,挖掘团伙并找出团伙中的关键骨干人员成为亟需解决的难题。挖掘团伙通常采用几个条件做简单的筛选和挖掘,由于筛选条件太过于单一,缺乏全面的分析和挖掘,导致挖掘出来的团伙的准确性不高。
技术实现思路
本专利技术实施例提供一种团伙挖掘方法、装置、设备及存储介质,以提升团伙的识别准确率。第一方面,本专利技术实施例提供一种团伙挖掘方法,包括:获取各个用户的行为数据,所述行为数据包括第一行为数据和第二行为数据,所述第一行为数据和第二行为数据包括多个类型的关联关系的数据;根据所述各个用户的第一行为数据和第二行为数据,分别确定任意两个用户之间的多个类型的本文档来自技高网...

【技术保护点】
1.一种团伙挖掘方法,其特征在于,包括:/n获取各个用户的行为数据,所述行为数据包括第一行为数据和第二行为数据,所述第一行为数据和第二行为数据包括多个类型的关联关系的数据;/n根据所述各个用户的第一行为数据和第二行为数据,分别确定任意两个用户之间的多个类型的关联关系的权重;/n使用多个调节参数,分别对所述任意两个用户之间的多个类型的关联关系的权重进行拟合处理,确定任意两个用户之间的权重信息,所述多个调节参数为对包括已知团伙信息的训练样本进行学习后获取的;/n根据所述任意两个用户之间的权重信息构建待挖掘的关联网络;/n通过计算模块度的方式对所述待挖掘的关联网络进行挖掘,输出团伙信息。/n

【技术特征摘要】
1.一种团伙挖掘方法,其特征在于,包括:
获取各个用户的行为数据,所述行为数据包括第一行为数据和第二行为数据,所述第一行为数据和第二行为数据包括多个类型的关联关系的数据;
根据所述各个用户的第一行为数据和第二行为数据,分别确定任意两个用户之间的多个类型的关联关系的权重;
使用多个调节参数,分别对所述任意两个用户之间的多个类型的关联关系的权重进行拟合处理,确定任意两个用户之间的权重信息,所述多个调节参数为对包括已知团伙信息的训练样本进行学习后获取的;
根据所述任意两个用户之间的权重信息构建待挖掘的关联网络;
通过计算模块度的方式对所述待挖掘的关联网络进行挖掘,输出团伙信息。


2.根据权利要求1所述的方法,其特征在于,所述根据所述各个用户的第一行为数据和第二行为数据,分别确定任意两个用户之间的多个类型的关联关系的权重,包括:
根据所述各个用户的第一行为数据和第二行为数据,分别获取任意两个用户之间的关联频次,所述关联频次包括多个类型的关联关系的关联频次;
根据所述任意两个用户之间的关联频次,分别确定任意两个用户之间的多个类型的关联关系的权重。


3.根据权利要求2所述的方法,其特征在于,所述根据所述任意两个用户之间的关联频次,分别确定任意两个用户之间的多个类型的关联关系的权重,包括:
对于第d个类型的关联关系,根据所述任意两个用户的第一关联频次与所述任意两个用户的第二关联频次的比值,确定任意两个用户之间的第d个类型的关联关系的权重;
其中,所述任意两个用户的第一关联频次为所述任意两个用户之间的所述第d个类型的关联关系的关联频次,所述任意两个用户的第二关联频次为所述任意两个用户与其他用户之间的所述第d个类型的关联关系的关联频次,d分别取1至关联关系的类型总个数。


4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
对于第k个用户和第l个用户,根据公式确定第k个用户与第l个用户的第二关联频次;
其中,xkl表示第k个用户与第l个用户之间的第d个类型的关联关系的关联频次,N为所述各个用户的总个数,k和l分别取1至N中任意两个数。


5.根据权利要求1至4任一项所述的方法,其特征在于,所述使用多个调节参数,分别对所述任意两个用户之间的多个类型的关联关系的权重进行拟合处理,确定任意两个用户之间的权重信息,包括:
对于第k个用户和第l个用户,根据公式w(k,l)=α1*w1(k,l)+α2*w2(k,l)+…+αD*wD(k,l)确定第k个用户和第l个用户之间的权重信息w(k,l);
其中,wd(k,l)表示第d个类型的关联关系中,第k个用户和第l个用户之间的权重信息,D为关联关系的类型总个数,α1、α2、....、αD分别表示一个类型的关联关系的调节参数。


6.根据权利要求1至5任一项所述的方法,其特征在于,所述根据所述任意两个用户之间的权重信息构建待挖掘的关联网络,包括:
分别根据所述任意两个用户之间的权重信息构建两个结点之间的带权值的边,获取待挖掘的关联网络,其中,每个结点表示一个用户。


7.根据权利要求6所述的方法,其特征在于,所述通过计算模块度的方式对所述待挖掘的关联网络进行挖掘,输出团伙信息,包括:
将每个结点作为一个初始团伙,分别计算所述结点加入到各个邻居结点后的模块度的变化量;
根据所述模块度的变化量,对初始团伙进行更新,获取更新后的团伙,将更新后的团伙作为新的结点,分别计算所述新的结点加入到各个邻居结点后的模块度的变化量;
当模块度不再变化时,输出更新后的团伙的团伙信息。


8.根据权利要求1至7任一项所述的方法,其特征在于,所述团伙信息包括属于同一团伙的各个用户的信息。


9.一种团伙挖掘装置,其特征在于,包括:

【专利技术属性】
技术研发人员:杨双全张阳刘畅
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1