一种基于移动数据的易受诈人群画像构建方法技术

技术编号:34792335 阅读:26 留言:0更新日期:2022-09-03 19:56
本发明专利技术涉及一种基于移动数据的易受诈人群画像构建方法,属于数据挖掘领域。该方法包括:S1:提取用户网络信息空间特征;S2:提取用户物理空间行为特征;S3:获取用户二元空间融合特征,即对用户网络信息空间特征和物理空间行为特征进行特征融合,并对用户二元空间融合特征进行筛选,得到最优特征子集;S4:根据最优特征子集生成用户画像。本发明专利技术将移动运营商的数据能力、第三方电子地图数据、用户画像技术、电信诈骗中受害人的特性相结合,构建易受诈人群用户画像,有效提高了画像的准确性、完整性。利用数据加深对受害人的理解,为反诈工作的有效开展提供新思路。效开展提供新思路。效开展提供新思路。

【技术实现步骤摘要】
一种基于移动数据的易受诈人群画像构建方法


[0001]本专利技术属于数据挖掘领域,涉及一种基于移动数据的易受诈人群画像构建方法。

技术介绍

[0002]手机在使用过程中留下的位置数据、上网数据、社交数据在一定程度上能够反映出人们的生活习惯和社交模式。目前在电信反欺诈领域较多针对欺诈方数据构建用户画像,对于受害方的研究通常仅仅利用受害者的年龄、性别等基础属性进行分析,亦或对于具体案例通过笔录等方式研究受害人心理。目前的研究忽视了对受害方更为广泛的二元空间行为特征的分析,因此本专利技术提出易受诈人群画像概念以及易受诈人群画像的构建方法,不仅能够提高对易受诈人群信息行为的管理效率,而且有助于相关人员理解易受诈人群以制定精准反诈策略。

技术实现思路

[0003]有鉴于此,本专利技术的目的在于提供一种基于移动数据的易受诈人群画像构建方法,采用移动通信大数据结合用户画像技术,分析受害人的行为特征,提高画像的准确性和完整性,有助于制定精准反诈措施、优化宣传对象的范围,从而实现反诈。
[0004]为达到上述目的,本专利技术提供如下技术方案:
[0005]一种基于移动数据的易受诈人群画像构建方法,具体包括以下步骤:
[0006]S1:提取用户网络信息空间特征;
[0007]S2:提取用户物理空间行为特征;
[0008]S3:获取用户二元空间融合特征,即对用户网络信息空间特征和物理空间行为特征进行特征融合,并对用户二元空间融合特征进行筛选,得到最优特征子集;
[0009]S4:根据最优特征子集生成用户画像。
[0010]进一步,步骤S1中,提取用户网络信息空间特征,具体包括以下步骤:
[0011]S11:利用受电信诈骗用户手机号码与正常用户手机号码关联数据库中的相关数据模型,提取用户基础属性信息、通话记录信息、短信记录信息和上网记录信息;
[0012]S12:使用数字标记用户基础信息,按时间维度汇总通话行为、短信行为和上网行为。
[0013]进一步,步骤S2中,提取用户物理空间行为特征,具体包括以下步骤:
[0014]S21:将受电信诈骗用户手机号码与正常用户手机号码关联数据库中的相关数据模型,提取用户接入基站数据和基站经纬度信息,使用第三方电子地图引入POI信息;
[0015]S22:根据用户轨迹数据中相邻两点的间隔权值,和轨迹数据的局部时空密度大小识别用户的停留点;
[0016]S23:对每一个停留点赋予一个语义信息,将停留点半径R内最多的POI类型赋予给该停留点,其中POI类型包括住宅区、公司、餐饮区、购物区、生活区、风景区、住宿区、汽车服务、金融区、文化区、体育服务和医疗服务12种;
[0017]S24:按时间汇总用户访问各POI类型区域的次数。
[0018]进一步,步骤S22中,所述间隔权值γ
c
的计算公式为:
[0019][0020]其中,表示相邻两位置点的距离间隔归一化值,表示相邻两位置点的时间间隔归一化值;
[0021]所述局部时空密度ρ
i
的计算公式为:
[0022][0023]其中,dist(x
i
,x
j
)为x
i
到x
j
的地面距离,x
i
、x
j
分别表示轨迹中两个位置点,t
i
、t
j
分别表示轨迹中两个位置点的时间戳,n表示一条轨迹中数据点的总数,σ值设为1;
[0024]停留点识别方法为:对γ
c
执行聚类簇数k=2的Kmeans算法聚为两类,将γ
c
值较大类的γ
c
最小值作为γ
c_th
,将间隔权值小于γ
c_th
的点删除,将相邻的两个删除位置之间的所有点划分为一个候选停留点,然后在每个候选停留点中对ρ
i
执行k=2的Kmeans算法聚为两类,将ρ
i
值较小类的ρ
i
最大值作为ρ
i_th
,候选停留点中存在大于ρ
i_th
的时空密度则为实际停留点。
[0025]进一步,步骤S3中,对用户网络信息空间特征和物理空间行为特征进行特征融合,计算公式为:
[0026][0027]其中,a,b,c分别为用户网络信息空间中不同种类型特征,x为用户物理空间中某类型特征,下标字母为对应类型特征数量,*为笛卡尔积。
[0028]进一步,步骤S3中,对用户二元空间融合特征进行筛选,具体包括以下步骤:
[0029]S31:计算原始特征空间中各特征与目标类别的最大互信息系数MIC;其中最大互信息系数MIC的计算公式为:
[0030][0031]其中,D={(f1,C),(f2,C),...,(f
i
,C)}是特征f
i
与其类别C={0,1}的有序对集合,log(min(X,Y))为互信息量的归一化值,XY表示使用X
×
Y的网格划分数据空间,XY要小于总数据量的0.6次方;在划分网格后的数据空间中,落在第(x,y)网格中数据点的频率P(x,y)的计算公式为:
[0032][0033]I
*
(D,X,Y)表示在指定X和Y情况下的互信息量大小,计算公式为:
[0034][0035]删除小于阈值ε的特征后降序排序,构成特征子集S;
[0036]S32:计算特征与特征间,特征与目标类别间的对称不确定性SU;其中对称不确定性SU的计算公式为:
[0037][0038]其中,I(f
i
;C)表示特征f
i
和类别C的互信息,H(f
i
)和H(C)分别表示特征f
i
的信息熵和类别C的信息熵;特征f
i
是特征f
j
的近似马尔科夫毯的条件表达式为:
[0039]SU(f
i
,C)>SU(f
j
,C)&SU(f
i
,f
j
)>SU(f
j
,C)
[0040]其中,SU(f
i
,C)表示特征f
i
和类别C之间的相关性,SU(f
i
,f
j
)表示特征f
i
与特征f
j
之间的相关性;最后删除冗余特征,生成最优特征子集F。
[0041]进一步,步骤S4中,根据最优特征子集生成用户画像,具体包括以下步骤:
[0042]S41:将最优特征子集中的全部特征表示为事实标签;
[0043]S42:依据事实标签结合电信诈骗中被害人的心理构建若干特色标签,包括但不限于信息暴露程度、轻信程度、社会接触程度、金融属性本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于移动数据的易受诈人群画像构建方法,其特征在于,该方法具体包括以下步骤:S1:提取用户网络信息空间特征;S2:提取用户物理空间行为特征;S3:获取用户二元空间融合特征,即对用户网络信息空间特征和物理空间行为特征进行特征融合,并对用户二元空间融合特征进行筛选,得到最优特征子集;S4:根据最优特征子集生成用户画像。2.根据权利要求1所述的易受诈人群画像构建方法,其特征在于,步骤S1中,提取用户网络信息空间特征,具体包括以下步骤:S11:利用受电信诈骗用户手机号码与正常用户手机号码关联数据库中的相关数据模型,提取用户基础属性信息、通话记录信息、短信记录信息和上网记录信息;S12:使用数字标记用户基础信息,按时间维度汇总通话行为、短信行为和上网行为。3.根据权利要求1所述的易受诈人群画像构建方法,其特征在于,步骤S2中,提取用户物理空间行为特征,具体包括以下步骤:S21:将受电信诈骗用户手机号码与正常用户手机号码关联数据库中的相关数据模型,提取用户接入基站数据和基站经纬度信息,使用第三方电子地图引入POI信息;S22:根据用户轨迹数据中相邻两点的间隔权值,和轨迹数据的局部时空密度大小识别用户的停留点;S23:对每一个停留点赋予一个语义信息,将停留点半径R内最多的POI类型赋予给该停留点;S24:按时间汇总用户访问各POI类型区域的次数。4.根据权利要求3所述的易受诈人群画像构建方法,其特征在于,步骤S22中,所述间隔权值γ
c
的计算公式为:其中,表示相邻两位置点的距离间隔归一化值,表示相邻两位置点的时间间隔归一化值;所述局部时空密度ρ
i
的计算公式为:其中,dist(x
i
,x
j
)为x
i
到x
j
的地面距离,x
i
、x
j
分别表示轨迹中两个位置点,t
i
、t
j
分别表示轨迹中两个位置点的时间戳,n表示一条轨迹中数据点的总数,σ值设为1;停留点识别方法为:对γ
c
执行聚类簇数k=2的Kmeans算法聚为两类,将γ
c
值较大类的γ
c
最小值作为γ
c_th
,将间隔权值小于γ
c_th
的点删除,将相邻的两个删除位置之间的所有点划分为一个候选停留点,然后在每个候选停留点中对ρ
i
执行k=2的Kmeans算法聚为两类,将ρ
i
值较小类的ρ
i
最大值作为ρ
i_th
,候选停留点中存在大于ρ
i_th
的时空密度则为实际停留点。5.根...

【专利技术属性】
技术研发人员:许国良顾金哲雒江涛
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1