【技术实现步骤摘要】
一种基于股票社区关系图谱的交互风险团伙识别方法
[0001]本专利技术涉及一种基于股票社区关系图谱的交互风险团伙识别方法,属于反欺诈方法
技术介绍
[0002]股票市场中常遇到一些不法团伙通过股票社区刷量提高曝光影响力、发布引流信息或将股民引流到社交软件或直播间进行群体性非法荐股等手段,诱骗投资者高价买入非法牟利,这不仅扰乱市场秩序及侵害投资者利益,并对股票社区平台的企业造成不良影响。线上的欺诈风险变化多样,以往传统的、单一的针对个体风险的反欺诈手段,以及利用规则引擎和有监督机器学习算法的检测,已经不能解决当前市场环境下不断出现的新的作弊欺诈风险模式,以及有组织、有规模的形成团伙分工的风险检测。
[0003]例如:公开号为CN109918511A的专利技术专利申请(以下简称“文献【1】”),公开了一种基于BFS和LPA的知识图谱反欺诈特征提取方法,其包括以下步骤:步骤一、对原始数据标准化,将原始数据转化为不同维度下的标注数据,进行清洗、转换,形成符合知识图谱建模的数据;步骤二、知识图谱模型构建,包含本体构建、语义标注和信息抽取。对消费金融反欺诈领域的欺诈团案问题,文献【1】使用基于标签传播的实体子团挖掘方法,挖掘实体子团信息,提取对应的特征变量。
[0004]公开号为CN110188198A的专利技术专利申请(以下简称“文献【2】”),公开了一种基于知识图谱的反欺诈方法及装置,所述方法包括:从数据源中抽取实体、实体属性数据以及关系数据;对所述实体属性数据进行筛选与处理,并利用处理过的实体属性 ...
【技术保护点】
【技术特征摘要】
1.一种基于股票社区关系图谱的交互风险团伙识别方法,其特征在于,包括以下步骤:S1采集服务端日志数据以及具体行为埋点的客户端埋点日志数据,对采集到的数据进行预处理后,得到构建关系图谱的输入数据;S2基于上一步获得的数据抽取信息,包括对实体的抽取、对实体关系的抽取以及对属性的抽取,其中:对实体的抽取包括抽取用户实体、设备终端实体、帖子实体及股票实体;依据用户、帖子实体、股票以及设备终端之间的关联关系,提取用户实体、设备终端实体、帖子实体以及股票实体之间的关系,将实体关系分为社区交互行为类关系以及非社区交互行为类关系,其中,用户实体相互之间的关系、用户实体与帖子实体之间的关系、用户实体与股票实体之间的关系为社区交互行为类关系;用户实体与与设备终端实体之间的关系、帖子实体与股票实体之间的关系为非社区交互行为类关系;对属性的抽取包括对实体的属性的抽取以及对实体关系的属性的抽取,属性包括从步骤S1得到的输入的数据中直接统计、抽取得到的指标数据,也包括依据结合指标数据得到的标签;S3构建关系图谱模型基于步骤S2抽取得到的实体、实体属性、实体间的关系、实体间关系的属性的海量数据构建两类关系图谱模型:一类是根据通用关系构建的通用关系图谱,以实现风险团伙的识别及对通用团伙规模进行定义;另一类是根据社区交互行为类关系构建的社区交互关系图谱,进行交互中存在刷量行为风险的团伙识别,以及团伙中用户的影响力判断,从而标记出用户在团伙中担任的角色挖掘;S4风险识别,包括以下步骤S4.1基于通用关系图谱利用Louvain算法划分通用社区得到通用社区划分结果,从而实现对通用团伙的识别;Louvain算法分为实时线和离线两部分,离线处理具体包括以下步骤:S4A.1.1初始化离线数据,通用关系图谱中每个节点作为一个独立社区;S4A.1.2根据先验的业务知识对通用关系图谱做预剪枝,有效地减少用于图计算的数据量及产生的运算量;S4A.1.3对于每个节点i,依次把节点i分配到其每个邻居节点所在社区,计算分配前后模块度增量ΔQ,记录ΔQ最大的邻居节点,且最大的ΔQ>0;则把节点i分配到ΔQ最大的邻居节点所在的社区,否则放弃此次划分;其中,模块度Q按下式(1)计算:式(1)中,A
i,j
表示节点i和节点j之间边的权重,计算公式如下式(2)所示:式(2)中,情况1表示根据边的属性的指标数据需要体现数值
的绝对差异,情况2表示根据边的属性的指标数据需要体现方向的相对差异;δ
′
是自定义参数;式(1)中,k
i
=∑A
i,j
,表示所有与节点i相连的边的权重之和;k
j
表示所有与节点j相连的边的权重之和;表示所有边的权重之和;c
i
表示顶点i所属的社区,c
j
表示顶点j所属的社区;S4A.1.4重复步骤S4A.1.3,直到所有节点对应社区不再变化;S4A.1.5对通用关系图谱进行压缩,将所有在同一个社区的节点压缩成一个新节点,社区内节点之间的边的权重转化成新节点的环的权重,社区间的边权重转化为新节点间的边权重;S4A.1.6重复步骤4A.1.1,直到整个通用关系图谱的模块度不再发生变化;S4A.1.7过滤合并及剪枝。实时线处理时,对于实时新增节点i的处理包括以下步骤:S4B.1.1对于新增节点i,把新增节点i随机分配到其一个邻居节点所在社区,计算分配前后模块度增量ΔQ,其中,模块度Q按照式(1)计算;步骤S4B.1.2若上一步计算得到的ΔQ不大于阈值,则随机选择另外一个邻居节点,返回步骤S4B.1.1,否则,把新增节点i分配到当前邻居节点所在的社区,结束此次划分;S4.2基于社区交互关系图谱进行刷量团伙及用户角色识别通过Lockinfer算法进行刷量Lockstep行为风险团伙检测发现和改进个性化PageRank算法来获取交互关系网络中的用户节点的欺诈传播分值,用于用户角色判定,具体包括以下步骤:步骤S4.2.1通过Lockinfer算法检测刷量行为风险团伙定义s为源节点用户,则S为源节点用户集合,t为目标节点用户,则T为目标节点用户集合,则步骤S4.2.1具体包括以下步骤:步骤S4.2.1.1基于选择种子算法选出具有疑似Lockstep行为的种子节点组成的种子节点集,其中,选择种子算法具体包括以下步骤:步骤S4.2.1.1.1对交互关系图谱进行奇异值分解,基于K
‑
SVD算法计算邻接矩阵A的左奇异向量U和右奇异向量V,用左奇异向量U两两组合绘制谱子空间:对每一个对(i,j),1≤i<j≤k,k为K
‑
SVD的迭代次数,绘制左奇异向量U
i
vsU
j
的谱子空间,U
i
为第i次迭代获得的左奇异向量,U
j
为第j次迭代获得的左奇异向量,寻找如下表中出现"Rays"、"Staircase"和"Pearls"的异常现象:
步骤S4.2.1.1.2将谱子空间利用霍夫变换从笛卡尔坐标系转化为极坐标系,即对于谱子空间中每一个用户节点u
x
,x≤N,N为用户节点的总个数,有下式(3):式(3)中,笛卡尔坐标(U
i,x
,U
j,x
)转化成极坐标(r
x
,θ
x
),r
x
为用户节点u
x
的极坐标半径,θ<...
【专利技术属性】
技术研发人员:叶倩怡,
申请(专利权)人:东方财富信息股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。