一种基于股票社区关系图谱的交互风险团伙识别方法技术

技术编号:31801038 阅读:13 留言:0更新日期:2022-01-08 11:01
本发明专利技术涉及一种基于股票社区关系图谱的交互风险团伙识别方法。本发明专利技术中根据股票社区产生的较为错综复杂关系的特征,从较单一的实体关系,到可实现社区股民用户间及用户与其他实体间的复杂关系网络所暴露体现的欺诈风险的行为进行的分析与挖掘。本发明专利技术选择改进的Louvain算法,由于算法其较为优越的稳定性,并优化改进解决了时效性问题,以及模块度中边的权重计算来提高对业务模型的适配度。本发明专利技术中利用Lockinfer算法及选取种子的策略来发现刷量行为团体,可支持业务后续对刷量行为团体进行具体意图分析。并且本发明专利技术使用改进的PageRank算法获取团伙成员在关系中的影响力分值,从而进一步获取成员在团伙中所承担的角色。色。色。

【技术实现步骤摘要】
一种基于股票社区关系图谱的交互风险团伙识别方法


[0001]本专利技术涉及一种基于股票社区关系图谱的交互风险团伙识别方法,属于反欺诈方法


技术介绍

[0002]股票市场中常遇到一些不法团伙通过股票社区刷量提高曝光影响力、发布引流信息或将股民引流到社交软件或直播间进行群体性非法荐股等手段,诱骗投资者高价买入非法牟利,这不仅扰乱市场秩序及侵害投资者利益,并对股票社区平台的企业造成不良影响。线上的欺诈风险变化多样,以往传统的、单一的针对个体风险的反欺诈手段,以及利用规则引擎和有监督机器学习算法的检测,已经不能解决当前市场环境下不断出现的新的作弊欺诈风险模式,以及有组织、有规模的形成团伙分工的风险检测。
[0003]例如:公开号为CN109918511A的专利技术专利申请(以下简称“文献【1】”),公开了一种基于BFS和LPA的知识图谱反欺诈特征提取方法,其包括以下步骤:步骤一、对原始数据标准化,将原始数据转化为不同维度下的标注数据,进行清洗、转换,形成符合知识图谱建模的数据;步骤二、知识图谱模型构建,包含本体构建、语义标注和信息抽取。对消费金融反欺诈领域的欺诈团案问题,文献【1】使用基于标签传播的实体子团挖掘方法,挖掘实体子团信息,提取对应的特征变量。
[0004]公开号为CN110188198A的专利技术专利申请(以下简称“文献【2】”),公开了一种基于知识图谱的反欺诈方法及装置,所述方法包括:从数据源中抽取实体、实体属性数据以及关系数据;对所述实体属性数据进行筛选与处理,并利用处理过的实体属性数据以及所述关系数据构建知识图谱,所述知识图谱包括第一类节点和第二类节点,所述第一类节点为已知标签的节点,所述第二类节点为待预测标签的节点;基于所述知识图谱,预测所述第二类节点的标签。
[0005]公开号为CN112053221A的专利技术专利申请(以下简称“文献【3】”),公开一种基于知识图谱的互联网金融团伙欺诈行为检测方法,所述方法包括以下步骤:获取多个预设数据源的用户的个人申请信息、操作行为埋点数据和黑名单数据;对申请信息和操作行为埋点数据进行预处理后切分训练集和测试集,根据黑名单命中情况标记客户为欺诈节点和未标记节点,然后求出欺诈节点与其相邻用户节点之间的相似度和归属因子,对未标记节点的欺诈风险评估,采用Neo4j图数据库构建知识图谱,对验证集欺诈风险评估结果测试,对实时申请用户欺诈行为检测并处理。
[0006]公开号为CN110223168A的专利技术专利申请(以下简称“文献【4】”),公开了一种基于企业关系图谱的标签传播反欺诈检测方法及系统,包括以下步骤:S1、建立企业黑名单库;S2、构建关系图谱:筛选关系数据库中列入关系图谱的相关表格及字段,抽取关系型数据库对象实体及实体关系;S3、基于自建黑名单库以及企业关系图谱对企业进行反欺诈检测:基于黑名单库标识关系图谱黑名单节点,提取黑名单节点连接子图,运用标签传播算法识别各连接子图中的欺诈企业节点,并预估企业反欺诈的概率。
[0007]公开号为CN110413707A的专利技术专利申请(以下简称“文献【5】”),公开了一种互联网中欺诈团伙关系的挖掘与排查方法,获取互联网金融数据,采用知识图谱的构建原理构建金融关系图谱,在构建的金融关系图谱基础上,通过聚类算法挖掘出具有相似行为的群体,通过对群体的构成进行分析,实现对欺诈团伙的识别,完成对欺骗团伙关系的挖掘与排查。
[0008]公开号为CN108681936A的专利技术专利申请(以下简称“文献【6】”),公开了一种基于模块度和平衡标签传播的欺诈团伙识别方法,包括:利用ID特征结合用户自身已知的欺诈标识,对所有用户计算两两相似度,建立相似度矩阵,通过相似度矩阵建立关联图;对建立的图运行Louvain算法得出每个节点所属的社区及层级信息;以每个节点所属的社区、层级信息及欺诈标识作为每个节点初始的社区信息,运行平衡标签传播过程得到每个节点最终所属社区,再根据是否归属共同社区划分网络,根据传播获得的欺诈标识划分欺诈团伙。
[0009]公开号为CN111369139A的专利技术专利申请(以下简称“文献【7】”),公开了一种个体信用评估方法,获取用户的关系网络和不良事件的信息为基础;建立假设条件,设置用户节点的风险权重,获取与用户节点u相连的n个其它用户节点集合;于利用时间函数分析处理用户发生不良信用事件节点的风险权重,将风险权重传导给与用户当前节点相连的节点;对个性化PageRank算法进行改进同时通过该算法遍历所有节点,并计算出关系网络中所有节点的不良信用事件的风险权重;按照风险权重排序,得到基于不良信用事件影响的用户风险排序表。
[0010]公开号为CN110348978A的专利技术专利申请(以下简称“文献【8】”)公开了一种基于图计算的风险团伙识别方法、装置、设备和存储介质,该方法,包括:接收业务请求,所述业务请求包含业务类型及用户属性信息;对所述业务类型、所述用户属性信息及与所述业务请求对应的历史业务数据,进行社会网络分析,以生成对应的社会网络;根据凝聚度从所述社会子网络分割出与所述业务请求对应的子网络;将所述子网络的邻接矩阵输入预设的预测模型,获得所述业务请求对应的风险团伙识别结果。
[0011]公开号为CN109299811A的专利技术专利申请(以下简称“文献【9】”),公开了一种基于复杂网络的欺诈团伙识别和风险传播预测方法,包括以下步骤:获取个体属性;确定所述主体属性和非主体属性的属性值唯一编码;数据过滤;建立存储和计算的数据结构;建立连通图,将所述主体属性值和非主体属性值抽象为节点,将主体属性值和非主体属性值的归属关系抽象为连接所述节点的边,所述节点和边组成连通图;根据所述连通图获取模型图;根据所述数据结构计算模型参数;根据所述模型参数进行欺诈团伙识别和欺诈风险传播预测。
[0012]公开号为CN110569509A的专利技术专利申请(以下简称“文献【10】”),公开了一种风险团伙识别的方法及装置,其中所述方法包括:获取在设定时间窗口内注册的多个账户以及各账户的注册信息;根据各账户的注册信息,确定任意两账户之间的相似度;基于所述相似度对所述多个账户进行聚类,获得一个或多个账户集合;针对各账户集合,若判定该账户集合中的账户数量满足设定条件时,则将该账户集合作为风险团伙数据。
[0013]上述技术方案存在以下问题:
[0014]1)文献【1】、文献【2】、文献【3】、文献【4】、文献【5】主要面临的风险主要是信贷领域的欺诈风险和信用风险:如在申请贷款时评估放贷风险等。而在股票社区金融领域场景中,
面临的风险是社区交互异常团伙风险及产生的欺诈行为。由于场景不同,具体的风险特征及团体特征有所不同。
[0015]2)文献【2】只包含一种实体,即为企业,实体较为单一,因而其构建的网络也非大规模网络。
[0016]3)文献【2】和文献【3】简单来讲都是通过已标记节点来预测评估未标记节点的风险,其中,文献【2】是根据LightGBM来进行预测评估,文献【3】是根据相邻节点的相似度本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于股票社区关系图谱的交互风险团伙识别方法,其特征在于,包括以下步骤:S1采集服务端日志数据以及具体行为埋点的客户端埋点日志数据,对采集到的数据进行预处理后,得到构建关系图谱的输入数据;S2基于上一步获得的数据抽取信息,包括对实体的抽取、对实体关系的抽取以及对属性的抽取,其中:对实体的抽取包括抽取用户实体、设备终端实体、帖子实体及股票实体;依据用户、帖子实体、股票以及设备终端之间的关联关系,提取用户实体、设备终端实体、帖子实体以及股票实体之间的关系,将实体关系分为社区交互行为类关系以及非社区交互行为类关系,其中,用户实体相互之间的关系、用户实体与帖子实体之间的关系、用户实体与股票实体之间的关系为社区交互行为类关系;用户实体与与设备终端实体之间的关系、帖子实体与股票实体之间的关系为非社区交互行为类关系;对属性的抽取包括对实体的属性的抽取以及对实体关系的属性的抽取,属性包括从步骤S1得到的输入的数据中直接统计、抽取得到的指标数据,也包括依据结合指标数据得到的标签;S3构建关系图谱模型基于步骤S2抽取得到的实体、实体属性、实体间的关系、实体间关系的属性的海量数据构建两类关系图谱模型:一类是根据通用关系构建的通用关系图谱,以实现风险团伙的识别及对通用团伙规模进行定义;另一类是根据社区交互行为类关系构建的社区交互关系图谱,进行交互中存在刷量行为风险的团伙识别,以及团伙中用户的影响力判断,从而标记出用户在团伙中担任的角色挖掘;S4风险识别,包括以下步骤S4.1基于通用关系图谱利用Louvain算法划分通用社区得到通用社区划分结果,从而实现对通用团伙的识别;Louvain算法分为实时线和离线两部分,离线处理具体包括以下步骤:S4A.1.1初始化离线数据,通用关系图谱中每个节点作为一个独立社区;S4A.1.2根据先验的业务知识对通用关系图谱做预剪枝,有效地减少用于图计算的数据量及产生的运算量;S4A.1.3对于每个节点i,依次把节点i分配到其每个邻居节点所在社区,计算分配前后模块度增量ΔQ,记录ΔQ最大的邻居节点,且最大的ΔQ>0;则把节点i分配到ΔQ最大的邻居节点所在的社区,否则放弃此次划分;其中,模块度Q按下式(1)计算:式(1)中,A
i,j
表示节点i和节点j之间边的权重,计算公式如下式(2)所示:式(2)中,情况1表示根据边的属性的指标数据需要体现数值
的绝对差异,情况2表示根据边的属性的指标数据需要体现方向的相对差异;δ

是自定义参数;式(1)中,k
i
=∑A
i,j
,表示所有与节点i相连的边的权重之和;k
j
表示所有与节点j相连的边的权重之和;表示所有边的权重之和;c
i
表示顶点i所属的社区,c
j
表示顶点j所属的社区;S4A.1.4重复步骤S4A.1.3,直到所有节点对应社区不再变化;S4A.1.5对通用关系图谱进行压缩,将所有在同一个社区的节点压缩成一个新节点,社区内节点之间的边的权重转化成新节点的环的权重,社区间的边权重转化为新节点间的边权重;S4A.1.6重复步骤4A.1.1,直到整个通用关系图谱的模块度不再发生变化;S4A.1.7过滤合并及剪枝。实时线处理时,对于实时新增节点i的处理包括以下步骤:S4B.1.1对于新增节点i,把新增节点i随机分配到其一个邻居节点所在社区,计算分配前后模块度增量ΔQ,其中,模块度Q按照式(1)计算;步骤S4B.1.2若上一步计算得到的ΔQ不大于阈值,则随机选择另外一个邻居节点,返回步骤S4B.1.1,否则,把新增节点i分配到当前邻居节点所在的社区,结束此次划分;S4.2基于社区交互关系图谱进行刷量团伙及用户角色识别通过Lockinfer算法进行刷量Lockstep行为风险团伙检测发现和改进个性化PageRank算法来获取交互关系网络中的用户节点的欺诈传播分值,用于用户角色判定,具体包括以下步骤:步骤S4.2.1通过Lockinfer算法检测刷量行为风险团伙定义s为源节点用户,则S为源节点用户集合,t为目标节点用户,则T为目标节点用户集合,则步骤S4.2.1具体包括以下步骤:步骤S4.2.1.1基于选择种子算法选出具有疑似Lockstep行为的种子节点组成的种子节点集,其中,选择种子算法具体包括以下步骤:步骤S4.2.1.1.1对交互关系图谱进行奇异值分解,基于K

SVD算法计算邻接矩阵A的左奇异向量U和右奇异向量V,用左奇异向量U两两组合绘制谱子空间:对每一个对(i,j),1≤i<j≤k,k为K

SVD的迭代次数,绘制左奇异向量U
i
vsU
j
的谱子空间,U
i
为第i次迭代获得的左奇异向量,U
j
为第j次迭代获得的左奇异向量,寻找如下表中出现"Rays"、"Staircase"和"Pearls"的异常现象:
步骤S4.2.1.1.2将谱子空间利用霍夫变换从笛卡尔坐标系转化为极坐标系,即对于谱子空间中每一个用户节点u
x
,x≤N,N为用户节点的总个数,有下式(3):式(3)中,笛卡尔坐标(U
i,x
,U
j,x
)转化成极坐标(r
x

x
),r
x
为用户节点u
x
的极坐标半径,θ<...

【专利技术属性】
技术研发人员:叶倩怡
申请(专利权)人:东方财富信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1