一种基于图计算的可信社交关系分析方法技术

技术编号:19345325 阅读:24 留言:0更新日期:2018-11-07 15:04
本发明专利技术公开了一种基于图计算的可信社交关系分析方法,所述方法包括:搜集社交网络原始数据,建立图计算模型;采用社区检测算法将所述图计算模型分成若干子图社区,并计算子图社区结点的大小;根据图计算模型,计算每个结点包含三角计数、入度、出度在内的属性特征,并结合子图社区结点大小,判断并筛选出该社交网络中为可信社交关系的用户名单。本发明专利技术可以对社交网络中的可信关系进行识别检测,并得出有效的可信社交关系。

A trusted social relation analysis method based on graph computing

The invention discloses a trusted social relationship analysis method based on graph computing, which includes: collecting original data of social network and establishing graph computing model; dividing the graph computing model into several sub-graph communities by using community detection algorithm, and calculating the size of sub-graph community nodes; and calculating according to graph computing model. Each node contains attributes such as triangle counting, entrance and exit. Combining with the size of sub-graph community nodes, the list of trusted users in the social network is judged and screened. The invention can identify and detect the trusted relationship in the social network, and obtain an effective trusted social relationship.

【技术实现步骤摘要】
一种基于图计算的可信社交关系分析方法
本专利技术属于网络安全及互联网大数据领域,更具体来说,涉及一种基于图计算的可信社交关系分析方法。
技术介绍
近年来,可信关系模型越来越重要。商家、企业或者政府可以通过信用度限制个体或者群体的行为。通过社交网络可以识别某个人的信用度。可信关系还可以用于银行的风险控制系统中。众所周知,传统银行评估模型无法给过去没有发生过借贷交易的人进行信用评分,造成“无记录”的借款人风险无法评估。但是通过分析当前用户的社交关系可以有目的的构建全新的信用体系,帮助金融机构“识别”更多的信用度较高的借贷人。再者,近年来利用电话进行的诈骗方式呈爆发趋势,受骗面广,金额巨大,通信诈骗成为巨大的用户痛点。电信诈骗案件频发,诈骗者拥有多样的诈骗手段,让人防不胜防,社会影响恶劣,在甄别诈骗电话时,需要进行仿冒领导、仿冒公检法、仿冒熟人、骚扰等判断,算法执行时间较长,无法有效、快捷的分析出诈骗电话号码。伴随着信息社会的发展,安全逐渐成为人们不可忽视的方面。从社交网络的角度看,例如社交网络中平台安全性、谣言扩散、群体性事件的产生和传播以及电信诈骗事件频繁发生,给个人,企业甚至是国家都造成了一定的伤害。对于这些问题,可以采用相应手段筛选并冻结非法用户,但对于所有的用户都进行筛选过滤显然没有必要,且随着数据量增大,系统的负担也随之增加。如果将合法用户建立库表,当采集到数据时,优先判断是否为可信社交关系库中的用户,如果是,则无需进一步识别其非法身份,这样更节省算法时间,提高系统效率。所以研究可信社交关系有一定的现实意义和应用价值。而如果采用可信社交关系来证明用户的合法性,则可以免去复杂的判断非法身份验证步骤。
技术实现思路
本专利技术的目的是,提供一种基于图计算的可信社交关系分析方法,以解决原有的方法无法快捷有效的证明用户的可信性和合法性。为解决上述技术问题,本专利技术所采用的技术方案如下:一种基于图计算的可信社交关系分析方法,所述方法包括:步骤S1,搜集社交网络原始数据,建立图计算模型;步骤S2,采用社区检测算法将所述图计算模型分成若干子图社区,并计算子图社区结点的大小;步骤S3,根据图计算模型,计算每个结点包含三角计数、入度、出度在内的属性特征,并结合子图社区结点大小,判断并筛选出该社交网络中为可信社交关系的用户名单。进一步地,所述步骤S1中,建立图计算模型的过程具体包括:根据用户之间是否存在直接的社交联系,将不同的用户分成发起方用户和接收方用户,每个用户分别作为一个结点;当发起方用户至接收方用户建立社交联系时,建立从发起方用户所在的结点至接收方用户所在结点的的一条有向边;根据建立的多个有向边,构建呈网络结构分布的所述图计算模型。进一步地,分成若干子图社区的过程具体包括如下:计算该社交网络中所有边的介数;找到介数最大的边,将其从网络中移除;重复计算该社交网络中剩余边的介数,最后当达到最大迭代次数时,算法停止。进一步地,在所述步骤S3中,判断并筛选出该社交网络中为可信社交关系的用户名单具体包括:根据计算的结点的属性特征及结点数量,计算该子图社区的相关系数,并判断相关系数是否大于设定的阈值,如低于设定的阈值,则判定为可信的社交关系,如否,则丢弃。进一步地,在所述步骤S1中,还包括对搜集的社交网络原始数据进行数据清洗和过滤,筛选出有效字段信息。进一步地,所述相关系数的计算方法为:根据熵值法确定社区中的四个属性分别对应的权重α,β,γ,ε;将入度与三角形个数、出度与三角形个数、社区结点与三角形个数分别利用皮尔逊公式求得相关系数;最后的相关系数为R=(α+γ)*corr(inDeg,TriC)+(β+γ)*corr(outDeg,TriC)+(ε+γ)*corr(CommVerC,TriC),其中,inDeg表示入度,TriC表示三角个数,outDeg表示出度,CommVerC表示社区结点。进一步地,所述社区检测算法为GN算法。进一步地,所述社交网络原始数据包括:用户的通话数据。与现有技术相比,本专利技术所述的分析方法,基于图计算技术,将社交网络转化成有向图,首先根据社区检测算法将图划分成社区,根据有向图中结点的相互关系,计算每个结点的三角计数、入度、出度、社区内结点个数等作为结点属性值。根据相关系数,找出社会网络关系中的可信社交关系,也称作“白名单”。该方法能够在社交网络中识别可信度较高的用户,帮助企业、商家和政府等机构做分析、决策,共同维护社交网络的安全和用户的利益。附图说明图1为本专利技术实施例所述的基于图计算的可信社交关系分析方法的原理示意图。图2为本专利技术一个具体实施例所述的基于图计算的可信社交关系分析方法的具体步骤示意图。图3(a)为本专利技术实施例所述的呈放射状的社交网络示意图。图3(b)为本专利技术实施例所述的呈三角形的社交网络示意图具体实施方式以下结合附图对本专利技术作进一步详细说明,但不作为对本专利技术的限定。目前的可信关系的区分多种多样,大多时应用强规则认定某些群体的熟人关系,但是这样忽略了用户之间的交互信息和用户之间所在的社区信息,甚至将通话多次的快递送餐人员也认定是熟人关系。且正常的用户行为是多变的,难以定义,很难通过一般的特征进行区分。“图计算”是以“图论”为基础的对现实世界的一种“图”结构的抽象表达,以及在这种数据结构上的计算模式。通常,在图计算中,基本的数据结构表达就是:G=(V,E)其中,V意为vertex(顶点或者结点),E意为edge(边))。图数据结构很好的表达了数据之间的关联性,因此,很多应用中出现的问题都可以抽象成图来表示,以图论的思想或者以图为基础建立模型来解决问题。对于图G(V,E)中的结点vi,vj,如果存在一个三元组{vi,vj,vk},满足结点vi,vj,vk之间两两互相联通,则vi,vj之间存在一个三角关系。在社交网络中,如果两个结点之间存在多个三角关系,结点之间的关系呈网络状,两个结点之间的关系受到了多个其他结点的认可,因此可以认为这两个结点之间的关系是可信的。参照图3(a)和图3(b)所示,在普通人的社交网络中(同事、亲戚等),用户之间两两相识,存在如图3(b)所示的大量的三角关系;而在金融诈骗或电信诈骗中,受害者之间往往互不相识,即施骗者和受害者之间不存在三角关系,存在如图3(a)所示的放射状。参照图1所示,本专利技术所公开的一种基于图计算的可信社交关系分析方法,包括如下步骤:步骤S1,搜集社交网络原始数据,建立图计算模型;步骤S2,采用社区检测算法将所述图计算模型分成若干子图社区,并计算子图社区结点的大小;步骤S3,根据图计算模型,计算每个结点包含三角计数、入度、出度在内的属性特征,并结合子图社区结点大小,判断并筛选出该社交网络中为可信社交关系的用户名单。本专利技术正是基于图计算的分析方法,将用户之间产生联系的社交网络抽象成一张完整的图,结点表示真实社会网络中的用户,根据用户之间是否有关系建立结点之间的有向边,通过分析该社交网络的图结构特性,从其中获得属性特征,利用图计算框架建立一个有效的检测模型。诈骗类、骚扰类、群呼类虽然可以模仿用户的行为,但是很难和正常用户建立大量良好的社交关系,并改变整个通话网络的拓扑结构。因此基于图计算的方法可以有效得出可信社交关系。许多网络,如社交网络、计算本文档来自技高网
...

【技术保护点】
1.一种基于图计算的可信社交关系分析方法,其特征在于,所述方法包括:步骤S1,搜集社交网络原始数据,建立图计算模型;步骤S2,采用社区检测算法将所述图计算模型分成若干子图社区,并计算子图社区结点的大小;步骤S3,根据图计算模型,计算每个结点包含三角计数、入度、出度在内的属性特征,并结合子图社区结点大小,判断并筛选出该社交网络中为可信社交关系的用户名单。

【技术特征摘要】
1.一种基于图计算的可信社交关系分析方法,其特征在于,所述方法包括:步骤S1,搜集社交网络原始数据,建立图计算模型;步骤S2,采用社区检测算法将所述图计算模型分成若干子图社区,并计算子图社区结点的大小;步骤S3,根据图计算模型,计算每个结点包含三角计数、入度、出度在内的属性特征,并结合子图社区结点大小,判断并筛选出该社交网络中为可信社交关系的用户名单。2.如权利要求1所述的可信社交关系分析方法,其特征在于,所述步骤S1中,建立图计算模型的过程具体包括:根据用户之间是否存在直接的社交联系,将不同的用户分成发起方用户和接收方用户,每个用户分别作为一个结点;当发起方用户至接收方用户建立社交联系时,建立从发起方用户所在的结点指向接收方用户所在结点的的一条有向边;根据建立的多个有向边,构建呈网络结构分布的所述图计算模型。3.如权利要求2所述的可信社交关系分析方法,其特征在于,分成若干子图社区的过程具体包括如下:计算该社交网络中所有边的介数;找到介数最大的边,将其从网络中移除;重复计算该社交网络中剩余边的介数,最后当达到最大迭代次数时,算法停止。4.如权利要求2所述的可信社交关系分析方法,其特征在于,在所述步骤S3中,判断并...

【专利技术属性】
技术研发人员:庞韶敏于芳名万腾峰黄煜恒闭雨哲杨振新王嘉康金红刘长永杨满智蔡琳
申请(专利权)人:恒安嘉新北京科技股份公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1