一种基于弱可信数据的跨社群潜在人物关系分析方法技术

技术编号:20622419 阅读:26 留言:0更新日期:2019-03-20 14:21
本发明专利技术提出一种基于弱可信数据的跨社群潜在人物关系分析方法,该方法不依赖人物属性标签无监督实体识别方法抽取出实体,使用层次结构来测量不同属性社群下用户节点的相似度,构建多层图来编码结构相似性,为节点生成由多重身份特征的用户根据不同特征聚类形成的结构性网络关系图,从而发现网络上无关联而现实中可能相似的潜在人物关系。此外,该方法基于用户相关系数算法,在发现无直接边相连的两个用户节点潜在关系具有明显的优势,准确率高。

A Cross-Community Potential Person Relations Analysis Method Based on Weak Trusted Data

The invention proposes a cross-community latent person relationship analysis method based on weak trusted data. The method extracts entities without relying on unsupervised entity recognition method of personality attribute tags, uses hierarchical structure to measure the similarity of user nodes in different attribute communities, constructs multi-layer graph to encode structural similarity, and generates users with multiple identity characteristics for nodes according to different characteristics. The structured network graph formed by clustering can discover potential relationships of people that are unrelated on the network and may be similar in reality. In addition, based on the user correlation coefficient algorithm, the method has obvious advantages and high accuracy in finding the potential relationship between two user nodes without direct edge connection.

【技术实现步骤摘要】
一种基于弱可信数据的跨社群潜在人物关系分析方法
本专利技术涉及大数据分析及挖掘领域,尤其是在弱可信数据下潜在人物关系分析领域,具体为一种基于弱可信数据的跨社群潜在人物关系分析方法。
技术介绍
潜在人物关系分析是指从互联网搜索引擎或者社交网站得到相关匿名用户的数据,并用关键词抽取和数理分析的方法对匿名数据进行处理。通过分析得到的结果,发现用户在不同属性关系网下的结构身份,总结用户与用户间未有公开数据显示的关联规律。能够掌握用户在不同属性关系网下的结构身份,对于挖掘用户潜在行为及潜在关系具有重要的意义。本专利技术从用户在不同属性关系网下的结构身份角度出发,通过对网络用户日常上网行为痕迹分析方法的研究,设计一个有效的潜在人物关系检测方法,快速发现弱关联用户中的强关系。目前,各种人物关系检测算法主要分为两类:(1)基于人工标注或半监督的分析方法,现有专利包括:一种人物关系分类方法与装置(专利号:CN106778878A)。(2)基于强关联用户的关系分析方法,现有专利包括:一种基于海量数据的人物关系图谱分析方法(专利号:CN106708922A),融合分布式语义和句义特征的人物关系抽取方法(专利号:CN106484675A)。上述方法存在着一定的局限性,预处理时人工标注的语料直接决定了后期的关系识别的准确性,而如何定义人工标注的量,以及如何进行标注,都无法科学量化;通过抽取、语义、句义特征分析的方法只能发现强关联用户中的强关系,而对于那些在互联网上无直接边连接、只是通过多个中间人单连接的用户之间潜在关系的发现问题等还没有很好的解决。
技术实现思路
专利技术目的:为解决上述技术问题,本专利技术提出一种基于弱可信数据的跨社群潜在人物关系分析方法,该方法不依赖人物标签,以无监督实体识别方法抽取出实体,再用层次结构来测量不同属性社群下用户节点的相似度,通过构建多层图来编码结构相似性,为节点生成结构性网络关系图。本专利技术中引进结构性网络关系图的概念,结构性网络关系图是由多重身份特征的用户根据不同特征聚类形成的结构性人际关系网,通过结构相似的关系图来发现网络上无关联而现实中可能相识的潜在人物关系。技术方案:为实现上述技术效果,本专利技术提出以下技术方案:一种基于弱可信数据的跨社群潜在人物关系分析方法,包括步骤:(1)获取网页或社交网站上匿名用户的公开数据,并按照数据来源类别存成与来源类别相应格式的文件;(2)对步骤(1)中得到的文件进行数据清洗,再进行属性提取,将提取的属性数据存放在实体属性数据库内;(3)选取实体属性数据库内的某一属性A构建用户社群图,所述用户社群图中两用户之间的边值为两用户间关于属性A的属性关系值;(4)根据步骤(3)生成的用户社群图计算用户间结构身份相似度、社群结构相似度、无直接边相连的任意两个用户节点之间的相关系数;(5)根据预设相似度阈值选择社群结构相似度接近的用户社群,对于任意两个社群结构相似度接近的用户社群G1和G2,选取一对用户节点u和v,u∈G1,v∈G2,u和v直接相连;选取G1中用户u周边与v无直接连接的用户节点,计算这些用户节点与用户节点v之间的相关系数,选取相关系数最高N个用户节点作为用户节点v的潜在关系用户。进一步的,所述用户间的结构身份相似度的计算方法为:将所有用户归入顶点集V,将用户社群图中的边归入边集合E,形成无权重的无向图G,G=(V,E);选取直接相连的两个节点u和v,以u为中心节点扩展k跳邻居,得到用户社群G(u),以v为中心节点扩展k跳邻居,得到用户社群G(v);计算u和v之间的结构身份相似度fk(u,v):fk(u,v)=fk-1(u,v)+g(s(Rk(u)),s(Rk(v))),k≥0&|Rk(u)|,Rk(v)>0其中,Rk(u)表示G中距离u为k跳的节点的集合,Rk(v)表示在G中距离v为k跳的节点的集合;s(S)表示集合S的有序度序列;g(s(Rk(u)),s(Rk(v)))表示采用动态时间规整算法计算出的两个有序度序列s(Rk(u)),s(Rk(v))之间的距离;d(a,b)表示距离函数,其中,a为s(Rk(u))中的元素,b为s(Rk(v))中的元素;max(a,b)表示取a,b中的最大值,min(a,b)表示取a,b中的最小值。进一步的,所述社群图结构相似度的计算方法为:(3-1)构造一个加权多层图,所述用户社群图中的所有节点存在于加权多层图的每一层中,定义加权多层图的第k层中u和v之间边的权重为Wk(u,v),k*为在无向图G中所能取到的k的最大值;(3-2)根据步骤(3-1)计算出的权重,计算加权多层图的第k层的社群图结构相似度为:进一步的,所述无直接边相连的任意两个用户节点之间的相关系数的计算方法为:设m和n为两个无直接边相连的用户节点,m∈G(u),n∈G(v);d(u,v)用户节点u和v在图G中相似距离,gk(u,m)表示所述加权多层图的第k层中m距离u的跳数;定义m和n之间的相关系数为η,η越大表示m和n之间的潜在关系越近;η的计算公式为:η(m,n)=α*d(m,n)+(1-α)(gk(u,m)+gl(v,n)),α为常数系数。进一步的,所述步骤(1)中获取网页或社交网站上匿名用户的公开数据的方法为:借助redis技术和页面请求库request技术以及解析库beautifulSoup构建分布式爬虫,从网页或社交网站上爬取匿名用户的公开数据。进一步的,所述属性包括:用户ID,姓名,邮箱,电话,从事工作类型,工作单位,好友,加入的群组,所在城市,签到过的地点,兴趣爱好,教育背景。有益效果:与现有技术相比,本专利技术具有以下优势:该方法基于用户结构特征进行挖掘,无需依赖用户的身份标签等人工标注的特征因素,只通过用户的相互联系来计算用户特征的相似度,有效地提取出用户在社群网中的结构身份,弥补其他分析方法的不足。此外,该方法基于用户结构身份相似度算法,在跨社群用户关系发现方面具有明显优势,关系发现率高,运行速度快。附图说明图1为本专利技术的流程图;图2为实施例中用户社群图的示意图。具体实施方式下面结合附图对本专利技术作更进一步的说明。本专利技术提出一种基于弱可信数据的跨社群潜在人物关系分析方法,其流程图1所示,包括以下几个部分:步骤1)数据采集:包括redis+requests分布式大批量数据采集技术抓取网络公开匿名数据与MongoDB分布式大批量数据存储技术存储获取后的原始数据;步骤2)实体识别:定义相关实体与属性,将步骤1)中的原始数据进行清洗,并按照一定规则识别抽取出指定信息存入实体属性数据库;步骤3)图的结构挖掘:基于步骤2)实体属性数据库中某个用户节点边特征(关系),生成用户与用户间的社群联系图;步骤4)相似度算法:由步骤3)生成的用户社群关系图,再通过图的结构相似度算法计算出用户的结构身份相似度和相关系数;步骤5)跨社群用户关系分析:比较社群结构相似度接近的图,通过已关联的用户发现跨社群中无直接边关联用户的潜在关系上述方法中,在步骤1)中,数据采集具体包括:步骤11)数据定向获取:首先由控制节点借助redis内存数据库依据需求向各爬虫节点分发爬取任务,在获得了定向公开信息的相关数据后,移交给MongoDB集群,对数据进行集群存储数据存储器进行处理。步骤本文档来自技高网...

【技术保护点】
1.一种基于弱可信数据的跨社群潜在人物关系分析方法,其特征在于,包括步骤:(1)获取网页或社交网站上匿名用户的公开数据,并按照数据来源类别存成与来源类别相应格式的文件;(2)对步骤(1)中得到的文件进行数据清洗,再进行属性提取,将提取的属性数据存放在实体属性数据库内;(3)选取实体属性数据库内的某一属性A构建用户社群图,所述用户社群图中两用户之间的边值为两用户间关于属性A的属性关系值;(4)根据步骤(3)生成的用户社群图计算用户间结构身份相似度、社群结构相似度、无直接边相连的任意两个用户节点之间的相关系数;(5)根据预设相似度阈值选择社群结构相似度接近的用户社群,对于任意两个社群结构相似度接近的用户社群G1和G2,选取一对用户节点u和v,u∈G1,v∈G2,u和v直接相连;选取G1中用户u周边与v无直接连接的用户节点,计算这些用户节点与用户节点v之间的相关系数,选取相关系数最高N个用户节点作为用户节点v的潜在关系用户。

【技术特征摘要】
1.一种基于弱可信数据的跨社群潜在人物关系分析方法,其特征在于,包括步骤:(1)获取网页或社交网站上匿名用户的公开数据,并按照数据来源类别存成与来源类别相应格式的文件;(2)对步骤(1)中得到的文件进行数据清洗,再进行属性提取,将提取的属性数据存放在实体属性数据库内;(3)选取实体属性数据库内的某一属性A构建用户社群图,所述用户社群图中两用户之间的边值为两用户间关于属性A的属性关系值;(4)根据步骤(3)生成的用户社群图计算用户间结构身份相似度、社群结构相似度、无直接边相连的任意两个用户节点之间的相关系数;(5)根据预设相似度阈值选择社群结构相似度接近的用户社群,对于任意两个社群结构相似度接近的用户社群G1和G2,选取一对用户节点u和v,u∈G1,v∈G2,u和v直接相连;选取G1中用户u周边与v无直接连接的用户节点,计算这些用户节点与用户节点v之间的相关系数,选取相关系数最高N个用户节点作为用户节点v的潜在关系用户。2.根据权利要求1所述的一种基于弱可信数据的跨社群潜在人物关系分析方法,其特征在于,所述用户间的结构身份相似度的计算方法为:将所有用户归入顶点集V,将用户社群图中的边归入边集合E,形成无权重的无向图G,G=(V,E);选取直接相连的两个节点u和v,以u为中心节点扩展k跳邻居,得到用户社群G(u),以v为中心节点扩展k跳邻居,得到用户社群G(v);计算u和v之间的结构身份相似度fk(u,v):fk(u,v)=fk-1(u,v)+g(s(Rk(u)),s(Rk(v))),k≥0&|Rk(u)|,Rk(v)>0其中,Rk(u)表示G中距离u为k跳的节点的集合,Rk(v)表示在G中距离v为k跳的节点的集合;s(S)表示集合S的有序度序列;g(s(Rk(u)),s(Rk(v)))表示采用动态时间规整算法计算出的两个有序度序列s(Rk(u))...

【专利技术属性】
技术研发人员:孙国梓吕建伟李华康
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1