The invention proposes a cross-community latent person relationship analysis method based on weak trusted data. The method extracts entities without relying on unsupervised entity recognition method of personality attribute tags, uses hierarchical structure to measure the similarity of user nodes in different attribute communities, constructs multi-layer graph to encode structural similarity, and generates users with multiple identity characteristics for nodes according to different characteristics. The structured network graph formed by clustering can discover potential relationships of people that are unrelated on the network and may be similar in reality. In addition, based on the user correlation coefficient algorithm, the method has obvious advantages and high accuracy in finding the potential relationship between two user nodes without direct edge connection.
【技术实现步骤摘要】
一种基于弱可信数据的跨社群潜在人物关系分析方法
本专利技术涉及大数据分析及挖掘领域,尤其是在弱可信数据下潜在人物关系分析领域,具体为一种基于弱可信数据的跨社群潜在人物关系分析方法。
技术介绍
潜在人物关系分析是指从互联网搜索引擎或者社交网站得到相关匿名用户的数据,并用关键词抽取和数理分析的方法对匿名数据进行处理。通过分析得到的结果,发现用户在不同属性关系网下的结构身份,总结用户与用户间未有公开数据显示的关联规律。能够掌握用户在不同属性关系网下的结构身份,对于挖掘用户潜在行为及潜在关系具有重要的意义。本专利技术从用户在不同属性关系网下的结构身份角度出发,通过对网络用户日常上网行为痕迹分析方法的研究,设计一个有效的潜在人物关系检测方法,快速发现弱关联用户中的强关系。目前,各种人物关系检测算法主要分为两类:(1)基于人工标注或半监督的分析方法,现有专利包括:一种人物关系分类方法与装置(专利号:CN106778878A)。(2)基于强关联用户的关系分析方法,现有专利包括:一种基于海量数据的人物关系图谱分析方法(专利号:CN106708922A),融合分布式语义和句义特征的人物关系抽取方法(专利号:CN106484675A)。上述方法存在着一定的局限性,预处理时人工标注的语料直接决定了后期的关系识别的准确性,而如何定义人工标注的量,以及如何进行标注,都无法科学量化;通过抽取、语义、句义特征分析的方法只能发现强关联用户中的强关系,而对于那些在互联网上无直接边连接、只是通过多个中间人单连接的用户之间潜在关系的发现问题等还没有很好的解决。
技术实现思路
专利技术目的:为解决上 ...
【技术保护点】
1.一种基于弱可信数据的跨社群潜在人物关系分析方法,其特征在于,包括步骤:(1)获取网页或社交网站上匿名用户的公开数据,并按照数据来源类别存成与来源类别相应格式的文件;(2)对步骤(1)中得到的文件进行数据清洗,再进行属性提取,将提取的属性数据存放在实体属性数据库内;(3)选取实体属性数据库内的某一属性A构建用户社群图,所述用户社群图中两用户之间的边值为两用户间关于属性A的属性关系值;(4)根据步骤(3)生成的用户社群图计算用户间结构身份相似度、社群结构相似度、无直接边相连的任意两个用户节点之间的相关系数;(5)根据预设相似度阈值选择社群结构相似度接近的用户社群,对于任意两个社群结构相似度接近的用户社群G1和G2,选取一对用户节点u和v,u∈G1,v∈G2,u和v直接相连;选取G1中用户u周边与v无直接连接的用户节点,计算这些用户节点与用户节点v之间的相关系数,选取相关系数最高N个用户节点作为用户节点v的潜在关系用户。
【技术特征摘要】
1.一种基于弱可信数据的跨社群潜在人物关系分析方法,其特征在于,包括步骤:(1)获取网页或社交网站上匿名用户的公开数据,并按照数据来源类别存成与来源类别相应格式的文件;(2)对步骤(1)中得到的文件进行数据清洗,再进行属性提取,将提取的属性数据存放在实体属性数据库内;(3)选取实体属性数据库内的某一属性A构建用户社群图,所述用户社群图中两用户之间的边值为两用户间关于属性A的属性关系值;(4)根据步骤(3)生成的用户社群图计算用户间结构身份相似度、社群结构相似度、无直接边相连的任意两个用户节点之间的相关系数;(5)根据预设相似度阈值选择社群结构相似度接近的用户社群,对于任意两个社群结构相似度接近的用户社群G1和G2,选取一对用户节点u和v,u∈G1,v∈G2,u和v直接相连;选取G1中用户u周边与v无直接连接的用户节点,计算这些用户节点与用户节点v之间的相关系数,选取相关系数最高N个用户节点作为用户节点v的潜在关系用户。2.根据权利要求1所述的一种基于弱可信数据的跨社群潜在人物关系分析方法,其特征在于,所述用户间的结构身份相似度的计算方法为:将所有用户归入顶点集V,将用户社群图中的边归入边集合E,形成无权重的无向图G,G=(V,E);选取直接相连的两个节点u和v,以u为中心节点扩展k跳邻居,得到用户社群G(u),以v为中心节点扩展k跳邻居,得到用户社群G(v);计算u和v之间的结构身份相似度fk(u,v):fk(u,v)=fk-1(u,v)+g(s(Rk(u)),s(Rk(v))),k≥0&|Rk(u)|,Rk(v)>0其中,Rk(u)表示G中距离u为k跳的节点的集合,Rk(v)表示在G中距离v为k跳的节点的集合;s(S)表示集合S的有序度序列;g(s(Rk(u)),s(Rk(v)))表示采用动态时间规整算法计算出的两个有序度序列s(Rk(u))...
【专利技术属性】
技术研发人员:孙国梓,吕建伟,李华康,
申请(专利权)人:南京邮电大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。