一种基于用户行为的社交网络中朋友关系挖掘方法技术

技术编号:14416503 阅读:96 留言:0更新日期:2017-01-12 09:30
一种基于用户行为的社交网络中朋友关系挖掘方法,包括以下步骤:1)通过用户已有社交行为的记录数据,分别建立二分图与有向转移网络,即用户—餐馆和用户—口味;2)根据网络拓扑关系,分别提取关于节点或连边的具有表征两两用户之间社交行为的特征变量;3)采用机器学习分类器模型xgboost,将所有样本数据通过10折交叉验证,训练并构建用户关系预测器模型;4)取10次验证结果的平均值作为模型的最终评价成绩。本发明专利技术将人们的社交行为映射到网络中,用网络拓扑特征反映社交行为的共性变量,使得预测用户之间朋友关系的结果具有较高精确度,既有利于引导用户寻找合适的新朋友,也有助于商家推荐更有价值的信息。

【技术实现步骤摘要】

本专利技术涉及数据挖掘与推荐系统领域,特别是涉及一种基于用户行为的社交网络中朋友关系挖掘方法
技术介绍
国内社交网络兴起于2005年前后,模仿Friendster、Facebook等美国社交平台应用,校内网(后来的人人网)、51.com、豆瓣网、若邻网、天际网等一批社交网站在这一时期先后上线服务。尤其是在2008年开心网推出的“朋友买卖”、“抢车位”、“偷菜”等社交网络游戏,让开心网在白领群体中迅速蹿红,直追当时的社交平台“老大”人人网。社交平台经过十多年的发展,如今国内主流平台——微信与微博,他们集社交、购物、理财于一身,功能愈加全面化。六度空间理论指出:我们和任何一个陌生人之间所间隔的人不会超过六个,即我们最多通过五个中间人去认识一个陌生人。近年来社交工具越来越多地渗入到人们的日常生活中来,滴滴打车、美团外卖均可通过社交平台找到小伙伴进行拼单,六度空间理论无时无刻地发生在我们身边。而推荐系统的作用就在于尽快帮助用户们在社交平台上找到他们最热衷的信息或朋友。专利201410025336.3将社交网络映射到一个无向网络,存在弊端:因为往往大多数人转发名人的消息,但名人根本不认识这些人,所以他们两两之间只有单向连边,从而导致推荐结果无法保持较高的准确率与召回率水平。专利201310689161.1需要用到关联好友数据,以及用户的所属公司、所属行业或学校等个人隐私数据,所以该专利技术只适用于在具有大数据处理能力的公司进行朋友关系的挖掘,对于那些需要了解用户的朋友关系的普通公司而言,他们很难获取用户之间的朋友关系网络。鉴于以上缺陷,本专利技术提取二分图的静态指标、与时序有向转移网络的动态指标共同作为用户间行为的特征,利用机器学习算法挖掘用户之间的朋友关系,弥补了缺失用户关系网络的不利影响,具有较好的推荐结果。
技术实现思路
为了克服传统朋友关系预测模型在准确率与召回率上无法保持两者均处在较高的水平的不足,本专利技术提出一种兼顾准确率与召回率、预测效果良好的基于用户行为的社交网络中朋友关系挖掘方法。本专利技术解决其技术问题所采用的技术方案如下:一种基于用户行为的社交网络中朋友关系挖掘方法,包括以下步骤:S1:通过用户已有行为的记录数据,分别建立出两类二分图与有向转移网络,即用户—餐馆地区,用户—口味标签;S2:根据用户—餐馆地区与用户—口味标签的二分图,从网络的节点角度,提取出每对用户的节点相似度特征,节点相似度特征用于表征两个用户之间的行为偏好差异;根据用户—餐馆地区与用户—口味标签的有向转移网络,从网络的连边角度,提取出每对用户的有向连边属性特征,有向连边属性特征用于表征两个用户之间的相互影响;S3:由原始数据已知用户之间的朋友关系,采用机器学习分类器模型xgboost,将所有样本数据通过10折交叉验证,训练并构建用户关系预测器模型;S4:取交叉验证的10次验证结果的平均值作为用户关系预测器模型的最终评价成绩。进一步,所述步骤S1中,用到的餐馆地区不是原数据集里的餐馆所在城市或州信息,因为这两个地理特征过于宽泛,无法量化反映用户选择餐馆时的地区移动模式。所以本专利技术利用自适应DBSCAN密度聚类算法,各城市的所有餐馆根据地理经纬度信息,分别聚类到各自密度可达的地区聚类簇,从而归纳出各个餐馆所属的地区特征。再进一步,所述步骤S1中,建立二分图方法,构建用户—餐馆地区二分图、以及用户—口味标签二分图,建立用户—餐馆二分图的过程如下:定义二分图G(X,E1,Y),其中X=[x1,x2,…xm]表示各个用户,Y=[y1,y2,…yn]表示各个餐馆聚类簇,若用户xi去过餐馆聚类簇yj,则用有权连边eij表示该用户去了几次该餐馆聚类簇;同理,用户—口味标签二分图G(X,E2,T)。所述步骤S1中,建立有向转移网络方法,构建用户之间关于餐馆地区、以及口味标签的有向转移网络,建立用户—餐馆地区有向转移网络的过程如下:定义两个用户之间的有向转移网络其中xi,xj分别表示用户xi,xj,{Yi本文档来自技高网
...
一种基于用户行为的社交网络中朋友关系挖掘方法

【技术保护点】
一种基于用户行为的社交网络中朋友关系挖掘方法,其特征在于:所述挖掘方法包括以下步骤:S1:通过用户已有行为的记录数据,分别建立出两类二分图与有向转移网络,即用户—餐馆地区,用户—口味标签;S2:根据用户—餐馆地区与用户—口味标签的二分图,从网络的节点角度,提取出每对用户的节点相似度特征,节点相似度特征用于表征两个用户之间的行为偏好差异;根据用户—餐馆地区与用户—口味标签的有向转移网络,从网络的连边角度,提取出每对用户的有向连边属性特征,有向连边属性特征用于表征两个用户之间的相互影响;S3:由原始数据已知用户之间的朋友关系,采用机器学习分类器模型xgboost,将所有样本数据通过10折交叉验证,训练并构建用户关系预测器模型;S4:取交叉验证的10次验证结果的平均值作为用户关系预测器模型的最终评价成绩。

【技术特征摘要】
1.一种基于用户行为的社交网络中朋友关系挖掘方法,其特征在于:所述挖掘方法包括以下步骤:S1:通过用户已有行为的记录数据,分别建立出两类二分图与有向转移网络,即用户—餐馆地区,用户—口味标签;S2:根据用户—餐馆地区与用户—口味标签的二分图,从网络的节点角度,提取出每对用户的节点相似度特征,节点相似度特征用于表征两个用户之间的行为偏好差异;根据用户—餐馆地区与用户—口味标签的有向转移网络,从网络的连边角度,提取出每对用户的有向连边属性特征,有向连边属性特征用于表征两个用户之间的相互影响;S3:由原始数据已知用户之间的朋友关系,采用机器学习分类器模型xgboost,将所有样本数据通过10折交叉验证,训练并构建用户关系预测器模型;S4:取交叉验证的10次验证结果的平均值作为用户关系预测器模型的最终评价成绩。2.如权利要求1所述的一种基于用户行为的社交网络中朋友关系挖掘方法,其特征在于:所述步骤S1中,利用自适应DBSCAN密度聚类算法...

【专利技术属性】
技术研发人员:宣琦周鸣鸣张致远傅晨波翔云吴哲夫
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1