当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于活动的社交网络活动特征提取方法技术

技术编号:23513246 阅读:46 留言:0更新日期:2020-03-18 00:23
本发明专利技术公开了一种基于活动的社交网络活动特征提取方法,该方法内容包括:1、构建用户的社交关系图,采用图嵌入算法将其向量化,提取用户社交网络特征;2、对活动发生的经纬度及进行聚类,划分成不同的区域,提取地理位置特征;3、对活动时间按照用户习惯划分时间段,利提取活动时间特征;4、对用户和活动的语义因素采用潜在语义分析算法生成活动和用户偏好的语义向量,提取社交语义特征;5、对上述四个特征向量进行处理和拼接,获取用户和社交活动的特征表示向量。本发明专利技术在对属性做尽量少的运算处理相关特征的基础上,提取了用户和社交特征,作为后续训练神经网络的输入,从而降低活动社交网络推荐问题对研究者经验知识的依赖。

An activity-based feature extraction method for social network activities

【技术实现步骤摘要】
一种基于活动的社交网络活动特征提取方法
本专利技术涉及属于基于活动的社交网络的
,尤其涉及一种基于活动的社交网络中的社交活动特征提取方法。
技术介绍
基于活动的社交网络是一种将用户线上虚拟社交关系与线下实际面对面沟通相结合的新型社交网络。用户在线上组成兴趣小组,组内成员可以在线上沟通交流,发布活动通知,同时用户可以在预定的时间、地点实际地参加小组发起的线下社交活动,同组内成员面对面的交流沟通,基于活动的社交网络实现了现实世界和网络虚拟世界的有效结合。目前基于活动的社交网络研究的内容主要包括以下几个方面:社区检测、推荐问题、用户行为预测、种子用户挖掘和活动安排策略。随着基于活动的社交网络中数据量的急剧膨胀,用户从海量数据中检索出感兴趣的内容变得费力。因为基于活动的社交网络是一个复杂的异构网络,网络中包含多种节点以及多样的链接关系,包括用户、小组、活动、兴趣标签等,每个节点又拥有丰富的属性信息,例如活动节点的举办时间、举办地点、需要的经费、人数限制等,而且其中的推荐问题也十分多样,包括向用户推荐小组,向用户推荐活动、向小组推荐本文档来自技高网...

【技术保护点】
1.基于活动的社交网络活动特征提取方法,其特征在于,包括以下步骤:/n步骤1、根据活动的举行的经纬度,计算活动间的球面距离,采用DBSCAN算法将这些活动聚类为|R|个簇,分别为R={r

【技术特征摘要】
1.基于活动的社交网络活动特征提取方法,其特征在于,包括以下步骤:
步骤1、根据活动的举行的经纬度,计算活动间的球面距离,采用DBSCAN算法将这些活动聚类为|R|个簇,分别为R={r1,r2,…,rR}。每个活动的地理位置将属于一个区域;采用one-hot编码的方式处理,将上述地理信息映射为|R|维的向量,作为活动地理位置特征;
步骤2、构建用户的社交关系图G=(V,E),其中,V表示网络中用户节点的集合,E表示用户之间连边的集合;计算用户u和用户v的之间的权重Weight(u,v);基于上述社交关系图,采用图嵌入算法DeepWalk,用低维、稠密向量去表示图中节点,获得每个用户节点u的社交向量socialu,作为用户的社交网络特征;
步骤3、将时间特征向量按周划分,一周7天,每天分为3个时间段,将用户参加活动的时间分为21个阶段;基于时间段的划分策略,采用one-hot编码的方式生成活动的时间向量,作为社交活动时间特征;
步骤4、对于用户u和待推荐的活动e,将用户u的语义文本以及活动e的语义文本放到同一语义空间中,采用潜在语义分析(LatentSemanticAnalysis,LSA)模型进行语义文本分析,得到活动e的主题语义向量semantice和用户u的主题语义向量semanticu,作为社交语义特征;
步骤5、提取社交活动的地理位置、社交、时间和语义特征向量,进行处理和拼接,获取社交活动的特征向量;然后根据用户的历史参加社交活动记录,提取用户的地理位置、社交、时间以及语义特征向量,进行处理和拼接,获取用户的特征向量。


2.根据权利要求1所述基于活动的社交网络活动特征提取方法,其特征在于:所述步骤1中计算活动ei和ej地理位置之间的球面距离采用公式:
dist(ei,ej)sd=Radius*arccos(param1+param2)
其中,Radius为地球半径,参数param1和param2计算采用公式:



其中,late和lone表示活动e的地理位置坐标的经纬度。


3.根据权利要求1所述基于活动的社交网络活动特征提取方法,其特征在于:所述步骤2中计算用户u和用户v的之间的权重Weight(u,v)采用公式:



图嵌入算法首先在网络中随机选择节点vi作为起始节点,在节点vi的邻居节点中随机选择一个节点vj作为序列的下一个节点,再以vj开始重复这一随机过程,直到序列达到指定长度;-
然后采取Skip-Gram算法更新节点的向量表示;将网络中的节点看作是单词,那么游走序列即为这些单词构成的句子;Skip-Gram算法的思想是输入序列中的某个节点vj,目标是最大化序列中在该节点左右w窗口大小(i-w,i+w)中出现的节点的出现概率,采用优化目标函数:
minimizeJ(Φ)=logPr({vi-w,…,vi-1,vi+1,…,vi+w}|Φ(vj))
其中,Φ表示节点的向...

【专利技术属性】
技术研发人员:张三峰殷悦迪江咏涵
申请(专利权)人:东南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1