当前位置: 首页 > 专利查询>黑龙江大学专利>正文

社会网中基于主题兴趣的影响最大化方法技术

技术编号:18289666 阅读:47 留言:0更新日期:2018-06-24 04:26
社会网中基于主题兴趣的影响最大化方法,本发明专利技术涉及主题兴趣的影响最大化方法。本发明专利技术的目的是为了解决现有IC模型没有考虑传播项的特征,假定对所有传播项目的影响概率都是相同的;以及现有TIC模型没有考虑到用户的兴趣分布,不能准确地描述信息传播规律,导致信息传播预测准确率低的问题。本发明专利技术过程为:步骤一、建立基于主题兴趣的传播模型TI‑IC;步骤二、利用EM算法学习TI‑IC模型的参数和新传播项的主题分布向量;步骤三、基于步骤二提出针对TI‑IC模型的影响最大化算法。本发明专利技术用于社交网的影响最大化问题领域。

【技术实现步骤摘要】
社会网中基于主题兴趣的影响最大化方法
本专利技术涉及主题兴趣的影响最大化方法。
技术介绍
近年来,随着社交应用的普及,人们信息获取的方式发生了很大的改变。通过在线社交网络转发和分享消息逐渐成为了人们获取信息的主要方式。很多在线社交网站允许用户对信息进行转发、评论、标记或其他一些类似的操作。如果能充分挖掘社交网络中这些海量数据,发现传播规律,将促进新思想、新产品在社交网上快速传播。为了利用社交网进行病毒式营销,Kempe等人[1]等人首次提出了影响最大化问题:选取一个大小为k的初始用户集合(种集),使得在给定传播模型下,最终被影响的用户数量最大。文献[1]同时在两个个经典的传播模型(独立级联模型IC和线性阈值模型LT)给出了贪心算法。此后,影响最大化问题被广泛研究。一方面,为了扩展到大规模社交网络上,经典传播模型上高效的影响最大化算法[2-5]相继被提出;[1]KempeD,KleinbergJ.Maximizingthespreadofinfluencethroughasocialnetwork[C]//Procofthe9thACMSIGKDDIntConfonKnowledgeDiscoveryandDataMining.NewYork:ACM,2003:137-146[2]ChenWei,WangYajun,YangSiyu.Efficientinfluencemaximizationinsocialnetworks[C]//Procofthe15thACMSIGKDDIntConfonKnowledgeDiscoveryandDataMining.NewYork:ACM,2009:199-208[3]ChenWei,WangChi,WangYajun.Scalableinfluencemaximizationforprevalentviralmarketinginlarge-scalesocialnetworks[C]//Procofthe16thACMSIGKDDIntConfonKnowledgeDiscoveryandDataMining.NewYork:ACM,2010:1029-1038[4]KimJ,KimSK,YuH.Scalableandparallelizableprocessingofinfluencemaximizationforlarge-scalesocialnetworks[C]//Procofthe29thIntConfonDataEngineering.Piscataway,NJ:IEEE,2013:266-277[5]LiYuchen,ZhangDongxiang,TanKian-Lee.Real-timetargetedinfluencemaximizationforonlineadvertisements[J].ProceedingsoftheVLDBEndowment,2015,8(10):1070-1081)另一方面,为了更精确地模拟信息传播过程,一些新的传播模型[6-8]相继被提出。[6]BarbieriN,BonchiF,MancoG.Topic-awaresocialinfluencepropagationmodels[C]//Procofthe12thIntConfonDataMining.Piscataway,NJ:IEEE,2012:81-90[7]RongYu,ChengHong,MoZhiyu,etal.Whyithappened:Identifyingandmodelingthereasonsofthehappeningofsocialevents[C]//Procofthe21stACMSIGKDDIntConfonKnowledgeDiscoveryandDataMining.NewYork:ACM,2015:1015-1024[8]GalhotraS,AroraA,RoyS.Holisticinfluencemaximization-combiningscalabilityandefficiencywithopinion-awaremodels[C]//Procofthe2016ACMSIGMODIntConfonManagementofData.NewYork:ACM,2016:743-758SIGMOD现有的传播模型几乎都是利用朋友之间的影响来模拟传播过程。例如:TIC模型[6]利用用户的主题分布和传播项的主题分布来计算朋友之间在不同主题上的影响程度。然而,在现实生活中,发现这样一个现象:相对于朋友之间的影响,人们更容易被其感兴趣的信息吸引。例如:用户使用新浪微博转发好友发布的内容时,用户更多的是被内容本身所吸引,被好友影响的可能性相对较小。即使一个不经常联系的好友发布了令用户感兴趣的内容时,用户也会有很大可能性转发该内容。根据上述分析,在求解社会网中的影响最大化问题时理应考虑用户对传播项的兴趣。使用用户的兴趣分布和传播项的主题分布建立传播模型,可以更精确地描述信息传播过程,得到更准确的预测结果,具有重要的理论意义和广泛的应用价值。Domingos等人[9]最先考虑社会网中具有影响力的结点选择问题。2003年,Kempe等人[1]首次提出了影响最大化问题,证明了影响最大化问题在独立级联模型和线性阈值模型上都为NP-hard问题,并且设计出具有(1-1/e)近似比的贪心算法。贪心算法虽然简单,但是由于在每次迭代选择种子结点的过程中都需要进行大量的蒙特卡洛模拟来估计影响范围,导致贪心算法的效率较低。Barbieri等人[6]扩展了传统IC模型,提出了主题感知的独立级联模型(Topic-awareInfluenceCascade,TIC)。Cigdem等人[10]在该模型的基础上,提出了基于主题的影响最大化问题,设计了一个树形框架,利用索引来减少新传播项的计算量,使得算法效率得到很大提升。[9]DomingosP,RichardsonM.Miningthenetworkvalueofcustomers[C]//Procofthe7thACMSIGKDDIntConfonKnowledgeDiscoveryandDataMining.NewYork:ACM,2001:57-66[10]AslayC,BarbieriN,BonchiF,et.al.OnlineTopic-awareInfluenceMaximizationQueries[C]//Procofthe17thIntConfonExtendingDatabaseTechnology.NewYork:ACM,2014:92-101Chen等人[11]估计每个用户的影响上界,利用该上界对影响力小的用户进行剪枝,并设计了高效的计算上界的方法。Li等人[5]提出了在线广告的实时影响最大化,对于一个给定关键字的广告,在线寻找k个结点的种集,利用反向可达集的概念设计了一个基于采样技术的算法,不仅有近似比保障,也提升了算法的效率。[11]ChenShuo,FanJun,LiGuoliang,et.al.Onlinetopic-awareinfluencemaximizati本文档来自技高网...
社会网中基于主题兴趣的影响最大化方法

【技术保护点】
1.社会网中基于主题兴趣的影响最大化方法,其特征在于:所述方法具体过程为:步骤一、建立基于主题兴趣的传播模型TI‑IC;给定一个社会网有向图G=(V,E),一组用户的历史动作日志D(u,i,t),对于每个主题z

【技术特征摘要】
1.社会网中基于主题兴趣的影响最大化方法,其特征在于:所述方法具体过程为:步骤一、建立基于主题兴趣的传播模型TI-IC;给定一个社会网有向图G=(V,E),一组用户的历史动作日志D(u,i,t),对于每个主题z∈[1,Z],每个传播项i都有一个主题分量每个用户结点u都有一个兴趣分量因此每个传播项i存在主题分布向量每个用户结点u存在不同主题上的兴趣分布向量i∈[1,I];其中V为用户集合,E为关系集合;Z为主题总个数,取值为正整数;I为传播项总个数,取值为正整数;D中u属于G中的用户集合V;每个结点仅有一次机会由不活跃状态变为活跃状态,并且该过程不可逆;S表示种集,即初始的活跃用户集合,在t=0时刻,S中的结点在传播项i上活跃;在t≥1时刻,如果用户结点u的任何邻居结点w在时刻t-1变为活跃状态,则w都有一次机会去激活邻居用户结点u,激活的概率为当用户结点u的邻居结点活跃的条件下,用户结点u被激活的概率如下所示:其中,表示在传播项i的传播过程中,在用户结点u之前已经活跃的邻居结点集合,即Δ为时延阈值;N取值为正整数;ti(w)为结点w在传播项i上活跃的时刻,ti(u)为用户结点u在传播项i上活跃的时刻;ti(u)=∞,代表每个用户结点u不会接受传播项i;令表示传播项i在传播过程中,一定不会影响u的邻居集合;当点用户结点u的任何邻居结点w在传播项i上一定活跃,用户结点u在传播项i上活跃或不活跃;所述TI-IC为主题-兴趣的传播模型;步骤二、利用EM算法学习TI-IC模型的参数和新传播项的主题分布向量;EM算法的输入是:社会网有向图G=(V,E),用户历史动作日志D(u,i,t);假设TI-IC模型的每个传播项的传播轨迹都是独立的,则给定TI-IC传播模型参数Θ的对数似然函数,表示为:其中,L(Θ;Di)表示传播项i的传播轨迹的似然函数;传播项i的传播轨迹Di在第z个主题分量上的似然函数定义为:其中,表示传播项i的传播过程中,主题z使结点u被激活的概率,表示传播项i的传播过程中,主题z没有影响结点u的概率:φ为空集;利用EM算法学习TI-IC模型的参数,得到EM学习算法的输出,即TI-IC传播模型参数Θ,Θ包括和当新的传播项i出现时,求解新传播项i的主题分布向量步骤三、基于步骤二提出针对TI-IC模型的影响最大化算法。2.根据权利要求1所述社会网中基于主题兴趣的影响最大化方法,其特征在于:所述步骤二中利用EM算法学习TI-IC模型的参数,得到EM学习算法的输出,即TI-IC模型的参数Θ,Θ包括和具体过程为...

【专利技术属性】
技术研发人员:刘勇郭龙江王楠李金宝
申请(专利权)人:黑龙江大学
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1