一种训练用于预测社交网络用户转发消息的模型的方法技术

技术编号:17011506 阅读:30 留言:0更新日期:2018-01-11 08:13
一种训练用于预测社交网络用户转发消息的模型的方法,包括:1)获得所述社交网络中的历史数据,所述历史数据包括不同用户对同一条消息进行发布、转发的次序;2)根据所述历史数据,求解使得损失函数取值最小时各名用户的影响力和易感性;其中,所述影响力用于描述该名用户发布的消息被转发的概率,所述易感性用于描述该名用户受到发布消息的源发用户的影响而对所述消息进行转发的概率,所述损失函数是发布消息的源发用户的影响力、除所述源发用户之外的其他用户的易感性的函数;以及其中,所述用户的影响力和易感性作为所述用于预测社交网络用户转发消息的模型的参数。

【技术实现步骤摘要】
一种训练用于预测社交网络用户转发消息的模型的方法
本专利技术涉及对社交网络用户所期望转发的消息的预测。
技术介绍
近年来,在线社交网络以其在信息传播与共享、人际交流与沟通方面的重要作用而发展迅猛,典型代表包括Facebook、Twitter、微博、微信等。这些在线社交网络已经成为人们获取信息、人际交流的主要平台,很大程度上改变了人们的生活方式和社交方式并成为主要的信息传播平台。以微博为例,其基于用户关系进行信息获取、传播,用户可以通过WEB、WAP以及各种客户端组建个人社区,以140字以内的文字,图片和视频发布信息,并实现即时分享。诸如微博的在线社交网络可以满足用户对兴趣信息的需求,是帮助用户获取和分享新闻热点、兴趣内容、专业知识、舆论导向的重要平台。社交网络的上述特点可以被应用到许多领域,例如病毒营销、媒体广告和热点提取等,由此出现了许多关于预测用户所感兴趣的社交网络消息的研究。最普遍的传播预测模型有两种,第一种是基于显式或隐式的社交网络结构构建概率预测模型,然而在实际社交网络的场景中,社交网络结构很可能是随时间动态变化的,这使得此种方式需要不断地依据社交网络结构而更新所构建的概率预测模型才能保证预测的准确率;第二种是基于抽取用户、内容、时间序列等特征的机器学习模型,然而特征抽取的处理复杂度相对较高,并且不能保证特征的完全性和有效性。因此,如何设计一个既不需要社交网络结构信息,又不需要繁琐特征工程的预测模型是一个亟待解决的问题。针对上述问题,Bourigault等人在最近的研究中提出了用于社交网络中消息传播预测的用户表达学习模型(CDKModel),该模型将先后参与消息传播的社交网络用户映射到表达空间中,然后利用先转发用户比后转发用户在欧式空间中距离消息源发用户更近、和转发用户比未转发用户在欧式空间中距离消息源发用户更近这两个约束条件,构建损失函数的表达式,通过最小化损失函数,确定用户空间表达的具体参数。在该模型中,只根据转发序列时间戳先后信息自动学习用户空间表达,既不需要社交网络结构关系,也不需要代价高的特征工程。然而,上述CDK模型所基于的假设是理想状态下的,致使其仍存在需要改进的地方。例如,在CDK模型中假设社交网络中消息传播是对称的,即社交网络中的任意用户a向用户b传播信息的能力等同于用户b向用户a传播信息的能力。然而,在进行预测时,还应考虑不同的用户对其他用户的影响力和易感力是不同的,这是由于用户往往更倾向于转发微博明星、网络达人等影响力高的用户所发布的微博。基于上述理想状态下的假设,将会对预测的准确性造成影响,可见上述CDK模型的预测准确度仍有待改善。
技术实现思路
因此,本专利技术的目的在于克服上述现有技术的缺陷,提供一种训练用于预测社交网络用户转发消息的模型的方法,包括:1)获得所述社交网络中的历史数据,所述历史数据包括不同用户对同一条消息进行发布、转发的次序;2)根据所述历史数据,求解使得损失函数取值最小时各名用户的影响力和易感性;其中,所述影响力用于描述该名用户发布的消息被转发的概率,所述易感性用于描述该名用户受到发布消息的源发用户的影响而对所述消息进行转发的概率,所述损失函数是发布消息的源发用户的影响力、除所述源发用户之外的其他用户的易感性的函数;以及其中,所述用户的影响力和易感性作为所述用于预测社交网络用户转发消息的模型的参数。优选地,根据所述方法,所述损失函数是用户之间的临界惩罚间隔的函数,其中,用户之间的所述临界惩罚间隔为其中一名用户的易感性表达到发布消息的所述源发用户的影响力表达的欧式空间距离与另一名用户的易感性表达到所述源发用户的影响力表达的欧式空间距离之差。优选地,根据所述方法,所述用户之间的临界惩罚间隔C(i,j)为:μ是消息扩散树的平均出度,i和j分别表示用户ui和uj在发布、转发的次序中的顺序编号。优选地,根据所述方法,其中所述损失函数L(Z)采用分类损失函数-hingeloss,表示为:其中,C(i,j)为用户i和用户j之间的临界惩罚间隔,m是话题Cl中的任意一条消息,用户转发序列用户ui和uj为Φm×Φm转发序列中的任意两个非原发用户,tm(ui)<tm(uj)表示用户ui的转发时刻早于用户用户ui转发了消息m而用户uj未进行转发。用户表达集合Z=(z(u1),…,z(uN)),z(ui)=(z(ui)I,z(ui)S),N代表所有用户的个数。优选地,根据所述方法,其中步骤2)包括:2-1)针对用户集合中的各名用户uk设置初始的影响力z(uk)I和易感性z(uk)S;2-2)根据用户的当前的影响力和易感性,计算除所述源发用户之外的其他用户ui和uj之间的间隔距离δ以及临界惩罚间隔C(i,j);2-3)若δ<C(i,j),则计算所述损失函数L(Z)相较于所述源发用户的影响力的梯度所述损失函数L(Z)相较于所述用户ui的易感性z(ui)S的梯度和所述损失函数L(Z)相较于所述用户uj的易感性z(uj)S的梯度利用所获得的梯度更新用户的影响力和易感性;2-4)重复上述步骤2-2)、2-3),直到所获得的梯度中的至少一个小于设定的阈值或达到最大迭代次数。优选地,根据所述方法,在步骤2-3)中,利用下式更新用户的影响力和易感性:其中,是更新后的源发用户的影响力,是更新前的源发用户的影响力,α是梯度下降算法中学习率,是所述损失函数L(Z)相较于所述源发用户的影响力的梯度,z(ui)S(n+1)是更新后的用户ui的易感性,z(ui)S(n)是更新前的用户ui的易感性,所述损失函数L(Z)相较于所述用户ui的易感性z(ui)S的梯度,z(uj)S(n+1)是更新后的用户uj的易感性,z(uj)S(n)是更新前的用户uj的易感性,是所述损失函数L(Z)相较于所述用户uj的易感性z(uj)S的梯度。一种预测社交网络用户转发消息的方法,包括:1)基于前述任意一项方法确定发布消息m的源发用户的影响力以及除所述源发用户之外的其他用户ui的易感性z(ui)S;2)计算所述用户ui到所述源发用户的欧式空间距离:3)根据所述欧式空间距离,判断所述用户ui对所述源发用户所发表的消息进行转发的可能性。一种计算机可读存储介质,其中存储有计算机程序,所述计算机程序在被执行时用于实现前述任意一项所述的方法。一种用于预测社交网络用户转发消息的系统,包括:处理器、和存储装置,其中,所述存储装置用于存储计算机程序,所述计算机程序在被所述处理器执行时用于实现前述任意一项所述的方法。与现有技术相比,本专利技术的优点在于:根据信息传播过程的不对称性来建立模型,综合地考虑了用户对其他用户的影响力以及用户受到其他用户影响进而对消息进行转发的易感性,从而提高模型的预测性能。并且,本专利技术区分了在预测用户列表不同位置的用户的重要性差别,如果出现前面的用户对相对位置判断错误,则其惩罚高于排在后面的用户对判断错误,不同位置的用户对根据其在结果列表中的位置具有不同的临界惩罚间隔,从而进一步提高模型的预测性能。附图说明以下参照附图对本专利技术实施例作进一步说明,其中:图1示出了根据本专利技术的IS-VM模型的临界惩罚间隔示意图,其中用户0是发出信息的消息源,用户1~5为先后转发该条信息的其他用户;图2示出了根据本专利技术的平均本文档来自技高网
...
一种训练用于预测社交网络用户转发消息的模型的方法

【技术保护点】
一种训练用于预测社交网络用户转发消息的模型的方法,包括:1)获得所述社交网络中的历史数据,所述历史数据包括不同用户对同一条消息进行发布、转发的次序;2)根据所述历史数据,求解使得损失函数取值最小时各名用户的影响力和易感性;其中,所述影响力用于描述该名用户发布的消息被转发的概率,所述易感性用于描述该名用户受到发布消息的源发用户的影响而对所述消息进行转发的概率,所述损失函数是发布消息的源发用户的影响力、除所述源发用户之外的其他用户的易感性的函数;以及其中,所述用户的影响力和易感性作为所述用于预测社交网络用户转发消息的模型的参数。

【技术特征摘要】
2016.10.28 CN 20161095890781.一种训练用于预测社交网络用户转发消息的模型的方法,包括:1)获得所述社交网络中的历史数据,所述历史数据包括不同用户对同一条消息进行发布、转发的次序;2)根据所述历史数据,求解使得损失函数取值最小时各名用户的影响力和易感性;其中,所述影响力用于描述该名用户发布的消息被转发的概率,所述易感性用于描述该名用户受到发布消息的源发用户的影响而对所述消息进行转发的概率,所述损失函数是发布消息的源发用户的影响力、除所述源发用户之外的其他用户的易感性的函数;以及其中,所述用户的影响力和易感性作为所述用于预测社交网络用户转发消息的模型的参数。2.根据权利要求1所述的方法,所述损失函数是用户之间的临界惩罚间隔的函数,其中,用户之间的所述临界惩罚间隔为其中一名用户的易感性表达到发布消息的所述源发用户的影响力表达的欧式空间距离与另一名用户的易感性表达到所述源发用户的影响力表达的欧式空间距离之差。3.根据权利要求2所述的方法,所述用户之间的临界惩罚间隔C(i,j)为:μ是消息扩散树的平均出度,i和j分别表示用户ui和uj在发布、转发的次序中的顺序编号。4.根据权利要求2-3中任意一项所述的方法,其中所述损失函数L(Z)采用分类损失函数-hingeloss,表示为:其中,C(i,j)为用户i和用户j之间的临界惩罚间隔,m是话题Cl中的任意一条消息,用户转发序列用户ui和uj为Φm×Φm转发序列中的任意两个非原发用户,表示用户ui的转发时刻早于用户uj,ui∈Φ,用户ui转发了消息m而用户uj未进行转发。用户表达集合Z=(z(u1),…,z(uN)),z(ui)=(z(ui)I,z(ui)S),N代表所有用户的个数。5.根据权利要求4...

【专利技术属性】
技术研发人员:沈华伟刘伟张静查礼付戈程学旗
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1