基于时间感知与关键信息抽取的用户转发预测方法和系统技术方案

技术编号:32329584 阅读:22 留言:0更新日期:2022-02-16 18:36
本发明专利技术涉及一种基于时间感知与关键信息抽取的用户转发预测方法和系统。该方法的步骤包括:根据用户与目标推文的原作者的全部历史发布内容的相关性,以及用户与原作者发布内容所关注的主题随时间迁移的特性,得到融合用户及原作者的全局和层级历史内容后的目标推文特征表示;使用Topk

【技术实现步骤摘要】
基于时间感知与关键信息抽取的用户转发预测方法和系统


[0001]本专利技术属于信息技术、社交媒体、自然语言处理
,具体涉及一种基于时间感知与关键信息抽取的用户转发预测方法和系统。

技术介绍

[0002]在用户行为预测中,转发预测任务近年来受到了广泛的关注。目前,社交媒体中转发预测的研究主要采用两种信息。第一种研究方法通过社交网络图结构来构建预测模型。如Zhao等人从注意力排序网络的角度研究了图像转发的问题。作者引入了具有两个子网的多模态神经网络,其中递归神经网络学习图像推文的上下文语义表示,卷积神经网络学习图片视觉表示,之后将其与用户历史信息计算注意力系数得到用户对各个图像的偏好排名以预测转发趋向。Cao等人通过研究网络中用户的级联效应来判断用户在未来某一时刻是否进行转发行为。该工作设定用户的转发行为取决于与其相关用户的转发状态与当前用户的影响力,通过以上两个因素来建模信息在用户网络中的传播过程,判断用户在最终时刻的转发状态。第二种方法以内容表示为研究路线,从用户上下文中提取用户偏好用以预测对特定内容的转发情况。Zhang等人提出了一种基于注意力的深度神经网络来整合上下文信息和社会信息,用特征嵌入方法来表示用户、用户的关注兴趣、作者和推文等信息。Ma等人在预测模型中将用户关注话题融入其中,通过主题模型提取用户与其相关用户及其参与讨论过的话题来获得用户关注偏好,再将目标内容与用户相关话题计算相似度来得到用户对应目标信息的向量表示用于预测转发行为。
[0003]现有的转发预测方法大多着眼于利用用户发布历史、用户社交关系等多种信息对用户偏好进行建模。从Ma等人的工作中本方案可以看到,用户的转发行为主要受到以下几个方面影响:1)用户本身是否对目标文本的主题内容感兴趣,如果该文本与用户历史内容主题相近则更有可能被转发;2)用户是否与目标文本原作者其它发表内容风格相似,如果两用户本身风格相似,则用户更容易转发该文本;3)用户朋友圈内近期是否出现相关主题,如果该文本所涉及话题高频曝光,则用户会更有倾向去关注该话题下内容。
[0004]基于以上的影响因素可以发现,目前的用户转发研究工作仍然存在几点待改善问题:1)以往的工作使用历史发布内容判断用户和原作者相似度。而事实上,用户与原作者发布的内容主题多样且关注点会随时间变化,以往工作忽视了用户历史内容随时间变化这一特点,而将用户时间线上所有历史发布内容统一对待。2)用户朋友圈内容可以作为辅助信息帮助判断用户是否会对目标内容的话题感兴趣,但用户朋友圈内容通常多样复杂,关键的话题词往往只有简短几个。以往的工作并没有一个能够从众多朋友圈内容中筛选出与目标文本真正相关信息的机制。

技术实现思路

[0005]本专利技术针对上述问题,提供一种基于时间感知与关键信息抽取的用户转发预测方法和系统。
[0006]本专利技术采用的技术方案如下:
[0007]一种基于时间感知与关键信息抽取的用户转发预测方法,包括以下步骤:
[0008]根据用户与目标推文的原作者的全部历史发布内容的相关性,以及用户与原作者发布内容所关注的主题随时间迁移的特性,得到融合用户及原作者的全局和层级历史内容后的目标推文特征表示;
[0009]使用Topk

Mask机制动态地抽取用户的朋友圈信息关键词,使用Tweet

Mask机制学习用户的每条朋友圈推文的权重,并将两种机制输出的结果合并,得到用户的朋友圈特征表示;
[0010]根据融合用户及原作者的全局和层级历史内容后的目标推文特征表示,以及用户的朋友圈特征表示,预测用户是否会对目标推文进行转发。
[0011]进一步地,所述根据用户与原作者的全部历史发布内容的相关性,以及用户与原作者发布内容所关注的主题随时间迁移的特性,得到融合用户及原作者的全局和层级历史内容后的目标推文特征表示,包括:
[0012]根据用户和原作者的全部历史发布内容,得到用户和原作者的全局特征表示;
[0013]将用户和原作者的全部历史发布内容划分为K个片段,计算时间感知操作之后的用户和原作者的层级特征表示;
[0014]将目标推文分别与用户与原作者的全局特征表示、层级特征表示做注意力操作,得到用户与目标推文交互后的全局特征表示g1和层级特征表示h1,以及原作者与目标推文交互后的全局特征表示g2和层级特征表示h2;
[0015]将得到的推文交互表示与目标推文target拼接:
[0016]target(u,a)=concat[h1;g1;h2;g2;target][0017]其中,target(u,a)表示融合了用户u及原作者a的全局和层级历史内容后的目标推文特征表示。
[0018]进一步地,所述Topk

Mask机制和所述Tweet

Mask机制为:
[0019][0020][0021][0022]其中,M
tweet
[i,j]表示Tweet

Mask机制的掩码矩阵;M
topk
[i,j]表示Topk

Mask机制的掩码矩阵;tweet
i
、tweet
j
表示第i和第j条推文;attn表示点乘注意力计算,f表示朋友圈内容表示向量,dim表示朋友圈内容表示向量的维数,token
i
表示第i个词。
[0023]进一步地,所述将两种机制输出的结果合并,得到用户的朋友圈特征表示,是将两个掩码机制与一个点乘注意力合并,得到朋友圈特征表示:
[0024][0025]其中,attn
i
表示点乘注意力计算;N表示朋友圈内容的数量。
[0026]进一步地,所述根据融合用户及原作者的全局和层级历史内容后的目标推文特征表示,以及用户的朋友圈特征表示,预测用户是否会对目标推文进行转发,包括:将融合用户及原作者的全局和层级历史内容后的目标推文特征表示以及用户的朋友圈特征表示相拼接,前馈传播后通过使用softmax函数归一化来获得最终的预测结果:
[0027]output=softmax(σ(W
·
cancat[target(u,a),fri]))
[0028]其中,σ表示sigmoid激活函数;W表示参数矩阵;cancat表示向量拼接。
[0029]一种采用上述方法的基于时间感知与关键信息抽取的用户转发预测系统,其包括:
[0030]用户

原作者相似度模块,用于根据用户与目标推文的原作者的全部历史发布内容的相关性,以及用户与原作者发布内容所关注的主题随时间迁移的特性,得到融合用户及原作者的全局和层级历史内容后的目标推文特征表示;
[0031]朋友圈关键信息抽取模块,用于使用Topk

Mask机制动态地抽取用户的朋友圈信息关键词,使用Tweet

Mask机制学习用户的每条朋友圈推文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于时间感知与关键信息抽取的用户转发预测方法,其特征在于,包括以下步骤:根据用户与目标推文的原作者的全部历史发布内容的相关性,以及用户与原作者发布内容所关注的主题随时间迁移的特性,得到融合用户及原作者的全局和层级历史内容后的目标推文特征表示;使用Topk

Mask机制动态地抽取用户的朋友圈信息关键词,使用Tweet

Mask机制学习用户的每条朋友圈推文的权重,并将两种机制输出的结果合并,得到用户的朋友圈特征表示;根据融合用户及原作者的全局和层级历史内容后的目标推文特征表示,以及用户的朋友圈特征表示,预测用户是否会对目标推文进行转发。2.根据权利要求1所述的方法,其特征在于,所述根据用户与原作者的全部历史发布内容的相关性,以及用户与原作者发布内容所关注的主题随时间迁移的特性,得到融合用户及原作者的全局和层级历史内容后的目标推文特征表示,包括:根据用户和原作者的全部历史发布内容,得到用户和原作者的全局特征表示;将用户和原作者的全部历史发布内容划分为K个片段,计算时间感知操作之后的用户和原作者的层级特征表示;将目标推文分别与用户与原作者的全局特征表示、层级特征表示做注意力操作,得到用户与目标推文交互后的全局特征表示g1和层级特征表示h1,以及原作者与目标推文交互后的全局特征表示g2和层级特征表示h2;将得到的推文交互表示与目标推文target拼接:target(u,a)=concat[h1;g1;h2;g2;target]其中,target(u,a)表示融合了用户u及原作者a的全局和层级历史内容后的目标推文特征表示。3.根据权利要求2所述的方法,其特征在于,所述全局特征表示g1采用下式计算:采用下式计算:采用下式计算:其中,W
u1
表示针对用户全局特征的前馈神经网络参数,u
i
表示用户全局特征,W
t
表示针对目标推文的前馈神经网络参数,target表示目标推文,表示注意力权重,T表示用户的历史推文数量,F表示前馈神经网络,||表示将用户与推文的特征进行维度变换然后拼接在一起,最后加权得到目标推文与用户的全局融合特征g1。4.根据权利要求2所述的方法,其特征在于,所述层级特征表示h1采用下式计算:采用下式计算:
其中,W
u2
表示针对用户的层级特征的前馈神经网络参数,u

i
表示用户的层级特征,W
h
表示针对目标推文的前馈神经网络参数,target表示目标推文,表示注意力权重,K表示历史内容划分的片段数;使用用户每个时间片的特征与目标推文求权重系数,之后加权聚合得到目标推文与用户的层级特征的融合表示h1。5.根据权利要求1所述的方法,其特征在于,所述Topk
‑<...

【专利技术属性】
技术研发人员:林政付鹏刘欢张雨帆王伟平孟丹
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1