一种信息抽取的弹幕评论推荐方法技术

技术编号:25695553 阅读:53 留言:0更新日期:2020-09-18 21:06
本发明专利技术公开了一种信息抽取的弹幕评论推荐方法,其特点是采用周围弹幕评论词嵌入模块、周围弹幕评论句子语义嵌入模块、周围弹幕评论间相似度计算模块和周围弹幕评论分数预测模块组成的模型,以及基于深度学习的信息抽取方法,使用周围弹幕评论之间的相关性使弹幕评论之间进行关联,在用户发送弹幕评论时提供候选的弹幕评论列表,为目标用户推荐在某一时间点合适的评论。本发明专利技术与现有技术相比具有准确率高,可解释性强,为目标用户推荐在某一时间点合适的评论,大大提升了弹幕评论推荐的性能,从而防止用户在发表弹幕评论时而错过视频内容,适用于任何用户参与评论的场景。

【技术实现步骤摘要】
一种信息抽取的弹幕评论推荐方法
本专利技术涉及推荐系统
,具体的说是一种基深度学习的信息抽取弹幕评论推荐方法。
技术介绍
弹幕是一种关于视频内容的实时评论方式,与传统的在线评论不同,弹幕并未将视频和评论分开呈现,而是在视频内容对应的时间点通过直接覆盖在视频内容上面进行展现。最近几年网络视频发展迅速,如网络电视剧、直播或用户自创的短视频等,据思科的预测,至2020年,在线视频将占据消费者互联网流量的80%以上,因此,通过何种手段吸引用户在平台观看视频成为视频网站亟待解决的关键问题。而弹幕的出现成为了解决该问题的一把利器,如:据Bilibili统计,正是由于弹幕的存在,该平台2017年的用户量是2016年用户量的2.5倍。显然,弹幕的存在提升了用户与视频网站的交互,通过发送弹幕分享自己的观点同时可以阅读其他人的相关看法,从而吸引了用户,提升了网站用户的留存率。虽然弹幕以文本的形式存在,但是之前的研究已经初步尝试将弹幕应用于不同的领域,如语言分析、语义评论理解、基于评论的视频理解、用户行为建模等。在当今信息爆炸的互联网时代,推荐系统在减轻信息负载方面起着至关重要的作用。推荐系统因其有效性也被应用于诸多在线服务中,例如:电商网站、在线新闻、社交媒体网站。因为用户需求的差异,个性化的推荐系统在进行推荐的同时结合用户的喜好进行相关的推荐,个性化推荐的策略是根据用户与网站的交互历史(如评分、点击、购买等行为)建模用户的偏好从而进行推荐。常用的个性化推荐算法有:基于协同过滤的方法、矩阵分解的方法、基于内容的方法、基于深度学习的方法。现有技术的推荐系统用户发送弹幕评论的效率低,适用参与评论的场景有限,尤其考虑到用户在观看视频时发送弹幕会错过视频内容,且弹幕在某一视频帧处存在一些语义相同的弹幕,用户体验差。
技术实现思路
本专利技术的目的是针对现有技术不足而提供的一种信息抽取的弹幕评论推荐方法,采用周围弹幕评论词嵌入模块、周围弹幕评论句子语义嵌入模块、周围弹幕评论间相似度计算模块和周围弹幕评论分数预测模块组成的模型,利用周围弹幕评论进行信息建模,使用周围弹幕评论之间的相关性使弹幕评论之间进行关联,在用户发送弹幕评论时为用户提供候选的弹幕评论列表,为用户进行弹幕评论的推荐。使用目标弹幕评论和周围弹幕评论之间的ROUGE-N指标和模型预测结果之间的KL散度进行训练提升推荐的准确性,为用户提供候选的弹幕评论列表,为目标用户推荐在某一时间点合适的评论,提升用户发送弹幕评论的效率,从而防止用户在发表弹幕评论时而错过视频内容的观看,适用于任何用户参与评论的场景。实现本专利技术目的具体技术方案是:一种信息抽取的弹幕评论推荐方法,其特点采用周围弹幕评论词嵌入模块、周围弹幕评论句子语义嵌入模块、周围弹幕评论间相似度计算模块、周围弹幕评论分数预测模块和基于深度学习的信息抽取方法,使用周围弹幕评论之间的相关性使弹幕评论之间进行关联,在用户发送弹幕评论时提供候选的弹幕评论列表,为目标用户推荐在某一时间点合适的评论,具体包括以下具体步骤:步骤1:目标弹幕评论以及周围弹幕评论的获取根据弹幕的发送时间,获取特定时间点视频对应的目标弹幕评论以及周围弹幕评论进行信息建模,其中,10%为目标弹幕评论,用于之后的模型训练和性能评估,其余的作为候选集,用于为用户生成弹幕评论推荐。在进行模型训练时,每个目标弹幕评论根据其对应的视频内容播放时间选取周围的50条弹幕评论用于训练。步骤2:弹幕评论的词嵌入表示所述周围弹幕评论词嵌入模块采用Skip-Gram算法在Gensim平台,对用于训练的每条弹幕评论中的词进行词嵌入训练,使每个词以300维度的向量表示,得到每条弹幕评论的词嵌入表示;步骤3:弹幕评论语义表示的生成所述周围弹幕评论句子语义嵌入模块采用双向GRU网络,将词嵌入表示之后的每条弹幕评论送入双向的GRU网中,所述双向GRU网包含一个前向的GRU网络,一个反向的GRU网络,前向的网络从前到后的读取句子信息,而反向的网络从后至前逆向的读取句子信息。将两个网络的最后隐藏状态进行拼接,且由下述(a)式计算生成的每条弹幕评论表示:zi=σ(Wz[xi,hi-1])ri=σ(Wx[xi,hi-1])式中:xi为每条周围弹幕评论中的第i个词;Wz,Wx,Wh为模型参数;zi,ri对应门控循环单元GRU中的重置门和更新门。步骤4:弹幕相似性生成所述周围弹幕评论间相似度计算模块将生成的弹幕评论表示按下述(b)和(c)式计算弹幕相似性:hsj=[sim(c1,cj),...,sim(cT,cj)](c);式中:hgj为cj通过双向GRU之后的表示。如果将上一步生成的弹幕评论表示直接送入多层感知器和softmax中进行预测,则结果是为每条评论单独的建模而损失了弹幕评论之间的关联性,因此,受TextRank启发,使用句子之间的相似性抽取重要的句子,本专利技术使用弹幕评论之间的相似性作为辅助特征进行最终的评分预测。其中,计算弹幕评论之间相似性时,使用余弦相似度的方法计算通过双向GRU表示之后的评论之间的相似性。步骤5:评分预测所述周围弹幕评论分数预测模块由多层感知机和softmax组成,将通过双向GRU表示的弹幕评论表示和上一步得到的弹幕评论之间的相似性特征进行拼接输入到多层感知机和softmax中进行周围弹幕评论的评分预测并将分值大的推荐给用户。在进行模型训练时,因为进行弹幕评论推荐任务没有用户的点击率、评分等反馈,因此,本专利技术使用ROUGE指标计算目标弹幕评论和周围弹幕评论之间的分数,得到ROUGE分数后对其进行归一化,利用KL散度作为目标函数使模型得到的分布和ROUGE得到的分数尽可能相同。所述将弹幕评论表示和弹幕相似性拼接后输入多层感知机和softmax中进行周围弹幕评论的评分预测包括下述步骤:1)按下述(d)式计算模型预测的周围弹幕评论的概率分布评分标签式中,cj为第j条周围弹幕评论;hsj为cj与其它周围弹幕评论之间的相似性向量值;hgj为第j条弹幕评论通过双向GRU之后的向量表示。2)使用ROUGE指标计算目标弹幕评论和周围弹幕评论之间的分数,按下述(e)式计算周围弹幕评论cj和目标弹幕评论t之间的ROUGE-n分数其中Count(gramn)表示t中n-gram的个数,Countmatch(gramn)表示cj,t共有的n-gram个数。3)对上述ROUGE-N分数按(f)式进行归一化处理,并按下述(g)式计算概率分布评分标签:4)利用KL散度(DKL)作为目标函数使模型得到的分布和ROUGE得到的分数尽可能相同,按下述(h)式计算:其中,cj为第j条周围弹幕评论;hsj为cj与其它周围弹幕评论之间的相似性向量值;hgj为第j条弹幕评论通过双向GRU之后的向量表示;Count(gramn)表示t中n-本文档来自技高网
...

【技术保护点】
1.一种信息抽取的弹幕评论推荐方法,其特征在于采用周围弹幕评论词嵌入模块、周围弹幕评论句子语义嵌入模块、周围弹幕评论间相似度计算模块、周围弹幕评论分数预测模块,以及基于深度学习的信息抽取方法,使用周围弹幕评论之间的相关性使弹幕评论之间进行关联,在用户发送弹幕评论时提供候选的弹幕评论列表,为目标用户推荐在某一时间点合适的评论,具体包括以下具体步骤:/n步骤1:目标弹幕评论以及周围弹幕评论的获取/n根据弹幕的发送时间,获取特定时间点视频对应的目标弹幕评论以及周围弹幕评论进行信息建模,其中,10%为为目标弹幕评论,其余为候选集,所述目标弹幕评论用于模型训练和性能评估;所述候选集用于为用户生成弹幕评论推荐;所述模型训练时每个目标弹幕评论根据其对应的视频内容播放时间,选取周围的50条弹幕评论用于训练;/n步骤2:弹幕评论的词嵌入表示/n所述周围弹幕评论词嵌入模块采用Skip-Gram算法在Gensim平台,对用于训练的每条弹幕评论中的词进行词嵌入训练,使每个词以300维度的向量表示,得到每条弹幕评论的词嵌入表示;/n步骤3:弹幕评论语义表示的生成/n所述周围弹幕评论句子语义嵌入模块采用双向GRU网络,所述双向GRU包含一个顺向读取句子信息的前向GRU网络和一个逆向读取句子信息的反向GRU网络,将词嵌入表示的每条弹幕评论入双向的GRU网络中,将两个网络的最后隐藏状态进行拼接,且由下述(a)式计算生成的每条弹幕评论表示:/nz...

【技术特征摘要】
1.一种信息抽取的弹幕评论推荐方法,其特征在于采用周围弹幕评论词嵌入模块、周围弹幕评论句子语义嵌入模块、周围弹幕评论间相似度计算模块、周围弹幕评论分数预测模块,以及基于深度学习的信息抽取方法,使用周围弹幕评论之间的相关性使弹幕评论之间进行关联,在用户发送弹幕评论时提供候选的弹幕评论列表,为目标用户推荐在某一时间点合适的评论,具体包括以下具体步骤:
步骤1:目标弹幕评论以及周围弹幕评论的获取
根据弹幕的发送时间,获取特定时间点视频对应的目标弹幕评论以及周围弹幕评论进行信息建模,其中,10%为为目标弹幕评论,其余为候选集,所述目标弹幕评论用于模型训练和性能评估;所述候选集用于为用户生成弹幕评论推荐;所述模型训练时每个目标弹幕评论根据其对应的视频内容播放时间,选取周围的50条弹幕评论用于训练;
步骤2:弹幕评论的词嵌入表示
所述周围弹幕评论词嵌入模块采用Skip-Gram算法在Gensim平台,对用于训练的每条弹幕评论中的词进行词嵌入训练,使每个词以300维度的向量表示,得到每条弹幕评论的词嵌入表示;
步骤3:弹幕评论语义表示的生成
所述周围弹幕评论句子语义嵌入模块采用双向GRU网络,所述双向GRU包含一个顺向读取句子信息的前向GRU网络和一个逆向读取句子信息的反向GRU网络,将词嵌入表示的每条弹幕评论入双向的GRU网络中,将两个网络的最后隐藏状态进行拼接,且由下述(a)式计算生成的每条弹幕评论表示:
zi=σ(Wz[xi,hi-1])
ri=σ(Wx[xi,hi-1])









式中:xi为每条周围弹...

【专利技术属性】
技术研发人员:吴雯班启敏陈嘉逸贺樑
申请(专利权)人:华东师范大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1