新浪微博事件推荐方法技术

技术编号:17007763 阅读:23 留言:0更新日期:2018-01-11 04:01
本发明专利技术公开一种新浪微博事件推荐方法,针对目前社交短文本推荐算法准确度不高的问题,通过改进的余弦夹角算法计算用户模型与事件向量的相似度;若相似度高于设定的阈值,则向用户推送该事件;并且通过最近一段时间内新到达的时间对用户模型进行更新,使其能够跟踪事件最新发展状态;结合用户点赞行为再次对用户模型进行更新,使推荐结果更加符合用户预期;本申请的方法能够以较高的准确率推荐新浪微博事件,能够对模型进行合理的漂移,并且能够及时响应对用户推荐结果的反馈。

【技术实现步骤摘要】
新浪微博事件推荐方法
本专利技术属于数据挖掘领域,特别涉及一种社交网络文本推荐技术。
技术介绍
微博作为一种新型传播媒体,发展迅猛,具有传播速度快、互动性强、信息更新方便等特点,已经开始对社会生活产生巨大影响,成为我国主要社交网络传播媒介之一。由于人们可以随时随地可以通过web、网页等各种形式向外界发布信息,实现即时分享,越来越多的人喜欢在微博上分享信息、交流意见以及表达情感。比起传统媒体,对于很多重大新闻事件,微博的操作简便、低门槛性决定了微博更可以占据信息发布的制高点。这点在突发事件中表现更为突出,因为在事件现场的任何微博用户都可以通过手机将整个事件信息发布到微博上去。例如,2009年11月,西安发生4.4级地震,微博只在1分钟后就对该事件做了报道,而国家官方网站第一次发布是15分钟之后。但随着微博的普及,也带来了一些新的问题。首要问题是信息爆炸,海量的数据信息充斥着互联网,给人们带来了严重的信息过载问题。人们面对这种海量的信息往往难以找到自己想要的数据,而想要快速、准确地找到对于自己最重要的数据则更加困难了。在web2.0以前,人们通常是通过专业的搜索引擎获取信息,但这也存在一些问题,最主要的问题之一是搜索引擎需要用户主动去查询,它不能主动地推送信息,实时性不高,使得用户有可能错过重要信息。Web2.0的出现,使得人人都可通过网络来参与信息的发布、传播与过滤,从而达到信息共享的目的。这种定向消息源的信息推送方式虽然颠覆了以前通过搜索引擎拉取信息的方式,但也很好的弥补了搜索引擎当前面临的窘境。推荐系统作为一个信息获取的方法,它从用户出发,研究用户的喜好,能够在用户意图模糊的情况下,引导用户发现他潜在的需求,推送给他感兴趣的信息,这种信息获取方式是解决信息过载问题非常有潜力的方法。推荐系统的主要任务在于准确把握用户的兴趣点,利用高效的推荐算法,向其推送可能感兴趣的事件。新浪微博作为国内最受欢迎的微博工具,具有如下特征:博文字数限制在140字以内、数据海量、短文本性、文本缺失性、实时性、丰富的社交信息。由于微博数据的特性,博文形式不固定,且很多博文可能并不包含有效信息,给处理带来了很大的麻烦,因此目前针对这种短文本的推荐系统的研究仍旧是富有挑战性的。为了达到良好的推荐效果,开发高效的推荐算法是极为重要的。目前的推荐系统大多为文本推荐系统,对于微博这种短文本数据的推荐系统的研究还不够深入,其研究结果还不能满足实际应用需要。
技术实现思路
为了解决上述技术问题,本申请提出了一种新浪微博事件推荐方法,实时修正用户模型,提高了微博事件推荐系统的推荐准确度,改善用户体验。本专利技术采用的技术方案为:新浪微博事件推荐方法,包括:S1、采用改进的余弦夹角算法计算用户模型与事件向量之间的相似度,若相似度大于阈值,则将该事件推荐给用户;否则不推荐;S2、根据最近时长K内到达事件数据库的推荐事件对用户模型进行更新;S3、根据被用户点赞事件对用户模型进行更新。进一步地,改进的余弦夹角算法具体为:其中,sameWordNum表示用户模型A和事件模型B相同的关键词数目;min(|A|,|B|)表示用户模型A和事件模型B中最小的维数;wai表示用户模型A中特征词ai对应的权重;wbj表示事件模型B中特征词bj对应的权重。更进一步地,所述用户模型从用户数据库中提取。更进一步地,所述事件向量从事件数据库中提取。进一步地,步骤S2具体为:S21、当事件数据库中有新的推荐事件到达,则提取最近的时长K内到达的推荐事件;S22、选取步骤S21提取的各推荐事件中权重大于第一阈值的特征词加入用户模型中;S23、选取当前用户模型特征词中的高频词汇作为新的用户模型。进一步地,步骤S3具体为:当有新的事件被点赞,则记录被点赞事件的ID,根据ID从事件数据库中查找对应事件,提取该事件的高频词汇。本专利技术的有益效果:本申请的新浪微博事件推荐方法,通过改进的余弦夹角算法计算用户模型与事件向量的相似度;若相似度高于设定的阈值,则向用户推送该事件;并且通过最近一段时间内新到达的时间对用户模型进行更新,使其能够跟踪事件最新发展状态;结合用户点赞行为再次对用户模型进行更新,使推荐结果更加符合用户预期;本申请的方法能够以较高的准确率推荐新浪微博事件,能够对模型进行合理的漂移,并且能够及时响应对用户推荐结果的反馈。附图说明图1为本申请的方案流程图;图2为模型漂移工作流程;图3为用户反馈更新流程。具体实施方式为便于本领域技术人员理解本专利技术的
技术实现思路
,下面结合附图对本
技术实现思路
进一步阐释。如图1所示为本申请的方案流程图,本申请的技术方案为:新浪微博事件推荐方法,包括:S1、采用改进的余弦夹角算法计算用户模型与事件向量之间的相似度,若相似度大于阈值,则将该事件推荐给用户;否则不推荐;S2、根据最近时长K内到达事件数据库的推荐事件对用户模型进行更新;S3、根据被用户点赞事件对用户模型进行更新。步骤S1具体为:经典的余弦夹角算法公式如下:其中,A、B分别代表用户模型向量和事件向量,可表示如下:A={(a1,wa1),(a2,wa2),(a3,wa3),……,(am,wam),}B={(b1,wb1),(b2,wb2),(b3,wb3),……,(bn,wbn),}wa1表示用户模型A中特征词a1所对应的权重;B向量同理。化简得到:其中,wai与wbj相乘的条件为特征词ai=bj。但是如果两个向量相同的词语较多,则余弦值较大。考虑到用户模型和事件向量维数可能较大,单纯地以词形相同来计算相似度难免会造成推荐精度不高的问题。造成该现象的原因之一是,一些事件向量中权重高的特征词可能并不具有划分事件的能力,如“中国”、“美国”等,而一些权重稍低的词有可能才是事件的侧重点,如“空难”、“金球奖”等。因此,本申请引入一个衰减系数来提高推荐精度,改进后的余弦夹角算法如下:其中,sameWordNum表示用户模型A和事件模型B相同的关键词数目;min(|A|,|B|)表示用户模型A和事件模型B中最小的维数;wai表示用户模型A中特征词ai对应的权重;wbj表示事件模型B中特征词bj对应的权重。引入衰减系数之后,若向量之间只有少量关键词相同,则其相似度会大幅度衰减,只要设定合适的阈值,本申请中阈值的设定不是固定的;一般合适的阈值能够实现所推荐的结果符合预期,则说明该阈值的设置是合适的;否则重新调整阈值。就可以很大程度提高推荐精度。除引入衰减系数外,本申请同时还用到了另外两种提高推荐精度的办法。一是硬性规定相同关键词数大于多少才进行推荐。一般情况下,用户输入的关键词不会太多,约为5个左右,则本申请设定当用户模型与事件向量至少有三个相同关键词时才进行相似度计算。当用户输入词数有大的变化时,该门限值可以做出相应调整。二是为了避免同一个词不同词形带来的负面影响,在计算相似度的时候,本申请提取了各关键词的词干来进行计算。获得推荐事件后,将其存入用户数据库,生成推荐日志。在要求不高的情况下,可以用事件的摘要代表一个事件,将该摘要推送给用户。若用户需要阅读原始博文,则需要从事件中提取与用户模型最相关的博文。要提取最感兴趣博文,需要对博文进行预处理,进行分词、词干还原,若该博文包含相同关键词列表中权重最大的词,则该博本文档来自技高网
...
新浪微博事件推荐方法

【技术保护点】
新浪微博事件推荐方法,其特征在于,包括:S1、采用改进的余弦夹角算法计算用户模型与事件向量之间的相似度,若相似度大于阈值,则将该事件推荐给用户;否则不推荐;S2、根据最近时长K内到达事件数据库的推荐事件对用户模型进行更新;S3、根据被用户点赞事件对用户模型进行更新。

【技术特征摘要】
1.新浪微博事件推荐方法,其特征在于,包括:S1、采用改进的余弦夹角算法计算用户模型与事件向量之间的相似度,若相似度大于阈值,则将该事件推荐给用户;否则不推荐;S2、根据最近时长K内到达事件数据库的推荐事件对用户模型进行更新;S3、根据被用户点赞事件对用户模型进行更新。2.根据权利要求1所述的新浪微博事件推荐方法,其特征在于,改进的余弦夹角算法具体为:其中,sameWordNum表示用户模型A和事件模型B相同的关键词数目;min(|A|,|B|)表示用户模型A...

【专利技术属性】
技术研发人员:于富财刘东胡光岷费高雷
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1