一种基于主题模型和遗忘规律的兴趣预测挖掘方法及系统技术方案

技术编号:16587450 阅读:27 留言:0更新日期:2017-11-18 15:02
本发明专利技术公开了一种基于主题模型和遗忘规律的兴趣预测挖掘方法及系统,涉及社交用户的兴趣预测领域;其方法包括:用户的兴趣周期性发现、用户的兴趣预测;一种基于主题模型和遗忘规律的兴趣预测挖掘系统,包括:兴趣周期性发现模块、用户的兴趣预测模块和数据显示模块。本发明专利技术实现社交网络中用户信息文本主旨的挖掘和用户兴趣的挖掘预测,并能够发现和预测用户兴趣爱好的走势,这对于网站的推荐效果将会有很大的提升,具有极高的商业应用价值。

A method and system of interest prediction mining based on topic model and forgetting rule

The invention discloses a method based on topic model and forgetting rules of interest prediction method and system, relates to social user interest prediction method includes: interest; the periodic user, user interest prediction; a topic based model and forgetting rules of interest prediction of mining system, including: periodic interest found module and data module, the user interest prediction module. The invention realizes the mining of the user information text gist in the social network and the mining and prediction of the user's interest, and can discover and predict the trend of the user's interest and hobby, which will greatly improve the recommendation effect of the website, and has high commercial application value.

【技术实现步骤摘要】
一种基于主题模型和遗忘规律的兴趣预测挖掘方法及系统
本专利技术涉及社交用户的兴趣预测领域,尤其是一种基于主题模型和遗忘规律的兴趣预测挖掘方法及系统。
技术介绍
LDA(LatentDirichletAllocation)是一种文档主题模型,它是一种发掘文档表达思想的主题模型,这个模型最终将文章所包含的多个语义以概率分布的形式呈现在结果中。艾宾浩斯遗忘曲线是由德国心理学家艾宾浩斯(H.Ebbinghaus)研究发现的,曲线表示了人记忆的规律,人们可以利用这个曲线,提升自己的记忆能力。社交网络(SocialNetwork)是人寄托和表达自己情感的地方,同时通过社交网络可以结交很多朋友。人们在社交网络上进行着内容的产生,同时也结交着兴趣相投的朋友。由于人们在社交网络中发掘朋友的能力有限,目前在社交网络中,进行好友推荐是由社交网站负责,并且如何更好的提升推荐准确度一直是社交网站的工作重点。此外,社交网站由于盈利的需要,也需要向用户推荐他可能感兴趣的事物,因此,获得用户的兴趣所在也是社交网络的关注点。LDA(LatentDirichletAllocation)作为一个主题发掘模型可以很好的发现本文档来自技高网...
一种基于主题模型和遗忘规律的兴趣预测挖掘方法及系统

【技术保护点】
一种基于主题模型和遗忘规律的兴趣预测挖掘方法,其特征在于,它具体包括如下步骤:S001用户的兴趣周期性发现:确定待测事件,通过该事件发生后的关注度的走势曲线得到兴趣周期,即用户兴趣的产生周期天数;S002用户的兴趣预测:将用户最近的用户文档以兴趣周期为分段间隔分为N个周期文档,以最近一个兴趣周期的用户文档为数据基础建立LDA主题模型,将N个兴趣周期的用户文档输入已建立的主题模型,并获得主题模型上的概率分布,对N个兴趣周期的概率分布进行加权处理,对最终结果进行加权并得到最终预测的兴趣概率。

【技术特征摘要】
1.一种基于主题模型和遗忘规律的兴趣预测挖掘方法,其特征在于,它具体包括如下步骤:S001用户的兴趣周期性发现:确定待测事件,通过该事件发生后的关注度的走势曲线得到兴趣周期,即用户兴趣的产生周期天数;S002用户的兴趣预测:将用户最近的用户文档以兴趣周期为分段间隔分为N个周期文档,以最近一个兴趣周期的用户文档为数据基础建立LDA主题模型,将N个兴趣周期的用户文档输入已建立的主题模型,并获得主题模型上的概率分布,对N个兴趣周期的概率分布进行加权处理,对最终结果进行加权并得到最终预测的兴趣概率。2.根据权利要求1所述的一种基于主题模型和遗忘规律的兴趣预测挖掘方法,其特征在于:所述的步骤S002具体包括如下子步骤:S201确定用户兴趣周期的天数;S202确定遗忘曲线记忆时间为N个阶段;S203判断是否存在兴趣召回,若存在兴趣召回,则在用户文档中和主题模型概率分布中有明确周期性显示,不考虑用户兴趣召回会带来的影响;若不存在兴趣召回,则在其余周期的主题模型概率分布中,主题概率将会特别低,容易判定兴趣为突发兴趣;S204将用户最近的用户文档以艾宾浩斯遗忘曲线记忆时间的阶段数为分段间隔,分为N个周期文档;S205将所有的周期文档去除停用词;S206将距离当前时间最近的一个用户周期文档作为LDA主题模型的输入文档,建立LDA主题模型;S207其余N-1个周期的文档输入已建好的主题模型,并获得在这个主题模型上的兴趣概率分布;S208对兴趣进行类别判定;S209对N个兴趣周期的概率分布进行加权处理,由于在艾宾浩斯遗忘曲线中,第六阶段和第五阶段的时间间隔很大,但记忆量比例差别很小,故可以认为第五阶段之后用户的记忆不会发生衰减,实际过程中可以取N值为5,最终获得加权后的概率分布;S210对最终结果进行加权,由于预测的是下一周期,所以兴趣也会按照艾宾浩斯遗忘曲线进行迭代,并得到最终预测的兴趣概率。3.根据权利要求2所述的一种基于主题模型和遗忘规律的兴趣预测挖掘方法,其特征在于:所述的S208对兴趣进行类别判定,是对比距离当前时间最近的两个周期的文档体现出的概率分布,获得相同兴趣的概率分布差绝对值,在两个周期的相同兴趣概率分布中,若获得的概率分布差绝对值是两个周期兴趣概率分布值中较小值的两倍及以上,则这个兴趣为新兴兴趣或突发兴趣。4.根据权利要求1-3任意一项所述的一种基于主题模型和遗忘规律的兴趣预测挖掘系统,其特征在于,它包括用户的兴趣周期性发现模块、用户的兴趣预测模块和数据显示模块;所述的兴趣周期性发现模块,确定待测事件,通过该事件发生后的关注度的走势曲线得到兴趣周期,即用户兴趣的产生周期天数;所述的用户的兴趣预测模块,将用户最近的用户文档以兴趣周期为分段间隔分为N个周期文档,以最近一个兴趣周期的用户文档为数据基础建立LDA主题模型,将N个兴趣周期的用户文档输入已建立的主题模型,并获得主题模型上的概率分布,对N个兴趣周期的概率分布进行加权处理,对最终结果进行加权并得到最终预测的兴趣概率;所述的数据显示模块,将处理后的数据进行呈现。5.一种终端电子设备,包括:处理器,用于执行程序;存储器,用于存储由处理器执行的程序,其中所述程序在执行时包括以下步骤:S001用户的兴趣周期性发现:确定待测事件,通过该事件发生后的关注度的走势曲线得到兴趣周期,即用户兴趣的产生周期天数;S002用户的兴趣预测:将用户...

【专利技术属性】
技术研发人员:张可王鹏谢文
申请(专利权)人:电子科技大学东莞市慧眼数字技术有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1