基于社区的作者及其学术论文推荐系统和推荐方法技术方案

技术编号:9642480 阅读:118 留言:0更新日期:2014-02-07 01:07
一种基于社区的作者及其学术论文的推荐系统和推荐方法,该系统先利用作者与论文的引用关系和社区信息构建由作者层和论文层组成的双层引用网络,然后,根据用户的历史行为记录和用户阅读过的论文集构建用户兴趣模型,最后根据得到的双层引用网络和用户兴趣模型,分析用户需求,向用户推荐作者及其论文。系统设有:论文抓取、预处理、双层引用网络构建、用户兴趣模型构建和个性化学术推荐五个模块和数据库。本发明专利技术系统既能利用作者间研究内容的相关性,通过主题模型构建作者社区;还能在社区内部计算待推荐的作者和论文的多种属性值,改善现有推荐算法计算量大的缺陷;同时计算作者和论文的多种属性值,使得推荐结果更多样化,更符合用户需求。

【技术实现步骤摘要】
【专利摘要】一种基于社区的作者及其学术论文的推荐系统和推荐方法,该系统先利用作者与论文的引用关系和社区信息构建由作者层和论文层组成的双层引用网络,然后,根据用户的历史行为记录和用户阅读过的论文集构建用户兴趣模型,最后根据得到的双层引用网络和用户兴趣模型,分析用户需求,向用户推荐作者及其论文。系统设有:论文抓取、预处理、双层引用网络构建、用户兴趣模型构建和个性化学术推荐五个模块和数据库。本专利技术系统既能利用作者间研究内容的相关性,通过主题模型构建作者社区;还能在社区内部计算待推荐的作者和论文的多种属性值,改善现有推荐算法计算量大的缺陷;同时计算作者和论文的多种属性值,使得推荐结果更多样化,更符合用户需求。【专利说明】
本专利技术涉及一种推荐作者及其学术论文的系统和方法,确切的说,涉及一种基于社区的作者及其学术论文的个性化推荐系统和推荐方法,属于数据挖掘和机器学习的

技术介绍
2003 年,Blei 等提出 了潜在狄利克雷分布 LDA (Latent Dirichlet Allocation)主题模型。随后,研究者对LDA进行了许多改进。基于主题模型的学术论文挖掘是主题模型的一个重要应用,通过对论文主题的挖掘,可以更深入地理解学术论文的发展与进化。2004年,Michal Rosen-Zvi等人在LDA的基础上提出了作者-主题AT (Author-Topic)模型。AT模型是从作者的角度建立学术论文的文本主题模型。对于学术论文语料集合,LDA模型没有考虑论文的作者信息,实际上,它是把所有的作者都看作完全等同的,即所有作者都对应着一个特定的语言模型。在AT模型中,所有的作者共享一个主题的集合。也就是,每个作者不再限定其只能对应一个主题,而是对应于一个主题上的分布;同时文本-主题的分布也随之消失,即被作者-主题的分布取代。在AT模型中,语料库中的每个作者与T个主题的一个多项分布相对应,将该多项分布记为Θ。每个主题又与词汇表中的V个单词的一个多项分布相对应,将这个多项分布记为。这两个参数Θ和分别有一个带有超参数a和β的Dirichlet先验分布。对于一篇文本山首先从该文本d的作者中抽取一个作者,再从该作者所对应的多项分布Θ中抽取一个主题z,然后再从主题ζ所对应的多项分布中抽取一个单词W。然后,重复执行该过程N次,就生成了一个文本,这里的N是文本的单词总数。这个生成过程参见图1所示。图1中的阴影圆圈表示可观测变量,非阴影圆圈表示潜在变量,箭头表示两变量间的条件依赖性,方框表示重复抽样,重复次数在方框的右下角。该模型有两个参数需要推断:一个是作者-主题分布Θ,另外是主题-单词分布。通过学习这两个参数,就能够获知作者感兴趣的主题。2006年,Wang等人在LDA的基础上提出了非马尔科夫连续时间模型,即时间主题TOT (TopiC-Over-Time)模型。TOT模型认为:对于一个文本,除了文本信息可见以外,时间标签也是可见信息,主题的发现不仅仅受到单词的出现频率的影响,还受到时间变化的影响。TOT模型通过主题分布信息同时与单词和时间标签相关联。对于语料库中的每篇文本,TOT定义了如下生成过程(参见图2所示):对任意一篇文本d,从对应的文本-主题分布Θ中抽取一个主题,根据抽取的主题对应的主题-单词分布中,再抽取一个单词;还根据抽取的主题对应的主题-时间分布Ψ中,抽取一个时间戳。重复上述过程,直至遍历文本中的每一个单词。该模型有三个参数需要推断:文本-主题分布Θ、主题-单词分布和主题-时间分布Ψ。通过学习这三个参数,可以知道主题随时间的发展变化。将主题模型与社区发现算法进行结合是近几年学术挖掘领域的研究热点,利用主题模型提取论文间和作者间的关系,然后利用这些关系结合社区发现算法来提取社区信息。Daifeng Li等人在AT模型的基础上添加了社区的信息,提出作者社区主题模型ACTM(Author-Community-Topic Model),从而可以直接获得作者的社区分布信息,同时还提出了加入了时间信息的动态社区主题模型DCTM (Dynamic Community Topic Model)。DCTM模型在给定的时间段内分别进行ACTM训练,以伯努利分布来判断:当前时间段的社区分布是否与前一时间段有关。但是,该模型是以给定时间范围为基础,不能准确地反映社区、主题随着时间进展而发生的变化,同时该模型仅仅构建了社区,没有提供对社区节点属性的计算方法,尚不能用于作者和论文推荐。目前的现有技术中,常用的作者和论文推荐推荐方法包括:基于内容的推荐、协同过滤推荐、基于引用网络的推荐等。基于内容的推荐算法是利用用户以往对作者或论文的操作建立用户兴趣模型,对作者或论文的研究内容进行分析,计算作者或论文与用户兴趣之间的相似性,然后向用户推荐作者或论文。但是,该方法有以下缺点:用户仅仅能够得到与其过去喜好类似的论文或作者,而无法得到能够为其拓展研究思路的作者或论文。再者,以论文为例,基于内容的推荐方法对研究内容进行分析,无法有效分辨论文的质量。协同过滤方法是利用具有共同研究兴趣的群体的喜好来向用户推荐其感兴趣的作者或论文。协同过滤系统能够发现用户未曾接触过的新研究方向中的作者或论文,这是基于内容推荐无法做到的。但其也存在着一些缺陷,最突出的问题是冷启动和稀疏性的问题。(I)冷启动:当某些论文或作者没有任何用户阅读或评价,或者某些用户未阅读过任何论文(对于推荐系统来说,该类用户没有任何信息,也就无法构建兴趣模型)时,系统无法向用户推荐或无法推荐能符合其需求的论文或作者。(2)稀疏性:当系统中论文、作者或用户数量十分庞大时,用户对论文的操作相对地就非常稀少,从而导致难以找到相似用户集,大大影响了推荐系统的效率。在学术领域中,作者间或论文间都存在着一种特有的社会关系,即引用关系,由此就形成了引用网络。引用网络中的节点是论文或作者,边表示了论文间或作者间的引用关系。在引用网络中,论文间的引用关系体现了论文内容的相关性及知识的传递。作者间的引用关系隐含了论文作者组成的研究群体,该群体具有相似的研究内容,并表示某个领域的研究现状与未来发展趋势。基于引用网络的推荐通常是将社会网络分析方法、网络链接PageRank算法等运用到引用网络中来,分析网络结构和网络中的节点属性,从而提取出符合推荐要求的作者节点或论文节点。Pera提出在引用网络中引入作者权威值,利用引用关系进行权威值的传播,最终将具有较高权威值的作者推荐给用户。S.Phineas Upham, Henry Small通过分析引用网络,从中提取有可能引领研究前沿的论文及其作者。由此可以看出,基于引用网络的推荐方法既可以向用户推荐相关研究领域的权威作者,也可以向用户推荐能够拓宽其研究思路的作者。但是,由于引用网络的构造、聚类等技术的使用问题,使得引用网络的研究至今还很不成熟,存在很多问题。例如:(I)计算效率低:引用网络中的数据量非常大,在分析论文间或作者间的引用关系时,需要抽取的信息量很多,因此计算工作量的开销很大。(2)信息缺失:在论文的引文信息不全时,通常会导致引用网络的结构过于分散,降低了引用网络的质量,直接影响到后续的网络分析和处理,最终会导致推荐效果的降低。本文档来自技高网...

【技术保护点】
一种基于社区的作者及其学术论文的推荐系统,其特征在于,该系统先利用作者与论文的引用关系和社区信息构建由作者层和论文层组成的双层引用网络,然后,根据用户的历史行为记录和用户阅读过的论文集构建用户兴趣模型,最后根据得到的双层引用网络和用户兴趣模型,分析用户需求,向用户推荐作者及其论文;该系统设有:论文抓取模块、预处理模块、双层引用网络构建模块、用户兴趣模型构建模块、个性化学术推荐模块和数据库;其中:论文抓取模块,负责采用网络爬虫抓取相关学科领域中每篇论文中包括标题、摘要、链接地址、作者标识ID、参考文献和发表时间的信息,将每篇论文使用该论文的链接地址用作唯一标识加以区分后,将抓取的论文全部信息都存储于数据库;预处理模块,负责从数据库中读取每篇论文的摘要,并由其分词、词性标注、词性过滤与停用词剔除四个单元依序分别对论文摘要进行处理后,得到论文摘要的分词序列;其中分词单元依据空格、标点符号对论文摘要进行分词,词性标注单元对分词后的论文摘要标注词性,词性过滤单元依据标注的词性提取名词,停用词剔除单元过滤和删除其中对该论文摘要没有实际意义的停用词,以节省存储空间和提高搜索效率;双层引用网络构建模块,负责从数据库读取论文的作者ID、参考文献和发表时间的信息,从预处理模块读取论文摘要的分词序列,并由其四个组成构件:基础网络构建单元、作者社区时间主题模型ACTTM模型训练单元、社区信息构建单元和节点属性值计算单元分别处理后,得到由作者层、论文层和两者之间的连接边组成的双层引用网络;其中ACTTM模型是在作者?主题AT模型、时间主题TOT模型与社区主题模型CTM相互结合基础上提出的一个新主题模型;用户兴趣模型构建模块,负责读取数据库中的用户操作记录和论文的作者集合和发表时间信息,以及从预处理模块得到的论文摘要的分词序列,由其两个组成部件:用户兴趣社区集合构建单元和用户属性值计算单元分别进行相应处理后,生成用户兴趣模型;个性化学术推荐模块,负责读取用户兴趣模型构建模块构建的用户兴趣模型,得到每个用户的兴趣社区集合、用户权威值和用户多样值,再读取双层引用网络构建模块得到的社区作者列表、作者和论文间的著作关系、作者的属性值和论文的属性值,并经由其两个组成部件:作者推荐列表生成单元和论文推荐列表生成单元的处理,生成作者推荐列表和论文推荐列表;数据库,用于存储论文抓取模块抓取的所有论文的全部信息,包括:作为论文ID的链接地址、题目、摘要、发表时间和作者ID,所有用户对存储的该论文执行操作的全部行为记录,以及向用户最终推荐的作者推荐列表和论文推荐列表;每项操作的行为记录OR=(user_id,paper_id,event_id,time),其中,user_id为用户标识、paper_id为论文标识、event_id为操作内容,time为操作时间。...

【技术特征摘要】

【专利技术属性】
技术研发人员:卢美莲王萌星高洁刘智超秦臻
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1