一种结合标签数据的二部图模型学术论文推荐方法技术

技术编号:13589592 阅读:57 留言:0更新日期:2016-08-25 16:59
本发明专利技术是一种结合标签数据的二部图模型学术论文推荐方法。由于论文的标签以简短的语义概述了论文的主旨内容,本发明专利技术将论文中的标签信息自然的添加到论文的内容信息中,结合论文的引用关系和用户收藏论文的关系,构建了一个二部关系图,运用重启动的随机游走算法提出了一个高效解决学术论文推荐冷启动问题的图模型方法。该模型仅仅添加了少部分的相似度关系,因此该模型降低了参数优化过程中消耗的资源。同时,由于该模型充分利用了数据中的各种信息,尤其是论文的标签信息,保证了论文推荐的精度。本发明专利技术在一个真实的数据集上进行了相关的实验,得到了较好的实验结果。

【技术实现步骤摘要】

本专利技术是涉及数据挖掘、信息提取和推荐系统领域,具体是一种结合标签数据的二部图模型学术论文推荐实现方法。
技术介绍
早期研究人员的科学成果大多用学术论文的形式进行记录,通过查阅该类论文可以给研究者提供借鉴;除此之外,学术论文中又记录了同代人的科研成果,可以为研究者提供参考。通过查阅相关的科学论文,研究者可以避免其他研究者的重复劳动,提高科研的速度和效益。古往今来一切有成就的研究者,都是在广泛吸收了其他研究者知识的基础上,受到了良好的启发而取得成功的。因此,任何人在从事特定学科的学术活动时,或者新开始一项研究任务时,都要花费大量的时间,对该类学科相关论文进行全面的调查研究,明白国内外该课题的的研究情况,是否已经有人做过或者有人正在做,已经得到了哪些成果,现今尚未解决的问题是什么,做到心中有数。只有如此,才能避免重复劳动,有所创新、有所前进。随着数字化网络的快速发展和学科的拓展,学术论文信息呈爆炸式增长。这使得研究者越来越难在其中找到自己感兴趣的论文。在这样的环境下,论文推荐算法应运而生,可以很好的为研究者推荐相关的学术论文。然而,大部分的论文推荐算法没有利用到论文的标签的数据。标签在一定程度上概括了论文的主旨,合理的添加标签数据信息可以增强论文内容之间的关系,可以很有效的解决推荐当中面临的冷启动问题,进而为研究者推荐新发表的论文,这样可以使研究者更好的了解学科最前沿的技术。学术论文推荐在面向用户的推荐算法中,存在一种基于图模型的重启动的随机游走算法。图是一种呈现数据的表现形式,有着一些固定的关系结构。在图中,在同一种原则下,可以很容易的表现出多种数据的信息。通过用图中的节点和它们之间的加权边来表示对象和其之间存在的关系。此外,加权边的权值还可以表示对象之间的关系的强度。利用图模型,可以很容易的利用数据集中的各种信息。Tian和Jing在2013年提出了一种基于二部图模型的学术论文推荐方法。该方法将用户-论文关系、用户的相似度和论文的相似度关系结合到一起,为用户推荐感兴趣的论文。同年,Meng和Gao等提出一种基于多层图模型的学术论文推荐方法。该方法通过LDA(Latent Dirichlet Allocation)找出论文潜在的话题模型,并将其与作者信息、引文信息和词汇信息相结合,充分利用数据中的各种信息来实现个性化的论文推荐。
技术实现思路
基于上述
技术介绍
,本专利技术提出了一种结合标签数据的二部图模型,充分利用数据中的各种信息,将数据中的标签信息添加到论文的内容中,在保证精度的基础上,高效快速的为研究者推荐学术论文。传统的学术论文推荐方法往往忽略了论文的标签信息,然而,学术论文的标签信息以简短的语义概括了论文的主旨,在帮助用户找到自己感兴趣的论文过程中起到非常重要的作用。通过添加标签信息,本专利技术可以有效的增强论文之间的内容联系,可以更好的表示在这种关系下,学术论文之间的相互关系,有效的解决了推荐当中面临的冷启动问题,进而优化整个算法,提高推荐的精度。使用本专利技术提供的推荐方法,可以应用到论文的搜索系统中,提供新发表论文的推荐服务或者是提高推荐的精度。本专利技术提出的论文推荐方法是结合标签数据二部图模型的混合方法。将论文的标签信息与论文的其他信息有机结合,提高推荐的精度,同时又添加论文之间的部分相似度关系,以保证推荐的效率。为了方便组织论文的异构信息,本专利技术需要做一些初始工作,具体步骤是:1.向量化标签信息首先对标签数据进行去噪,去除在所有论文中出现次数少于5的标签。其次,统计剩余的标签数据,组成一个标签的向量,其中每一行的行号对应论文的编号,向量中的每一项表示该标签是否在此论文中出现,出现则值为1,否则值为0。如公式(1)所示:Ait={t1,t2,...,tl本文档来自技高网
...

【技术保护点】
一种结合标签数据的二部图模型学术论文推荐方法,包括相关数据预处理、结合标签的二部图模型的构造及学术论文推荐方法的实现。具体操作步骤如下:步骤a.预处理数据集,去除其中的噪音数据;步骤b.将论文的标签信息进行向量化处理;步骤c.将论文内容信息和论文标签结合,计算论文之间相似度;步骤d.根据用户收藏论文关系、引入标签后的论文相似度与论文之间的引用关系构建二部图模型;步骤e.在最终结合标签数据的二部图模型上,运用重启动的随机游走算法,计算节点之间的结构相关性。

【技术特征摘要】
1.一种结合标签数据的二部图模型学术论文推荐方法,包括相关数据预处理、结合标签的二部图模型的构造及学术论文推荐方法的实现。具体操作步骤如下:步骤a.预处理数据集,去除其中的噪音数据;步骤b.将论文的标签信息进行向量化处理;步骤c.将论文内容信息和论文标签结合,计算论文之间相似度;步骤d.根据用户收藏论文关系、引入标签后的论文相似度与论文之间的引用关系构建二部图模型;步骤e.在最终结合标签数据的二部图模型上,运用重启动的随机游走算法,计...

【专利技术属性】
技术研发人员:程红蓉蔡腾远张盼唐明霜郭彦伟
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1