基于随机游走模型的零引用文章推荐方法及系统技术方案

技术编号:14235478 阅读:109 留言:0更新日期:2016-12-21 09:16
本发明专利技术提供了一种基于随机游走模型的零引用文章推荐方法及系统,包括:步骤1:构建学术网络模型,通过随机游走法获得每篇论文的第一作者、会议或期刊、机构、发表时间所对应的特征值;步骤2:建立排序模型,并选取经步骤1处理后的论文数据构建训练集;步骤3:通过弱分类器对训练集进行排序;步骤4:判断弱分类器的排序结果是否与训练集的真实排序结果相匹配,得到最优排序模型;步骤5:通过排序模型推荐用户所需零引用文献。本发明专利技术使用了全新的论文排序思想,从而使得新发表的论文可以得到更加有效地推荐,便于用户获得最相关的新论文。

Zero reference article recommendation method and system based on random walk model

The present invention provides a reference to the zero recommendation method and system based on random walk model includes the following steps: Step 1: Construction of academic network model, the characteristics of the first author, the random walk method for each paper conference or journal, institutions, published the corresponding values; step 2: to establish a ranking model, and select the the data processing step 1 after the construction of the training set; step 3: sort through the weak classifier on the training set; step 4: determine the weak classifier results are true ranking results with the training set match, get the optimal scheduling model; step 5: through sorting model recommended users need zero references. The invention uses a new idea of sorting papers, so that the newly published papers can be more effectively recommended, which is convenient for users to obtain the most relevant new papers.

【技术实现步骤摘要】

本专利技术涉及推荐
,具体地,涉及一种基于随机游走模型的零引用文章推荐方法及系统
技术介绍
科研活动是提高社会生产力和综合国力的战略支撑。世界各国都非常重视对于科研活动的投入。我国已经将科技研发摆在国家发展全局的核心位置,国家财政对科研的支出稳步增加。2012年,中国的研究与试验发展投入经费(包括工业界和学术界)已经超过万亿,为10298.4亿元,达到中等发达国家水平。科研活动最直接的产出结果之一是学术论文。据统计,从2004年至2014年,我国科研人员在国际上共发表科技论文136.98万篇,位居世界第二。论文共被引用1037.01万次,位居世界第四。科研实践表明,学术论文是科研人员开展科研活动或继续进行深入研究的非常重要的信息资源。然而,面对信息化时代浩如烟海的文献资料,如何快速而准确地检索到自己所需要的学术资源,对于科研人员来说确实是一项非常重要而且具有挑战性的工作。科学文献的有效排序有助于研究人员寻找高质量的论文,并且发现有潜在前景的研究方向。与此同时,论文排序在学术奖励系统中上也起着重要的作用。传统的方法往往使用引用数作为度量的标准。然而,此标准过于单一化,将每个引用的重要性平等看待,忽略了优质引用与普通引用之间的差异性。许多研究者将论文引用网络看做与网页链接系统相似,借用PageRank和HITS算法给出每篇论文的分数以用来排序。然而在生活中,动态的引文网络不同于日常的计算机网络,因为新发表的论文只能够引用在其之前发表的论文,而之前发表的论文无法引用后来发表的论文。因为这个引文网络天生具有的不同特点,使得较早发表的论文在引用方面将更加有优势,这也将对普通算法的准确性产生巨大的影响。人们已经作出了许多努力来解决这个问题,但是更多的关注于文本分析,考察整个引用网络,新发表的论文往往没有被其他论文引用过,这导致新论文在现有算 法中的得分偏低。但是,新论文所代表的方向一般较之前的论文更加前沿,对研究者来说也更加值得关注。所以一个全新的排序算法,对于科研人员获取所需资源、及时掌握学科发展动态、提高自身科研能力,进而增强国家的科研实力,都具有相当重要的意义。这在大数据时代尤为重要,不仅意味着更加便于找到前沿方向,也意味着效率的大幅提升。从2000年开始,有关论文排序和推荐系统的论文数量呈逐年上升的趋势。据不完全统计,仅2013年的相关论文数量就达到了30余篇。但是,在面对新发表论文的排序研究仍然处于初始阶段。每年数以万计的新论文发表,这个领域缺乏准确的排序算法使得研究者们无法迅速从海量的数据中找到符合自己需要的信息。这也催使我们寻找一种全新的算法,对这些新发表的论文进行有效的排序,以此来预测在未来的五到十年内,何种论文将更有可能成为未来的热点与前沿方向。基于此我们专利技术了ZeroRank算法。将作者,会议,机构作为评估的指标,经过对过去十余年的数据进行分析检测,最终实现了对论文热点的有效预测,极大的弥补了现有算法在对新发表论文评估方面的不足。
技术实现思路
针对现有技术中的缺陷,本专利技术的目的是提供一种基于随机游走模型的零引用文章推荐方法及系统。根据本专利技术提供的基于随机游走模型的零引用文章推荐方法,包括如下步骤:步骤1:构建学术网络模型,通过随机游走法获得每篇论文的第一作者、会议或期刊、机构、发表时间所对应的特征值;步骤2:建立排序模型,并选取经步骤1处理后的论文数据构建训练集;步骤3:通过弱分类器对训练集进行排序,所述弱分类器是指仅考虑单个特征值进行排序的分类器;步骤4:判断弱分类器的排序结果是否与训练集的真实排序结果相匹配,若不匹配,则根据弱分类器的排序结果和真实排序结果的差异调整排序模型中与该弱分类器所对应特征值的权重,并调整训练集中各个片段的权重值后,返回执行步骤3;若匹配,则判断是否已经对所有特征值对应的弱分类器进行排序,若否,则改变弱分类器所考虑的特征值种类,返回执行步骤3;若是,则得到最优排序模型;步骤5:通过最优排序模型推荐用户所需零引用文献。优选地,所述步骤1包括:步骤1.1:使用微软提供的学术图谱数据资源获取自1800年至今发表的所有论文资源;步骤1.2:通过对论文关键信息提取,建立包含四类点集以及四类边集的学术网络模型;其中的论文关键信息是包括:论文标题、作者、论文收录期刊或收录的会议、论文发表机构、论文发表年份;步骤1.3:选择论文所属领域,以某一年的论文作为零引用论文集合,以设定时间段内的论文作为训练集,通过随机游走法分析学术网络模型,得到论文的第一作者、会议或期刊、机构、发表时间所对应的特征值评分以及该论文的评分。优选地,所述步骤1.2包括:步骤1.2.1:建立学术网络模型,用G来表示该学术网络:G=(P∪A∪V∪F,EPP∪EPA∪EPV∪EPF)边(pv,pu)∈EPP表示论文v引用一次论文u;边(pv,au)∈EPA表示论文v的第一作者是u;边(pv,vu)∈EPV表示论文v被发表在会议或期刊u上;边(pv,fu)∈EPF表示论文v的来自机构u;其中:P,A,V,F分别表示论文、作者、会议及期刊、机构所构成的四类点集,pv表示论文v,pu表示论文u,au表示作者u,vu表示会议及期刊u,fu表示机构u,EPP、EPA、EPV、EPF分别表示论文间、论文与作者、论文与会议及期刊、论文与机构的连线;步骤1.2.2:建立学术网络模型中的论文、时间对应关系:学术网络G中论文发表年份表示为t0<t1<…<tcrt,其中t0表示网络中最早发表的论文的年份1800年,tcrt表示当前年份;步骤1.2.3:建立零引用论文数据集Z:Z={pz∈P|t(pz)=tcrt本文档来自技高网
...
基于随机游走模型的零引用文章推荐方法及系统

【技术保护点】
一种基于随机游走模型的零引用文章推荐方法,其特征在于,包括如下步骤:步骤1:构建学术网络模型,通过随机游走法获得每篇论文的第一作者、会议或期刊、机构、发表时间所对应的特征值;步骤2:建立排序模型,并选取经步骤1处理后的论文数据构建训练集;步骤3:通过弱分类器对训练集进行排序,所述弱分类器是指仅考虑单个特征值进行排序的分类器;步骤4:判断弱分类器的排序结果是否与训练集的真实排序结果相匹配,若不匹配,则根据弱分类器的排序结果和真实排序结果的差异调整排序模型中与该弱分类器所对应特征值的权重,并调整训练集中各个片段的权重值后,返回执行步骤3;若匹配,则判断是否已经对所有特征值对应的弱分类器进行排序,若否,则改变弱分类器所考虑的特征值种类,返回执行步骤3;若是,则得到最优排序模型;步骤5:通过最优排序模型推荐用户所需零引用文献。

【技术特征摘要】
1.一种基于随机游走模型的零引用文章推荐方法,其特征在于,包括如下步骤:步骤1:构建学术网络模型,通过随机游走法获得每篇论文的第一作者、会议或期刊、机构、发表时间所对应的特征值;步骤2:建立排序模型,并选取经步骤1处理后的论文数据构建训练集;步骤3:通过弱分类器对训练集进行排序,所述弱分类器是指仅考虑单个特征值进行排序的分类器;步骤4:判断弱分类器的排序结果是否与训练集的真实排序结果相匹配,若不匹配,则根据弱分类器的排序结果和真实排序结果的差异调整排序模型中与该弱分类器所对应特征值的权重,并调整训练集中各个片段的权重值后,返回执行步骤3;若匹配,则判断是否已经对所有特征值对应的弱分类器进行排序,若否,则改变弱分类器所考虑的特征值种类,返回执行步骤3;若是,则得到最优排序模型;步骤5:通过最优排序模型推荐用户所需零引用文献。2.根据权利要求1所述的基于随机游走模型的零引用文章推荐方法,其特征在于,所述步骤1包括:步骤1.1:使用微软提供的学术图谱数据资源获取自1800年至今发表的所有论文资源;步骤1.2:通过对论文关键信息提取,建立包含四类点集以及四类边集的学术网络模型;其中的论文关键信息是包括:论文标题、作者、论文收录期刊或收录的会议、论文发表机构、论文发表年份;步骤1.3:选择论文所属领...

【专利技术属性】
技术研发人员:吴峥邓丰雨宋振宇王乐群李世韬吴昊杨蕴意杨雨城何伟堃廖一鸣齐雨赵璟浩傅洛伊王新兵
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1