The present invention provides a reference to the zero recommendation method and system based on random walk model includes the following steps: Step 1: Construction of academic network model, the characteristics of the first author, the random walk method for each paper conference or journal, institutions, published the corresponding values; step 2: to establish a ranking model, and select the the data processing step 1 after the construction of the training set; step 3: sort through the weak classifier on the training set; step 4: determine the weak classifier results are true ranking results with the training set match, get the optimal scheduling model; step 5: through sorting model recommended users need zero references. The invention uses a new idea of sorting papers, so that the newly published papers can be more effectively recommended, which is convenient for users to obtain the most relevant new papers.
【技术实现步骤摘要】
本专利技术涉及推荐
,具体地,涉及一种基于随机游走模型的零引用文章推荐方法及系统。
技术介绍
科研活动是提高社会生产力和综合国力的战略支撑。世界各国都非常重视对于科研活动的投入。我国已经将科技研发摆在国家发展全局的核心位置,国家财政对科研的支出稳步增加。2012年,中国的研究与试验发展投入经费(包括工业界和学术界)已经超过万亿,为10298.4亿元,达到中等发达国家水平。科研活动最直接的产出结果之一是学术论文。据统计,从2004年至2014年,我国科研人员在国际上共发表科技论文136.98万篇,位居世界第二。论文共被引用1037.01万次,位居世界第四。科研实践表明,学术论文是科研人员开展科研活动或继续进行深入研究的非常重要的信息资源。然而,面对信息化时代浩如烟海的文献资料,如何快速而准确地检索到自己所需要的学术资源,对于科研人员来说确实是一项非常重要而且具有挑战性的工作。科学文献的有效排序有助于研究人员寻找高质量的论文,并且发现有潜在前景的研究方向。与此同时,论文排序在学术奖励系统中上也起着重要的作用。传统的方法往往使用引用数作为度量的标准。然而,此标准过于单一化,将每个引用的重要性平等看待,忽略了优质引用与普通引用之间的差异性。许多研究者将论文引用网络看做与网页链接系统相似,借用PageRank和HITS算法给出每篇论文的分数以用来排序。然而在生活中,动态的引文网络不同于日常的计算机网络,因为新发表的论文只能够引用在其之前发表的论文,而之前发表的论文无法引用后来发表的论文。因为这个引文网络天生具有的不同特点,使得较早发表的论文在引用方面将更加有 ...
【技术保护点】
一种基于随机游走模型的零引用文章推荐方法,其特征在于,包括如下步骤:步骤1:构建学术网络模型,通过随机游走法获得每篇论文的第一作者、会议或期刊、机构、发表时间所对应的特征值;步骤2:建立排序模型,并选取经步骤1处理后的论文数据构建训练集;步骤3:通过弱分类器对训练集进行排序,所述弱分类器是指仅考虑单个特征值进行排序的分类器;步骤4:判断弱分类器的排序结果是否与训练集的真实排序结果相匹配,若不匹配,则根据弱分类器的排序结果和真实排序结果的差异调整排序模型中与该弱分类器所对应特征值的权重,并调整训练集中各个片段的权重值后,返回执行步骤3;若匹配,则判断是否已经对所有特征值对应的弱分类器进行排序,若否,则改变弱分类器所考虑的特征值种类,返回执行步骤3;若是,则得到最优排序模型;步骤5:通过最优排序模型推荐用户所需零引用文献。
【技术特征摘要】
1.一种基于随机游走模型的零引用文章推荐方法,其特征在于,包括如下步骤:步骤1:构建学术网络模型,通过随机游走法获得每篇论文的第一作者、会议或期刊、机构、发表时间所对应的特征值;步骤2:建立排序模型,并选取经步骤1处理后的论文数据构建训练集;步骤3:通过弱分类器对训练集进行排序,所述弱分类器是指仅考虑单个特征值进行排序的分类器;步骤4:判断弱分类器的排序结果是否与训练集的真实排序结果相匹配,若不匹配,则根据弱分类器的排序结果和真实排序结果的差异调整排序模型中与该弱分类器所对应特征值的权重,并调整训练集中各个片段的权重值后,返回执行步骤3;若匹配,则判断是否已经对所有特征值对应的弱分类器进行排序,若否,则改变弱分类器所考虑的特征值种类,返回执行步骤3;若是,则得到最优排序模型;步骤5:通过最优排序模型推荐用户所需零引用文献。2.根据权利要求1所述的基于随机游走模型的零引用文章推荐方法,其特征在于,所述步骤1包括:步骤1.1:使用微软提供的学术图谱数据资源获取自1800年至今发表的所有论文资源;步骤1.2:通过对论文关键信息提取,建立包含四类点集以及四类边集的学术网络模型;其中的论文关键信息是包括:论文标题、作者、论文收录期刊或收录的会议、论文发表机构、论文发表年份;步骤1.3:选择论文所属领...
【专利技术属性】
技术研发人员:吴峥,邓丰雨,宋振宇,王乐群,李世韬,吴昊,杨蕴意,杨雨城,何伟堃,廖一鸣,齐雨,赵璟浩,傅洛伊,王新兵,
申请(专利权)人:上海交通大学,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。