基于引用网络及用户熟练度分析的学术推荐方法及系统技术方案

技术编号:13385814 阅读:45 留言:0更新日期:2016-07-22 00:13
本发明专利技术提供的一种基于引用网络及用户熟练度分析的学术推荐方法及系统,包括如下步骤:步骤1,采用模型进行分析,得到第一候选集;步骤2,采用论文引用网络进行分析,得到第二候选集;步骤3,采用用户熟悉度分析,得到第三候选集;步骤4,对第一候选集、第二候选集和第三候选集进行过滤排序,得到推荐候选集;步骤5,展示推荐候选集。与现有技术相比,本发明专利技术的有益效果如下:在传统推荐系统的基础之上,结合对引用网络及领域熟练度的分析,增强了学术推荐的个性化,打造了一套更加适合研究人员的推荐系统。

【技术实现步骤摘要】
基于引用网络及用户熟练度分析的学术推荐方法及系统
本专利技术设计了一种搜索推荐系统,具体是一种集成用户数据采集、主题层级分析,引用关系网络分析、用户熟练度分析、候选集排序过滤的学术搜索推荐方法及系统。
技术介绍
科技进步是推动我国各行各业发展的重要动力,最尖端的一股力量来自于理论研究和学术创新。科学实践表明,会议期刊与论文、专利及相关文献是记录创新发现的重要文字档案,科研活动的重要产物,科研工作者的劳动汗水、智慧结晶,也是学生、后继研究人员学习的重要资料,未来科学进步的源泉。新的科学发现若是站在巨人的肩膀上实现的,已有的学术文档就是这巨人的血脉。然而,世界上众多的科学领域中,各类论文类别纷繁复杂,数量众多,质量与深度参差不齐,每年还在不断增长。近十年间,我国科研工作者在国际范围内共发表论文136.98万篇,位居世界第二;论文共被引用1037.01万次,位居世界第四。学术论文不仅数量庞大,引用关系复杂,也是是开展科研活动的重要信息资源,如何有效地管理这些信息资源是一个具有实际意义的问题,在此之上,如何让科研人员迅速获取自己最需要的文献更是一个新兴而亟待解决的问题。对于科研人员,可能每天都要阅读一定数量的学术文章,很多时候寻找值得一读的文章并不是一件容易的事情。如果有这样一种应用,能让科研人员迅速找到自己需要的文章,节省花费在处理文章筛选等琐碎问题上的时间,将他们的精力更多地投入到核心问题中,可以极大地提高他们的工作效率、减少劳动负担。从宏观上来说,也是提高科研人员劳动生产力,推动科技进步的一项重大进展,有利于我国、甚至全球的科学发展,加快人类的进步。目前已经有一些学术出版机构,如IEEE、Elsevier建立了电子文献档案数据库,以及中国知网等在线图书馆,提供查询论文的途径,但这些数据库仍然具有明显的缺点,如有些数据库仅提供最基本的关键词匹配查询,未考虑到文献潜在隐含的性质;有些电子数据库专注于某一领域,交叉学科的文献收录不全;有些数据库未及时更新、定时维护,缺少新增的论文,这些往往是前沿热点话题。在如今的WEB3.0时代,推荐系统已经无处不在了,这源于信息过载这样的一个背景,每个人都可以成为信息的中心与源头。豆瓣电影网站如同贴身秘书偷偷记录下了用户的浏览记录,猜到其可能感兴趣的新片;当用在亚马逊网上书店购买一本书时,它已经选择好了最佳的一同购买的搭配。在众多的选择面前,用户可能茫然不知所措;然而,推荐系统可能比用户自己更了解其想要什么。在日常生活场景中,推荐系统已为我们带来了无穷的便利与乐趣,在学术场景中,更需要这样的功能来为科研工作者服务。现有的一些知名学术搜索引擎,如谷歌学术搜索、微软学术搜索等网站继承了其所属商业搜索引擎公司的搜索技术,使用高效的算法提供迅速、准确的搜索结果,即搜索结果与输入关键字拥有极高的匹配程度。但这种传统的搜索形式并不能满足科研人员日益增长的搜索要求、充分利用好庞大的学术数据资源,例如没有分析论文在其领域的重要程度,话题的发展趋势,反馈信息量过大,更没有主动推荐、猜测用户需求的功能。比精确匹配标题更重要的,往往是更加个性化的推荐方式。对于不同科研水平、对某领域熟悉程度不同的科研人员来说,需要获取的论文也不尽相同,初涉某一领域的搜索用户希望快速了解该领域的大致情况与学科分类,其发展脉络与方向,精通该领域的搜索用户更期待看到发展的前沿,在国际上的新进展,热门话题的提出。在传统的综合性学术搜索引擎中尚未实现此类功能。在学术界,还需要更先进、智能的文献管理系统。目前,相关的学术推荐方法包括:计算论文被引用的次数来评价其重要程度,计算论文的PageRank值,基于Steiner-tree将学术论文推荐问题转化为在引用关系图中找Steiner点的问题等。然而,这些理论的提出并没有通过一个成型的系统进行验证与实现,基于大量的论文数据库样本进行准确度分析,或者仅仅列出相关参数供用户参考,没有结合用户本身情况进行推荐排序,给出以用户为中心的对于论文的综合评价,故在实践应用中的价值不大,用户体验不佳。
技术实现思路
针对现有技术中的缺陷,本专利技术的目的是提供一种集搜索、推荐等智能而人性化功能为一体的、充分利用学术文献的特点的基于引用网络及用户熟练度分析的学术推荐方法及系统。为解决上述技术问题,本专利技术提供的一种基于引用网络及用户熟练度分析的学术推荐方法,包括如下步骤:步骤1,采用模型进行分析,得到第一候选集;步骤2,采用论文引用网络进行分析,得到第二候选集;步骤3,采用用户熟悉度分析,得到第三候选集;步骤4,对第一候选集、第二候选集和第三候选集进行过滤排序,得到推荐候选集;步骤5,展示推荐候选集。优选地,步骤1包括:步骤1.1,获取用户基本信息和用户行为信息;步骤1.2,根据用户行为信息采用协同过滤模型或人口统计学模型进行分析;当用户无发表、阅读论文的记录或发表、阅读的论文的数量小于10时,采用人口统计学模型进行分析,生成第一候选集;当用户发表、阅读论文的数量大于10时,采用协同过滤模型进行分析,生成第一候选集。优选地,步骤2包括:步骤2.1,根据用户输入的文本词频或关键词,得出与带有关键词的论文;步骤2.2,以论文的引用关系统计节点进行入度计算,建立论文与论文间的引用关系矩阵;步骤2.3,根据文本词频统计得到论文重要性的相关性向量;步骤2.4,对论文重要性的相关性向量与论文间的引用关系矩阵进行矩阵相乘运算,得到重要性矩阵;步骤2.5,通过重要性矩阵对论文进行排序,生成第二候选集。优选地,步骤2.5中,排序包括:步骤2.5A:按照论文出现次数及与起始论文的距离关系进行排序;或步骤2.5B:用聚类筛选论文的类别的结果和起始论文相似的论文并进行相似度排序。优选地,步骤2.5A包括:步骤2.5A.1,通过引用关系建立用户的论文和引用论文及引用论文的下级引用论文的关系网的图结构,调用Spark中GraphX模块统计出图中所有节点的入度信息;步骤2.5A.2,当图的节点超过100时,设置树的层数的最高值n,n为大于2的正整数,从i=2到i=n遍历第i层的节点,比较每一层中每个节点的入度值,从层的角度出发统计节点累计出现的次数,入度最大或出现次数最多的点对应图中重要性最大的论文;步骤2.5A.3,当图的节点数目小于100或图无回路时,单独考虑每条链路上的节点,选择拥有节点数目最多的路径的链路上的点并分析链路上节点的重要性信息,根据入度值的大小对节点的重要性进行排序,入度值越大,节点的重要性越大。优选地,步骤2.5B包括:步骤2.5B.1,通过引用关系对所有论文节点进行聚类,得到每个节点所属的类别;步骤2.5B.2,设置计算的论文引用关系层数n,n为大于2的正整数,从i=1到i=n遍历第i层上的所有点,查找每个节点各自所属类别,直至发现和该节点对应论文有关系的类别,具体到学科和领域;步骤2.5B.3,进行推荐。优选地,步骤2.5B.3为:步骤2.5B.3A,若通过引用论文找到论文相关的一个类别,则通过重排序获得综合推荐集并找到该类别中重要性最大的论文进行推荐;步骤2.5B.3B,若通过引用论文找到起始论文相关的多于一个类别,则分别遍历每个类别中的所有点,找到在所有类别都出现过的且和起始论文相似度排序前20本文档来自技高网
...

【技术保护点】
一种基于引用网络及用户熟练度分析的学术推荐方法,其特征在于,包括如下步骤:步骤1,采用模型进行分析,得到第一候选集;步骤2,采用论文引用网络进行分析,得到第二候选集;步骤3,采用用户熟悉度分析,得到第三候选集;步骤4,对第一候选集、第二候选集和第三候选集进行过滤排序,得到推荐候选集;步骤5,展示推荐候选集。

【技术特征摘要】
1.一种基于引用网络及用户熟练度分析的学术推荐方法,其特征在于,包括如下步骤:步骤1,采用模型进行分析,得到第一候选集;步骤2,采用论文引用网络进行分析,得到第二候选集;步骤3,采用用户熟悉度分析,得到第三候选集;步骤4,对第一候选集、第二候选集和第三候选集进行过滤排序,得到推荐候选集;步骤5,展示推荐候选集;步骤2包括:步骤2.1,根据用户输入的文本词频或关键词,得出与带有关键词的论文;步骤2.2,以论文的引用关系统计节点进行入度计算,建立论文与论文间的引用关系矩阵;步骤2.3,根据文本词频统计得到论文重要性的相关性向量;步骤2.4,对论文重要性的相关性向量与论文间的引用关系矩阵进行矩阵相乘运算,得到重要性矩阵;步骤2.5,通过重要性矩阵对论文进行排序,生成第二候选集;步骤2.5中,排序包括:步骤2.5A:按照论文出现次数及与起始论文的距离关系进行排序;或步骤2.5B:用聚类筛选论文的类别的结果和起始论文相似的论文并进行相似度排序;步骤2.5A包括:步骤2.5A.1,通过引用关系建立用户的论文和引用论文及引用论文的下级引用论文的关系网的图结构,调用Spark中GraphX模块统计出图中所有节点的入度信息;步骤2.5A.2,当图的节点超过100时,设置树的层数的最高值n,n为大于2的正整数,从i=2到i=n遍历第i层的节点,比较每一层中每个节点的入度值,从层的角度出发统计节点累计出现的次数,入度最大或出现次数最多的点对应图中重要性最大的论文;步骤2.5A.3,当图的节点数目小于100或图无回路时,单独考虑每条链路上的节点,选择拥有节点数目最多的路径的链路上的点并分析链路上节点的重要性信息,根据入度值的大小对节点的重要性进行排序,入度值越大,节点的重要性越大。2.根据权利要求1所述的基于引用网络及用户熟练度分析的学术推荐方法,其特征在于,步骤1包括:步骤1.1,获取用户基本信息和用户行为信息;步骤1.2,根据用户行为信息采用协同过滤模型或人口统计学模型进行分析;当...

【专利技术属性】
技术研发人员:谈兆炜吴峥颜荣圻朱鑫祺李陶然陈戈刘聪王彪傅洛伊王新兵
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1