基于论文间引用关系的学术地图展示方法技术

技术编号:13332786 阅读:60 留言:0更新日期:2016-07-12 02:11
本发明专利技术提供了一种基于论文间引用关系的学术地图展示方法,包括如下步骤:步骤1:利用聚类算法及分布式处理法将事先获取的论文引用关系数据进行聚类,并划分为多个社区;步骤2:分析多个社区的属性和含义,将相关的引用关系数据存入数据库中;步骤3:读取数据库中的引用关系数据并构建论文引用网络,利用可视化工具动态展现论文间的关系,找到目标论文;步骤4:在多个视角上展示论文间的引用关系,形成学术地图。本发明专利技术通过聚类算法分布式处理,对事先获取的论文数据进行聚类划分多个社区,并以动态可视化方式展现论文间关系,有效提高用户检索论文的效率。

【技术实现步骤摘要】

本专利技术涉及学术论文检索领域,具体地,涉及一种基于论文间引用关系的学术地图展示方法
技术介绍
科研活动是体现一个国家综合实力的重要且不可缺少的一方面,也是社会生产力不断发展的基石。在国际竞争日益激烈的今天,谁掌握了科学技术的制高点,谁就将引领下一次的科技革命,世界各国也因此将科学技术的发展放在了国家发展的核心位置。从我国科教兴国战略实施以来,国家各方面政策不断向科研方面倾斜,财政支出也稳步提升。据统计,2014年,全国共投入科技支出及研究与试验发展(R&D)经费13015.6亿元,比上年增加1169.0亿元,增长9.9%,且呈持续上升态势,表明我国研发实力进一步增强,科技水平不断提高。学术论文是科研活动中的重要一环。从科研经验来看,学术论文是研究人员确定研究方向,开展下一步工作与课题攻坚活动中重要的信息来源,也是深入了解前沿科学的重要组成部分。面对几何级增长的论文数量,如何从浩如烟海的论文中找到所需要的论文,并且做到快速性,时效性,准确性的有机结合,成为了广大科研工作者所共同面对的难题。在目前有一些开放的学术论文数据库,方便科研人员在工作中查找有关资料,但是这些数据库有着十分明显的缺点。第一,单一数据库中收藏的论文有限,而数据库间的交流不畅导致查找者无法迅速找出在查找方面关联紧密的论文;第二,数据库中的搜索系统不够先进,关键字提取所得的内容往往与想要的结果在细节上不够吻合;第三,大量的文本数据对于查找者来说不易快速得到结果,从而使得查找结果的利用率直线下降,从用户体验上面也不尽如人意;第四,单一论文数据库更新较慢,查找者在得到最新的科研动态方面困难重重。看到了学术搜索的重要性,谷歌公司在2004年就开始推出学术搜索引擎,接着微软又在2006年开发了学术搜索引擎MicrosoftAcademicSearch。尽管这些公司依靠其强大的资源获取能力,在包含了其学术搜索引擎中包含了大量的学术期刊,从一个地方开始可以搜索到大量的相关论文,但实际上,它们的搜索效果不那么理想,因为它们的搜索结果只把关键字与论文精确匹配,却没有重视论文间的联系和论文在各自领域的位置。此外,这样以大量论文列表的形式返回的结果需要用户重新甄别这些论文的重要性和其涉及话题的发展趋势,在大量的信息面前,这样的结果对于用户来说是远远不够的。随着全球学术研究的不断发展,学术搜索系统的进一步发展已是必需的。国内外学术论文搜索方面的研究开始越来越多,主要方向有:分析论文语义试图寻找论文间的关系;网络建模来分析论文的重要性;对引用文献进行推荐等。尽管关于论文搜索系统的论文数量逐步上升,但是这些搜索推荐系统要么没有一个足够丰富的论文数据库来支持,要么没有注重论文话题间的演进关系,因此实用价值不高。而在大数据时代的学术论文搜索背景下,一个可视化的学术搜索地图系统将更能满足用户的需求,可视化使搜索结果更加直观和易于理解,很大程度上提高了用户的效率。本专利技术基于以上问题,根据全新的思路,运用了聚类算法等高效的方法,设计一种基于论文间引用关系的学术地图展示系统,该系统以地图的方式生动直观地展示数据之间的结构关联,包括通过对论文间引用关系的分析来划分论文的社区、对于社区关系的可视化展示、以及底层论文引用关系的可视化展示,并且具有可延展性,在大数据的时代更具适应力,将极大地提高用户的效率。
技术实现思路
针对现有技术中的缺陷,本专利技术的目的是提供一种基于论文间引用关系的学术地图展示方法。根据本专利技术提供的基于论文间引用关系的学术地图展示方法,包括如下步骤:步骤1:利用聚类算法及分布式处理法将事先获取的论文引用关系数据进行聚类,并划分为多个社区;步骤2:分析多个社区的属性和含义,将相关的引用关系数据存入数据库中;步骤3:读取数据库中的引用关系数据并构建论文引用网络,利用可视化工具动态展现论文间的关系,找到目标论文;步骤4:在多个视角上展示论文间的引用关系,形成学术地图。优选地,所述步骤1包括:步骤1.1:使用互联网上公开的论文数据集,导出论文之间的引用关系数据;步骤1.2:根据构建的学术网络图内的论文之间的引用关系,用ApacheSpark中的GraphX模块来实现社区发现算法来对所有论文进行聚类处理;所述聚类算法是指:将论文引用关系数据按照不同的类别进行划分,构成为社区的结构;所述社区发现算法是指:标签传递法LabelPropagationAlgorithm,简称LPA,以及Louvain法。标签传递法是指:每个节点的标签按相似度传播给相邻节点,在节点传播的每一步,每个节点根据相邻节点的标签来更新本节点的标签,与本节点相似度越大,则对应的相邻节点对本节点标注的影响权值越大,若相邻节点的标签越趋于一致,则标签就越容易传播;LouvainMethod方法是指:网络中的每个节点分配到对应各个节点的社区,对于节点分配邻近的社区,若没有模块化增量,则节点所在社区位置不变;若存在模块化有增量,则将节点加入到新的社区,当不存在模块增量时,将在同一社区的所有节点合并,形成一个新的网络;步骤1.3:在聚类过程中,通过调整不断地优化Louvain模块和LPA的迭代次数,对比标签传递法和Louvain法这两种算法之间的结果与效率,选择LouvainMethod方法,得到划分结果。优选地,所述步骤2包括:步骤2.1:对论文引用关系数据的内容进行分析,得到所划分社区的属性或含义;步骤2.2:提取相关论文的信息,存储于MySQL数据库中用于进一步处理与展示。优选地,所述步骤3包括:步骤3.1:读取数据库中的论文引用关系数据,构建论文的引用网络,并实时计算引用网络中各个论文的重要程度,处理生成JSON文件;步骤3.2:利用D3.JS可视化工具,对读取到的论文引用关系数据进行处理,将论文的引用网络以及论文本身的各种信息动态地展现到网站系统中;步骤3.3:通过对论文的重要程度以及其他相关论文到用户关注论文的路径长度信息的挖掘,过滤不重要的或用户不关心的论文;步骤3.4:提供用户操作窗口,根据用户的输入信息搜索论文的学术族谱,找到所寻找的目标论文。优选地,所述步骤4包括:步骤4.1:将步骤1中得到的社区分类的结果处理成JSON文件以供网站前端使用;步骤4.2:以步骤2中获得的社区属性或含义,以地图缩放形式,多层次多角度地展示学术地图;步骤4.3:利用D3.JS可视化工具,提供动态地论文演变过程。本文档来自技高网
...

【技术保护点】
一种基于论文间引用关系的学术地图展示方法,其特征在于,包括如下步骤:步骤1:利用聚类算法及分布式处理法将事先获取的论文引用关系数据进行聚类,并划分为多个社区;步骤2:分析多个社区的属性和含义,将相关的引用关系数据存入数据库中;步骤3:读取数据库中的引用关系数据并构建论文引用网络,利用可视化工具动态展现论文间的关系,找到目标论文;步骤4:在多个视角上展示论文间的引用关系,形成学术地图。

【技术特征摘要】
1.一种基于论文间引用关系的学术地图展示方法,其特征在于,包括如下步骤:
步骤1:利用聚类算法及分布式处理法将事先获取的论文引用关系数据进行聚类,
并划分为多个社区;
步骤2:分析多个社区的属性和含义,将相关的引用关系数据存入数据库中;
步骤3:读取数据库中的引用关系数据并构建论文引用网络,利用可视化工具动态
展现论文间的关系,找到目标论文;
步骤4:在多个视角上展示论文间的引用关系,形成学术地图。
2.根据权利要求1所述的基于论文间引用关系的学术地图展示方法,其特征在于,
所述步骤1包括:
步骤1.1:使用互联网上公开的论文数据集,导出论文之间的引用关系数据;
步骤1.2:根据构建的学术网络图内的论文之间的引用关系,用ApacheSpark中的
GraphX模块来实现社区发现算法来对所有论文进行聚类处理;
所述聚类算法是指:将论文引用关系数据按照不同的类别进行划分,构成为社区的
结构;
所述社区发现算法是指:标签传递法LabelPropagationAlgorithm,简称LPA,以及
Louvain法;
标签传递法是指:每个节点的标签按相似度传播给相邻节点,在节点传播的每一步,
每个节点根据相邻节点的标签来更新本节点的标签,与本节点相似度越大,则对应的相
邻节点对本节点标注的影响权值越大,若相邻节点的标签越趋于一致,则标签就越容易
传播;
LouvainMethod方法是指:网络中的每个节点分配到对应各个节点的社区,对于节
点分配邻近的社区,若没有模块化增量,则节点所在社区位置不变;若存在模块化有增
量,则将节点加入到新的社区,当不存在模块增量时,将在同一社区的所有节点合并,
形成一个新的网络;
步骤1.3:在聚类过程中,通过调整不断地优化Louvain模块和LPA的迭代次数,
对比标签传递法和Louvain法这两种算法之间的结果与效率,选择LouvainMethod方
法,得到划分结果。
3.根据权利要求1所述的基于论文间引用关系的学术地图展示方法,其特征在于,

\t所述步骤2包括:
步骤2.1:对论文引用关系数据的内容进行分析,得到所划分社区的属性或含义;
步骤2.2:提取相关论文的信息,存储于MySQL数据库中用于进一步处理与展示。
4.根据权利要求1所述的基于论文间引用关系的学术地图展示方法,其特征在于,
所述步骤3包括:
步骤3.1:读取数据库中的论文引用...

【专利技术属性】
技术研发人员:谈兆炜毛宇宁刘长风刘兴邦张文斌赵璟浩宋振宇沈嘉明郭运奇王彪傅洛伊王新兵
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1