一种面向PubMed论文库的作者学科方向数据挖掘方法及系统技术方案

技术编号:21093100 阅读:42 留言:0更新日期:2019-05-11 11:17
本发明专利技术公开了一种面向PubMed论文库的作者学科方向数据挖掘方法及系统,本发明专利技术实施例步骤包括初始化学科描述数组RD、作者学科计数数组AC,确定PubMed论文库中收录的目标作者的论文集合,针对目标作者的论文集合中的每一篇论文进行遍历,且每遍历一篇论文,则获取该论文的所有关键词的MESH号以及MESH树形编码,并根据MESH树形编码统计每个学科的词项计数后更新目标作者的作者学科计数数组AC,根据目标作者的作者学科计数数组AC确定目标作者的学科方向并输出;系统包括前述方法对应的系统。本发明专利技术利用PubMed论文库提供的关键词的MESH编号,能够实现作者学科方向数据挖掘,且具有运行性能高、获得研究学科方向准确的特点。

【技术实现步骤摘要】
一种面向PubMed论文库的作者学科方向数据挖掘方法及系统
本专利技术涉及生物医学领域的论文数据挖掘技术,具体涉及一种面向PubMed论文库的作者学科方向数据挖掘方法及系统。
技术介绍
在生物医学领域,获取作者的学科方向是文本挖掘任务的一个重要内容。PubMed论文库作为生物医学领域文本挖掘的重要数据来源,论文的具体内容是获取作者研究领域的重要依据。因此在对论文进行文本挖掘的过程中,为了获取某个作者的学科方向,需要对该作者发表的所有论文所属的学科方向进行综合分析。PubMed论文库中的论文正文均没有提供论文所属的学科信息,因此通过对论文内容的挖掘获取作者的学科方向十分困难。但是,PubMed论文库是由美国国家生物技术信息中心(NCBI,NationalCenterforBiotechnologyInformation)维护,该中心组织大量专业人士,对每篇论文内容中的能够体现论文重要信息的关键词进行人工提取,得到论文中的若干词对应在MESH数据库(MedicalSubjectHeadings)中的MESH编号信息。MESH数据库按照树形结构进行组织,所有词项组成16棵树结构,每棵树对应着生物医学领域的一个学科方向,从树根向下对该学科不断地细化分类,因此MESH数据库中的每一个词项,不仅有一个全局唯一的MESH标号,还有一个树形结构编码,每棵树的根结点对应着一个学科,树中的其他非根节点都是对其父节点继续细分。因此,PubMed论文库中关键词的MESH编号信息包含了作者学科方向的线索。但是如何基于PubMed论文库的MESH编号信息,实现面向PubMed论文库的作者学科方向数据挖掘,则仍然是一项亟待解决的关键技术问题。
技术实现思路
本专利技术要解决的技术问题:针对现有技术的上述问题,提供一种面向PubMed论文库的作者学科方向数据挖掘方法及系统,本专利技术利用PubMed论文库中关键词的MESH编号信息,能够实现作者学科方向数据挖掘,且具有运行性能高、获得研究学科方向准确的特点。为了解决上述技术问题,本专利技术采用的技术方案为:一种面向PubMed论文库的作者学科方向数据挖掘方法,实施步骤包括:1)根据MESH数据库初始化学科描述数组RD;2)根据学科描述数组初始化目标作者的作者学科计数数组AC;3)确定PubMed论文库中收录的目标作者的论文集合;4)针对目标作者的论文集合中的每一篇论文进行遍历,且每遍历一篇论文,则获取该论文的所有关键词的MESH号以及MESH树形编码,并根据MESH树形编码统计每个学科的词项计数后更新目标作者的作者学科计数数组AC;5)根据目标作者的作者学科计数数组AC确定目标作者的学科方向并输出。优选地,步骤1)中初始化学科描述数组时,学科描述数组RD中的元素个数为学科的数目,且根据MESH数据库的学科数量设置学科描述数组的元素个数,每一个元素i包括描述名、缩写两个字段。优选地,步骤2)中初始化目标作者的学科计数数组时,根据MESH数据库的学科数量设置作者学科计数数组AC中元素个数,且每个元素初始化为0。优选地,步骤4)的详细步骤包括:4.1)从目标作者的论文集合中遍历选择一篇论文作为当前论文;针对当前论文,根据MESH数据库的学科数量设置论文学科计数数组RC中元素个数,且每个元素初始化为0;4.2)获取当前论文所有关键词的MESH号得到集合Φ,集合Φ中的第i个元素αi表示当前论文第i个关键词的MESH号;4.3)获取当前论文所有关键词的MESH树形编码;4.4)根据MESH树形编码统计当前论文在每个学科中的论文学科计数数组RC;4.5)根据当前论文每个学科的论文学科计数数组RC更新目标作者的作者学科计数数组AC;4.6)判断论文集合是否遍历完毕,如果尚未遍历完毕则跳转执行步骤4.1),否则跳转执行步骤5)。优选地,步骤4.3)的详细步骤包括:针对集合Φ中的每一个MESH号分别查找MESH数据库,从而获得这些MESH号对应的树形结构编码,形成树形结构编码集合Θ,所述树形结构编码集合Θ中的第i个元素βi表示集合Φ中第i个MESH编号αi对应的树形结构编码,且每个树形结构编码的首字母对应着论文相应MESH词项所属的学科缩写,从而获取当前论文所有关键词的MESH树形编码的树形结构编码集合Θ。优选地,步骤4.4)的详细步骤包括:分别针对当前论文所有关键词的MESH树形编码的每一个树形结构编码集合Θ中的每一个元素进行遍历,判断该元素的首字母是否和学科描述数组AD中的某一项元素的缩写匹配,如果匹配则将学科描述数组RD中匹配元素在论文学科计数数组RC中对应的元素加1。优选地,步骤4.5)的详细步骤包括:4.5.1)根据式(1)求出当前论文MESH词项最多的学科的序号k;k=argjmax0≤j≤n-1RC[j](1)式(1)中,k为当前论文MESH词项最多的学科的序号,n为学科总数量,RC[j]表示当前论文在第j个学科上的拥有的MESH词项的数目,对应学科描述数组RD中的第j个学科,max表示取最大值,式(1)表示将使RC[j]最大时的变量值j赋值给当前论文MESH词项最多的学科的序号。4.5.2)针对当前论文MESH词项最多的学科的序号k,将该学科对应的作者学科计数AC[k]加1,AC[k]表示作者学科计数数组AC的第k个元素,对应学科描述数组RD中的第k个学科。优选地,步骤5)的详细步骤包括:5.1)根据目标作者的作者学科计数数组AC确定目标作者的学科方向序号,且确定目标作者的学科方向序号的函数表达式如式(2)所示;式(2)中,γ为目标作者的学科领域标识集合,式(2)表示将使AC[j]最大时的变量值j对应的学科作为目标作者的学科方向序号,n为学科总数量;5.2)针对目标作者的学科方向序号,从学科描述数组RD中取出学科描述名并输出。本专利技术还提供一种面向PubMed论文库的作者学科方向数据挖掘系统,包括计算机设备,所述计算机设备被编程以执行本专利技术前述面向PubMed论文库的作者学科方向数据挖掘方法的步骤,或者所述计算机设备的存储介质上存储有被编程以执行本专利技术前述面向PubMed论文库的作者学科方向数据挖掘方法的计算机程序。本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有被编程以执行本专利技术前述面向PubMed论文库的作者学科方向数据挖掘方法的计算机程序。和现有技术相比,本专利技术具有下述优点:本专利技术包括初始化学科描述数组RD、作者学科计数数组AC,确定PubMed论文库中收录的目标作者的论文集合,针对目标作者的论文集合中的每一篇论文进行遍历,且每遍历一篇论文,则获取该论文的所有关键词的MESH号以及MESH树形编码,并根据MESH树形编码统计每个学科的词项计数后更新目标作者的作者学科计数数组AC,根据目标作者的作者学科计数数组AC确定目标作者的学科方向并输出,本专利技术通过利用PubMed论文库提供的关键词的MESH编号信息,能够实现作者学科方向数据挖掘,且具有运行性能高、获得研究学科方向准确的特点。附图说明图1为本专利技术实施例方法的基本流程示意图。具体实施方式如图1,本实施例面向PubMed论文库的作者学科方向数据挖掘方法的实施步骤包括:1)根据MESH数据库初始化学科描述数组RD;2)根据学本文档来自技高网
...

【技术保护点】
1.一种面向PubMed论文库的作者学科方向数据挖掘方法,其特征在于实施步骤包括:1)根据MESH数据库初始化学科描述数组RD;2)根据学科描述数组初始化目标作者的作者学科计数数组AC;3)确定PubMed论文库中收录的目标作者的论文集合;4)针对目标作者的论文集合中的每一篇论文进行遍历,且每遍历一篇论文,则获取该论文的所有关键词的MESH号以及MESH树形编码,并根据MESH树形编码统计每个学科的词项计数后更新目标作者的作者学科计数数组AC;5)根据目标作者的作者学科计数数组AC确定目标作者的学科方向并输出。

【技术特征摘要】
1.一种面向PubMed论文库的作者学科方向数据挖掘方法,其特征在于实施步骤包括:1)根据MESH数据库初始化学科描述数组RD;2)根据学科描述数组初始化目标作者的作者学科计数数组AC;3)确定PubMed论文库中收录的目标作者的论文集合;4)针对目标作者的论文集合中的每一篇论文进行遍历,且每遍历一篇论文,则获取该论文的所有关键词的MESH号以及MESH树形编码,并根据MESH树形编码统计每个学科的词项计数后更新目标作者的作者学科计数数组AC;5)根据目标作者的作者学科计数数组AC确定目标作者的学科方向并输出。2.根据权利要求1所述的面向PubMed论文库的作者学科方向数据挖掘方法,其特征在于,步骤1)中初始化学科描述数组时,学科描述数组RD中的元素个数为学科的数目,且根据MESH数据库的学科数量设置学科描述数组的元素个数,每一个元素i包括描述名、缩写两个字段。3.根据权利要求1所述的面向PubMed论文库的作者学科方向数据挖掘方法,其特征在于,步骤2)中初始化目标作者的学科计数数组时,根据MESH数据库的学科数量设置作者学科计数数组AC中元素个数,且每个元素初始化为0。4.根据权利要求1所述的面向PubMed论文库的作者学科方向数据挖掘方法,其特征在于,步骤4)的详细步骤包括:4.1)从目标作者的论文集合中遍历选择一篇论文作为当前论文;针对当前论文,根据MESH数据库的学科数量设置论文学科计数数组RC中元素个数,且每个元素初始化为0;4.2)获取当前论文所有关键词的MESH号得到集合Φ,集合Φ中的第i个元素αi表示当前论文第i个关键词的MESH号;4.3)获取当前论文所有关键词的MESH树形编码;4.4)根据MESH树形编码统计当前论文在每个学科中的论文学科计数数组RC;4.5)根据当前论文每个学科的论文学科计数数组RC更新目标作者的作者学科计数数组AC;4.6)判断论文集合是否遍历完毕,如果尚未遍历完毕则跳转执行步骤4.1),否则跳转执行步骤5)。5.根据权利要求4所述的面向PubMed论文库的作者学科方向数据挖掘方法,其特征在于,步骤4.3)的详细步骤包括:针对集合Φ中的每一个MESH号分别查找MESH数据库,从而获得这些MESH号对应的树形结构编码,形成树形结构编码集合Θ,所述树形结构编码集合Θ中的第i个元素βi表示集合Φ中第i个MESH编号αi对应的树形结构编码,且每个树形结构编码的首字母对应着论文相应MESH词项所属...

【专利技术属性】
技术研发人员:蒋艳凰赵强利宋卓李根张少伟余硕军马丑贤杨耀冯博伦
申请(专利权)人:人和未来生物科技长沙有限公司
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1