一种基于引用次数的作者推荐方法技术

技术编号:23983687 阅读:33 留言:0更新日期:2020-04-29 12:31
本发明专利技术公开了一种基于引用次数的作者推荐方法,包括:首先,在文献数据库中选定文献群体范围;其次,依据所选定文献群体中文献间的相互引用关系构建引用网络模型,映射生成作者引用网络,统计文献作者的黄金引用次数;然后,基于所述作者引用网络对作者进行聚类分组;最后,按照黄金引用次数和作者聚类分组排序,向用户推荐文献作者。通过定义文献作者的黄金引用次数,消除文献作者的自引干扰,削弱低质低效他引的影响,同时基于作者之间的引用关系进行作者聚类划分,使得用户可快速准确的锁定特定研究领域的专家。

An author recommendation method based on the number of citations

【技术实现步骤摘要】
一种基于引用次数的作者推荐方法
本专利技术属于文献检索
,具体地说涉及一种基于引用次数的作者推荐方法。
技术介绍
寻找符合特定技术需求的专家,通常利用社会关系网或者根据科技成果的作者信息寻找相应的专家。通过社会关系网寻找专家过度依赖需求方的社会关系,局限性很大;基于科技成果的作者信息寻找专家需耗费大量人力和时间进行科技成果和成果作者调研,效率低下且工作量巨大。这两种人工寻找专家的方式都过于主观,存在缺乏准确性、公正性等问题。智能推荐专家技术,打破了传统人工寻找专家的限制。申请号为201410680306.6的中国专利描述了一种基于群组匹配的专家推荐方法及系统:该系统通过网络爬虫获取专家列表中各专家的网页信息,再对所述网页信息进行提取,以获得各专家的专家学术信息,然后计算各专家与待匹配项目之间的匹配度,最后根据所述匹配度及群组匹配模型确定为待匹配项目推荐的专家。但是该方法是使用科研领域关键词作为匹配度的基准,当遇到交叉学科或新兴学科时必然会出现结果偏倚现象。申请号为201811228086.8的中国专利公开了一种基于专家领域相似度与关联关系的协同推荐方法。将批量论文数据作为训练集,构造合作关系网络利用Dijkstra算法计算作者之间的最短路径作为专家关联度COR,利用word2vec算法构造专家词向量模型计算关联专家词向量与领域词向量的余弦相似度作为专家领域相似度,筛选专家领域相似度SIM与专家关联度COR满足阈值的专家即为推荐专家。该方法提出的专家关联度是依据专家之间合作关系计算的,以此为依据推荐的专家与给定的专家关联紧密。但是合作关系受主观因素影响,非研究领域相似的合作会干扰推荐结果,而且,作者之间合作关系也不能体现知识本身的传承和研究主题之间隐含的相关性。有鉴于此,特提出本专利技术。
技术实现思路
本专利技术要解决的技术问题在于克服现有技术的不足,提供一种基于引用次数的作者推荐方法,通过计算作者的黄金引用次数和利用群落算法划分文献研究领域,快速准确地为用户推荐领域专家。为解决上述技术问题,本专利技术采用技术方案的基本构思是:本专利技术提供了一种基于引用次数的作者推荐方法,包括:首先,在文献数据库中选定文献群体范围;其次,依据所选定文献群体中文献间的相互引用关系构建文献引用网络模型,映射生成作者引用网络,统计文献作者的黄金引用次数;然后,基于所述作者引用网络对作者进行聚类分组;最后,按照黄金引用次数和作者聚类分组排序,向用户推荐文献作者。上述方案中,所述文献包括科技期刊、专利、会议论文、研究报告和学位论文。本专利技术的进一步方案为:所述文献引用网络模型为:G=(V,E),G=(V,E)是由|V|=N个文献节点和|E|=M条边所组成的一个有向网络;其中,G代表文献群体中文献以及文献间引用关系的集合,V代表文献群体G中的文献集合,E代表文献群体G中文献间的引用关系;计算所述文献引用网络模型中G的他引次数并生成排除自引的文献他引网络模型G'=(V,E'),将所述文献他引网络G'通过线性映射生成作者引用网络Gauth.。本专利技术的进一步方案为:所述“基于所述作者引用网络对作者进行聚类分组”包括对作者引用网络进行群落划分,划分后的作者群落视为相对独立的研究领域,步骤如下:S11.将所述作者引用网络Gauth.作为初始网络,并设为当前网络;S12.将当前网络中的节点随机分为两个群落,之后执行步骤S13;S13.计算每个节点对所述模块度的贡献度并根据贡献度计算网络模块度,之后执行步骤S14;S14.将较低贡献度的节点从一个群落移动到另一个群落,之后执行步骤S15;S15.重新计算每个节点对模块度的贡献度和网络模块度,之后执行步骤S16;S16.判断网络模块度是否增加,同时判断网络模块度是否达到最大值,若模块度增加,即未达最大值,则保留该次节点移动结果并返回执行步骤S14,若模块度不增加,则撤回移动节点,将不同于所述被撤回移动节点的贡献度较低的新节点从一个群落移动到另一个群落,并返回执行步骤S15;若模块度达到最大值,则执行步骤S17;S17.记录并保存初始网络此时的网络模块度及群落结构,之后执行步骤S18;S18.将步骤S17中划分出的每个群落作为单独网络继续进行划分,并对每个单独网络以递归的方式执行步骤S12~S18,直至初始网络没有更大的模块度产生,得到网络群落划分结果,即本专利技术的进一步方案为:所述每个节点对模块度的贡献度λi根据下式计算:其中,κr(i)代表属于群落r的节点vi与该群落内其他节点之间的代表引用关系的边数值总和,为节点vi的施引数,为节点vi的被引数,ar(i)代表无论施引或者被引节点在群落r中的边数值的比例。本专利技术的进一步方案为:所述模块度Q根据下式计算:其中,m为文献网络中代表引用关系的总边数值总和。本专利技术的进一步方案为:所述“按照黄金引用次数和作者聚类分组排序,向用户推荐文献作者”包括:将文献作者按照研究领域聚类划分的结果和依照黄金引用次数对文献作者排序相结合,向用户推荐文献作者;优选的,所述结合包括设定第一阈值,取作者群体中黄金引用次数大于所述第一阈值的作者节点,并根据黄金引用次数降序排列,之后取作者聚类划分结果和所述降序排列结果的交集,形成向用户推荐的作者列表,所述第一阈值不大于最大黄金引用次数;优选的,所述结合包括将作者群体中的所有作者节点按照黄金引用次数降序排列,之后为作者聚类划分结果中每个研究领域的作者群落设定第二阈值,向用户推荐每个作者群落中黄金引用次数处于第二阈值和最大黄金引用次数之间的作者节点所组成的作者列表,所述第二阈值不大于最大黄金引用次数。上述方案中,所述文献作者聚类划分的主要作用是对一个技术主题所包含的多个研究领域进行划分,划分结果即该技术主题下对应各子
的数个文献作者的群落。而由于有些技术主题包含的研究领域比较庞杂,因此不可能完全实现每个研究领域中的文献作者都恰巧落入黄金引用作者群体中,因此需要在黄金引用作者群体和/或聚类划分的作者群落中引入阈值,在一定阈值范围形成二者的交集,从而得出推荐给用户的作者列表。本专利技术的进一步方案为:所述统计文献的黄金引用次数包括如下步骤:S21.构建文献引用网络模型,统计文献被引次数和他引次数,后执行步骤S22;S22.根据文献他引次数映射生成排除自引的文献他引网络模型,并映射生成作者引用网络模型,后执行步骤S23;S23.计算文献的黄金引用次数。本专利技术的进一步方案为:所述步骤S21中文献被引次数是由文献vi在文献群体G中的被引次数通过引用变量eij累加得到,即第i篇文献在文献群体G中的被引次数计算公式为所述步骤S21文献他引次数是文献vi在文献群体G中的他引次数通过引用变量eij与自引系数λij的乘积(eij·λij)累加得到,即第i篇文献在文献群体G中的他引次数公式为若文献vi被文献vj引用,则eij等于1;若文献vi未被文献vj引用,则ei本文档来自技高网
...

【技术保护点】
1.一种基于引用次数的作者推荐方法,其特征在于,包括:/n首先,在文献数据库中选定文献群体范围;/n其次,依据所选定文献群体中文献间的相互引用关系构建文献引用网络模型,映射生成作者引用网络,统计文献作者的黄金引用次数;/n然后,基于所述作者引用网络对作者进行聚类分组;/n最后,按照黄金引用次数和作者聚类分组排序,向用户推荐文献作者。/n

【技术特征摘要】
1.一种基于引用次数的作者推荐方法,其特征在于,包括:
首先,在文献数据库中选定文献群体范围;
其次,依据所选定文献群体中文献间的相互引用关系构建文献引用网络模型,映射生成作者引用网络,统计文献作者的黄金引用次数;
然后,基于所述作者引用网络对作者进行聚类分组;
最后,按照黄金引用次数和作者聚类分组排序,向用户推荐文献作者。


2.根据权利要求1所述的一种基于引用次数的作者推荐方法,其特征在于,所述文献引用网络模型为:G=(V,E),G=(V,E)是由|V|=N个文献节点和|E|=M条边所组成的一个有向网络;其中,G代表文献群体中文献以及文献间引用关系的集合,V代表文献群体G中的文献集合,E代表文献群体G中文献间的引用关系;计算所述文献引用网络模型中G的他引次数并生成排除自引的文献他引网络模型G'=(V,E'),将所述文献他引网络G'通过线性映射生成作者引用网络Gauth.。


3.根据权利要求2所述的一种基于引用次数的作者推荐方法,其特征在于,所述“基于所述作者引用网络对作者进行聚类分组”包括对作者引用网络进行群落划分,划分后的作者群落视为相对独立的研究领域,步骤如下:
S11.将所述作者引用网络Gauth.作为初始网络,并设为当前网络;
S12.将当前网络中的节点随机分为两个群落,之后执行步骤S13;
S13.计算每个节点对所述模块度的贡献度并根据贡献度计算网络模块度,之后执行步骤S14;
S14.将较低贡献度的节点从一个群落移动到另一个群落,之后执行步骤S15;
S15.重新计算每个节点对模块度的贡献度和网络模块度,之后执行步骤S16;
S16.判断网络模块度是否增加,同时判断网络模块度是否达到最大值,若模块度增加,即未达最大值,则保留该次节点移动结果并返回执行步骤S14,若模块度不增加,则撤回移动节点,将不同于所述被撤回移动节点的贡献度较低的新节点从一个群落移动到另一个群落,并返回执行步骤S15;若模块度达到最大值,则执行步骤S17;
S17.记录并保存初始网络此时的网络模块度及群落结构,之后执行步骤S18;
S18.将步骤S17中划分出的每个群落作为单独网络继续进行划分,并对每个单独网络以递归的方式执行步骤S12~S18,直至初始网络没有更大的模块度产生,得到网络群落划分结果,即


4.根据权利要求3所述的一种基于引用次数的作者推荐方法,其特征在于,所述每个节点对模块度的贡献度λi根据下式计算:



其中,κr(i)代表属于群落r的节点vi与该群落内其他节点之间的代表引用关系的边数值总和,为节点vi的施引数,为节点vi的被引数,ar(i)代表无论施引或者被引节点在群落r中的边数值的比例。


5.根据权利要求4所述的一种基于引用次数的作者推荐方法,其特征在于,所述模块度Q根据下式计算:



其中,m为作者网络中代表引用关系的边数值总和。


6.根据权利要求1所述的一种基于引用次数的作者推荐方法,其特征在于,所述“按照黄金引用次数和作者聚类分组排序,向用户推荐文献作者”包括:将文献作者按照研究领域聚类划分的结果和依照黄金引用次数对文献作者排序相结合,向用户推荐文献作者;
优选的,所述结合包括设定第一阈值,取作者群体中黄金引用次数大于所述第一阈值的作者节点,并根据黄金引用次数降序排列,之后取作者聚类划分结果和所述降序排列结果的交集,形成向用户推荐的作者列表,所述第一阈值不大于最大黄金引用次数;
优选的,所述结合包括将作者群体中的所有作者节点按照黄金引用次数降序排列,之后为作者聚类划分结果中每个研究领域的作者群落设定第二阈值,向用户推荐每个作者群落中黄金引用次数处于第二阈值和最大黄金引用次数之间的作者节点所组成的作者列表,所述第二阈值不大于最大黄金引用次数。


7.根据权利要求1或2所述的一种基于引用次数的作者推荐方法,其特征在于,所述统计文献的黄金引用次数包括如下步骤:
S21.构建文献引用网络模型,...

【专利技术属性】
技术研发人员:吴晨生李荣刘静张炜张惠娜
申请(专利权)人:北京市科学技术情报研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1