基于Paper Rank算法的文献排序方法及装置制造方法及图纸

技术编号:19593218 阅读:44 留言:0更新日期:2018-11-28 04:49
本发明专利技术实施例公开一种基于Paper Rank算法的文献排序方法及装置,能够克服传统文献排序方法具有单一性和不准确性的缺陷。方法包括:S1、对于待排序的每一篇文献的每一条句子,针对该句子枚举所有分词方案,从该句子的所有分词方案中选取最优分词方案;S2、对于所述待排序的每一篇文献,通过将该篇文献对应的所有最优分词方案代入Paper Rank算法中计算该篇文献的重要性,并按照文献的重要性对所述待排序的文献进行排序,其中,在文献的重要性的计算过程中采用加权平均的方式赋予不同属性不同的权重。

【技术实现步骤摘要】
基于PaperRank算法的文献排序方法及装置
本专利技术实施例涉及信息
,具体涉及一种基于PaperRank算法的文献排序方法及装置。
技术介绍
随着互联网的高速发展,越来越多的信息以电子形态存储和交换,于是信息检索技术应运而生,并且仍在不断地发展和完善。文献作为记录、保存和传播已有知识成果的载体,是人类文明和社会进步的基石,也是科研工作者最重要的思想工具。那么如何在短时间内准确地检索出有价值的文献就具有非常重要的意义。传统文献检索大多按照被引次数、发表时间、搜索词出现频次等条件之一对结果进行排序。自从E.Garfield等提出引文分析以来,以引文为基础而衍生的各种科学评价指标和评价工具迅速成为科学计量学研究的热点。以SCI,EI等为代表的各种科学引文索引,建立在包含海量科技数据的引文数据库基础上,为大规模的科学评价提供了相对低成本、高效的方法。科学文献之间不是孤立的,由文献引用而形成的复杂网络中蕴含节点之间的相互关系,一篇文献的相对重要性也包含其中。因此,从网络的视角分析评价对象的重要性,可以反映其学术水平或价值,是科学评价的一种有效途径。常见的引文分析方法有共引分析(Co本文档来自技高网...

【技术保护点】
1.一种基于Paper Rank算法的文献排序方法,其特征在于,包括:S1、对于待排序的每一篇文献的每一条句子,针对该句子枚举所有分词方案,从该句子的所有分词方案中选取最优分词方案;S2、对于所述待排序的每一篇文献,通过将该篇文献对应的所有最优分词方案代入Paper Rank算法中计算该篇文献的重要性,并按照文献的重要性对所述待排序的文献进行排序,其中,在文献的重要性的计算过程中采用加权平均的方式赋予不同属性不同的权重。

【技术特征摘要】
1.一种基于PaperRank算法的文献排序方法,其特征在于,包括:S1、对于待排序的每一篇文献的每一条句子,针对该句子枚举所有分词方案,从该句子的所有分词方案中选取最优分词方案;S2、对于所述待排序的每一篇文献,通过将该篇文献对应的所有最优分词方案代入PaperRank算法中计算该篇文献的重要性,并按照文献的重要性对所述待排序的文献进行排序,其中,在文献的重要性的计算过程中采用加权平均的方式赋予不同属性不同的权重。2.根据权利要求1所述的方法,其特征在于,所述从该句子的所有分词方案中选取最优分词方案,包括:对该句子的所有分词方案进行评分,并选取得分最高的分词方案作为最优分词方案,其中,分词方案S的得分P(S)的计算公式为P(S)=P(w1)×P(w2|w1)×P(w3|w2)×…×P(wn|wn-1),P(wi|wi-1)=P(wi,wi-1)/P(wi-1),P(wi-1)为第i-1个词wi-1出现的概率,P(wi,wi-1)为第i-1个词wi-1出现以及第i个词wi出现的概率,i∈(2,3,…,n),n为分词方案S包含的分词数量。3.根据权利要求2所述的方法,其特征在于,第i篇文献Pi的重要性PR(Pi)的计算公式为其中,N为待排序的所有文献的数量,d为阻尼系数,K是属性的总数,L(Pj)为第j篇文献Pj的链出文献的数量,li(Pi,Pj,k)为第i篇文献Pi与第j篇文献Pj在第k个属性上相同的词条数,LI(Pj,k)为第j篇文献Pj在第k个属性上所分割的所有词条数。4.根据权利要求3所述的方法,其特征在于,在所述S2之前,还包括:通过提取待排序的所有文献的主要相关信息,生成属性标签及其对应的属性内容;统一所述属性标签的名称;根据插入排序算法整理所述待排序的每一篇文献的属性标签;将所述待排序的每一篇文献的属性标签及其对应的属性内容进行结构化存储。5.一种基于PaperRank算法的文献排序装置,其特征在于,包括:选取单元,用于对于待排序的每一篇文献的每一条句子,针对该句子枚举所有分词方案,从该句子的所有分词方案中选取最优分词方案;排序单元...

【专利技术属性】
技术研发人员:王则远周旻毕莹孙佳星
申请(专利权)人:大连诺道认知医学技术有限公司
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1