文献自动评价方法及系统技术方案

技术编号:4089832 阅读:279 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种文献自动评价方法,包括:从文献中提取所述文献中所含参考文献的内容以及所述文献中对参考文献的引证文本;对所述引证文本中的语句做语义分析,所述语义分析包括将所述语句切分成词语的分词处理,根据所述词语的概念类别生成所述语句的概念类别的语义块切分,以及根据所述语句的概念类别生成该语句的句类表达式和语义块的句类假设和检验;根据语义块和句类表达式、所述语句中所包含的极性词语以及倾向性评价模型对所述引证文本中的语句做倾向性分析,由所述倾向性分析的结果以及参考文献的内容得到所述引证文本对参考文献的倾向性态度。

【技术实现步骤摘要】

本专利技术涉及文本检索领域,特别涉及一种文献自动评价方法以及相应的系统。
技术介绍
科学研究的成果之一就是学术论文的发表,数字图书馆的飞速发展使得浩如烟海 的学术文献可以被计算机检索、分析和评价。截至本文撰写时,中国知网(CNKI)仅核心期 刊库从1994年至今(部分刊物回溯至创刊)就已经有近34,210,000篇文献,而且每日新增 约3万多篇文献。科研工作者要从如此多的学术文献中找到有价值的高质量的文献需要耗 费大量时间,如果能够利用计算机语言信息处理技术自动为科研工作者推荐相关的文献、 给出论文作者对文献的评价结果,那么将大大减轻科研工作者的检索工作量,节省时间,从 而提高文献调研效率。文献评价最常用的指标之一是被引频次,一般被引频次不包括文献著者对自己所 著文献的引用。被引频次一方面反映了该文献被其他研究者的关注程度,他引次数越多说 明关注者越多、文献价值越大;另一方面被引频次也有它自身的局限性。首先,最新发表的 文献不可能获得很高的引用频次,而科研工作者往往希望获得最新的有价值的文献,被引 频次不利于新发表论文的传播和价值体现。其次,被引频次只是从数量上进行了统计,没有 考虑文献来源期刊的质量。期刊质量一般用影响因子来衡量,影响因子越大说明期刊影响 范围越大或质量越高。在影响因子大或质量高的期刊发表的论文其质量也较高,被引频次 没有反映出这方面的特性。第三,从文献的被引频次中也得不到引用该文献的论文对该文 献的态度或评价,在某些论文中会指出引用文献的不足之处甚至是错误之处,当然也会对 引用文献进行肯定、赞同或推荐。这种主观性的评价信息目前一般通过同行专家评议或打 分得到对文献的综合评价得分,体现出文献在本领域内的影响或价值。从上述说明可以看出,单纯采用被引频次来评价文献具有局限性。因此本领域技 术人员提出了文本情感倾向性分析方法,该方法能够直接从文献的语言陈述中获取文献作 者对引用文献的评价或态度,给出被引文献的推荐度,从而更好地服务于科研工作者对文 献检索、文献评价的需求。现有技术中的文本情感倾向性分析方法的基本原理是利用计算机分析文本中的 语句结构、词语及其内在语义关系,获得主观性文本中评价者对于某些评价对象的一种倾 向性态度。要获得评价者对评价对象的倾向性态度,其实现基础是极性词典。所谓的极性 词典包括如“很好、赞同、很差、缺陷”等具有明显倾向性和评价态度的极性词语,以及与极 性词语相关的知识描述。有了极性词典以后,文本情感倾向性分析方法就可以从文本中找 出极性词语,然后以极性词语为中心,分析极性词语周围的文本,获得极性词语所关联的评 价对象和评价者,从而确定出评价者对于评价对象的倾向性态度。在上述基本实现原理的基础上,现有技术中的文本情感倾向性分析方法可进一步 分为两类。一类是机器学习的方法,该方法通过已经标注好极性词、评价对象、评价者、倾向 性态度的文本(文本中的这些知识通常由下面所提到的语法分析加规则的方法获取)进行训练,得到统计模型的参数,再用训练好的统计模型去分析新的文本,常见的模型和方法有 Boosting, SVM(支持向量机)、CRF(条件随机场)和最大熵模型等。另一类是语法分析加 规则的方法,即分析极性词语所在的句子,得到词语的句法成分,根据一定的评价模式或规 则确定评价者、评价对象和倾向性态度,主要用到词语词性、句法主谓宾结构、推理规则等 知识。上述两类方法都有各自的缺陷。机器学习的方法需要大量的标注好的训练语料文 本,增加了前期准备的成本,此外在实际分析的文本中会有许多训练语料中没有出现的词 语,造成数据稀疏的处理难题。语法分析需要精确细致的语句结构分析结果,传统语法的主 谓宾结构还无法适应倾向性评价的多种模式,只能获得部分简单的、粗颗粒度的评价结果。
技术实现思路
本专利技术的目的是克服现有技术中文献主观评价信息获取方法存在的前期成本高、 易出现数据稀疏,以及评价结果粗糙的缺陷,从而提供一种成本低、评价结果客观公正的文 献自动评价方法和系统。为了实现上述目的,本专利技术还提供了一种文献自动评价方法,包括步骤1)、从文献中提取所述文献中所含参考文献的内容以及所述文献中对参考文 献的引证文本;步骤2)、对所述引证文本中的语句做语义分析,所述语义分析包括将所述语句切 分成词语的分词处理,根据所述词语的概念类别生成所述语句的概念类别的语义块切分, 以及根据所述语句的概念类别生成该语句的句类表达式和语义块的句类假设和检验;步骤3)、根据步骤2)所得到的语句的语义块和句类表达式、所述语句中所包含 的极性词语以及倾向性评价模型对所述引证文本中的语句做倾向性分析,由所述倾向性分 析的结果以及步骤1)所得到的参考文献的内容得到所述引证文本对参考文献的倾向性态 度。上述技术方案中,还包括步骤4)、统计一个文献集合中的各个文献对参考文献的倾向性态度,根据所述倾 向性态度中所包含的某一文献作为参考文献出现的次数、作为参考文献获得好评的次数、 该文献中对其他文献加以好评与差评的比率,生成对所述文献集合中文献的推荐度。上述技术方案中,在所述的步骤2)中,在所述的句类假设和检验后还包括对包含 有句子以及句子变形的复杂语义块的构成分析。上述技术方案中,在所述的步骤2)中,所述的分词处理包括根据已知的通用词语 知识库对所述引证文本中的语句切分成字或词语,同时得到该字或词语的概念符号和概念 类别。上述技术方案中,在所述的步骤2)中,所述的语义块切分包括步骤2-1-1)、根据所述分词处理所得到的词语的概念类别,找出所述语句中用于 表示语言逻辑虚词的“ 1,,类概念以及用于表示动态概念的“V”类概念;步骤2-1-2)、对于所述语句中得到的多个“V”类概念,逐个进行如下操作如果其 前后概念符合预先制定的排除规则的条件,那么去除该概念的“V”类概念属性;步骤2-1-3)、对于进行排除操作后剩下的多个“V”类概念,按照优选规则计算出6每一个“v”类概念作为特征语义块的权重,然后按所述权重做从大到小的排队;步骤2-1-4)、根据特征语义块的构成规则,把“V”类概念与前后的修饰概念合并 得到特征语义块EK;步骤2-1-5)、根据特征语义块EK和EK之前的“ 1 ”类概念,把它们切分语句后形成 的字词组合作为广义对象语义块GBK。上述技术方案中,在所述的步骤2)中,所述的句类假设和检验包括步骤2-2-1)、在排队后的多个特征语义块中按顺序进行假设,根据假设的特征语 义块得到语句的概念类别,由所述语句的概念类别得到该语句对应的所有可能的实际句类 表达式和语义块,并得到语句所对应的实际语句格式;步骤2-2-2)、由所述语句的概念类别得到句类知识中标准的句类表达式和语义块 约束知识,由特征语义块的核心概念词语得到词语知识库中的句类约束、语句格式约束和 语义块约束知识;步骤2-2-3)、将步骤2-2-2)得到的约束知识与步骤2_2_1)中假设得到的实际句 类表达式和语义块在语义块个数、语句格式、语义块核心概念三个方面依次进行比较,保留 比较结果都符合的句类表达式和语义块。上述技术方案中,在所述的步骤2)中,所述复杂语义块的构成分析包括步骤2-3-1)、判断所述复杂语义块的类型,若为块扩或原型句蜕,执行下一步,若 为要素句本文档来自技高网
...

【技术保护点】
一种文献自动评价方法,包括:步骤1)、从文献中提取所述文献中所含参考文献的内容以及所述文献中对参考文献的引证文本;步骤2)、对所述引证文本中的语句做语义分析,所述语义分析包括将所述语句切分成词语的分词处理,根据所述词语的概念类别生成所述语句的概念类别的语义块切分,以及根据所述语句的概念类别生成该语句的句类表达式和语义块的句类假设和检验;步骤3)、根据步骤2)所得到的语句的语义块和句类表达式、所述语句中所包含的极性词语以及倾向性评价模型对所述引证文本中的语句做倾向性分析,由所述倾向性分析的结果以及步骤1)所得到的参考文献的内容得到所述引证文本对参考文献的倾向性态度。

【技术特征摘要】
一种文献自动评价方法,包括步骤1)、从文献中提取所述文献中所含参考文献的内容以及所述文献中对参考文献的引证文本;步骤2)、对所述引证文本中的语句做语义分析,所述语义分析包括将所述语句切分成词语的分词处理,根据所述词语的概念类别生成所述语句的概念类别的语义块切分,以及根据所述语句的概念类别生成该语句的句类表达式和语义块的句类假设和检验;步骤3)、根据步骤2)所得到的语句的语义块和句类表达式、所述语句中所包含的极性词语以及倾向性评价模型对所述引证文本中的语句做倾向性分析,由所述倾向性分析的结果以及步骤1)所得到的参考文献的内容得到所述引证文本对参考文献的倾向性态度。2.根据权利要求1所述的文献自动评价方法,其特征在于,还包括步骤4)、统计一个文献集合中的各个文献对参考文献的倾向性态度,根据所述倾向性 态度中所包含的某一文献作为参考文献出现的次数、作为参考文献获得好评的次数、该文 献中对其他文献加以好评与差评的比率,生成对所述文献集合中文献的推荐度。3.根据权利要求1或2所述的文献自动评价方法,其特征在于,在所述的步骤2)中,在 所述的句类假设和检验后还包括对包含有句子以及句子变形的复杂语义块的构成分析。4.根据权利要求1或2或3所述的文献自动评价方法,其特征在于,在所述的步骤2) 中,所述的分词处理包括根据已知的通用词语知识库对所述引证文本中的语句切分成字或 词语,同时得到该字或词语的概念符号和概念类别。5.根据权利要求1或2或3所述的文献自动评价方法,其特征在于,在所述的步骤2) 中,所述的语义块切分包括步骤2-1-1)、根据所述分词处理所得到的词语的概念类别,找出所述语句中用于表示 语言逻辑虚词的“ 1,,类概念以及用于表示动态概念的“V”类概念;步骤2-1-2)、对于所述语句中得到的多个“V”类概念,逐个进行如下操作如果其前后 概念符合预先制定的排除规则的条件,那么去除该概念的“V”类概念属性;步骤2-1-3)、对于进行排除操作后剩下的多个“V”类概念,按照优选规则计算出每一 个“V”类概念作为特征语义块的权重,然后按所述权重做从大到小的排队;步骤2-1-4)、根据特征语义块的构成规则,把“V”类概念与前后的修饰概念合并得到 特征语义块EK ;步骤2-1-5)、根据特征语义块EK和EK之前的“ 1 ”类概念,把它们切分语句后形成的字 词组合作为广义对象语义块GBK。6.根据权利要求1或2或3所述的文献自动评价方法,其特征在于,在所述的步骤2) 中,所述的句类假设和检验包括步骤2-2-1)、在排队后的多个特征语义块中按顺序进行假设,根据假设的特征语义块 得到语句的概念类别,由所述语句的概念类别得到该语句对应的所有可能的实际句类表达 式和语义块,并得到语句所对应的实际语句格式;步骤2-2-2)、由所述语句的概念类别得到句类知识中标准的句类表达式和语义块约束 知识,由特征语义块的核心概念词语得到词语知识库中的句类约束、语句格式约束和语义 块约束知识;步骤2-2-3)、将步骤2-2-2)得到的约束知识与步骤2-2-1)中假设得到的实际句类表达式和语义块在语义块个数、语句格式、语义块核心概念三个方面依次进行比较,保留比较 结果都符合的句类表达式和语义块。7.根据权利要求3所述的文献自动评价方法,其特征在于,在所述的步骤2)中,所述复 杂语义块的构成分析包括步骤2-3-1)、判断所述复杂语义块的类型,若为块扩或原型句蜕,执行下一步,若为要 素句蜕,执行步骤2-3-3),若为包装句蜕,执行步骤2-3-4);步骤2-3-2)、将所述复杂语义块中的用于表示动态概念的“V”类概念作为新语句的特 征语义块进行句类的假设和检验,结束本步骤的操作;步骤2-3-3)、对所述复杂语义块中的用于表示动态概念的“V”类概念重新恢复特征语 义块的资格,然后进行新语句的句类假设和检验,结束本步骤的操作;步骤2-3-4)、识别出所述包装句蜕外部作为“包装品”的字或词或短语,去除该包装品, 然后对剩余的部分进行句类的假设和检验,结束本步骤的操作。8.根据权利要求1或2或3所述的文献自动评价方法,其特征在于,所述...

【专利技术属性】
技术研发人员:韦向峰张全黄曾阳缪建明池毓焕
申请(专利权)人:中国科学院声学研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1