文献自动评价方法及系统技术方案

技术编号：4089832 阅读：279 留言：0更新日期：2012-04-11 18:40

本发明专利技术提供一种文献自动评价方法，包括：从文献中提取所述文献中所含参考文献的内容以及所述文献中对参考文献的引证文本；对所述引证文本中的语句做语义分析，所述语义分析包括将所述语句切分成词语的分词处理，根据所述词语的概念类别生成所述语句的概念类别的语义块切分，以及根据所述语句的概念类别生成该语句的句类表达式和语义块的句类假设和检验；根据语义块和句类表达式、所述语句中所包含的极性词语以及倾向性评价模型对所述引证文本中的语句做倾向性分析，由所述倾向性分析的结果以及参考文献的内容得到所述引证文本对参考文献的倾向性态度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文本检索领域，特别涉及一种文献自动评价方法以及相应的系统。
技术介绍
科学研究的成果之一就是学术论文的发表，数字图书馆的飞速发展使得浩如烟海的学术文献可以被计算机检索、分析和评价。截至本文撰写时，中国知网(CNKI)仅核心期刊库从1994年至今(部分刊物回溯至创刊)就已经有近34，210，000篇文献，而且每日新增约3万多篇文献。科研工作者要从如此多的学术文献中找到有价值的高质量的文献需要耗费大量时间，如果能够利用计算机语言信息处理技术自动为科研工作者推荐相关的文献、给出论文作者对文献的评价结果，那么将大大减轻科研工作者的检索工作量，节省时间，从而提高文献调研效率。文献评价最常用的指标之一是被引频次，一般被引频次不包括文献著者对自己所著文献的引用。被引频次一方面反映了该文献被其他研究者的关注程度，他引次数越多说明关注者越多、文献价值越大；另一方面被引频次也有它自身的局限性。首先，最新发表的文献不可能获得很高的引用频次，而科研工作者往往希望获得最新的有价值的文献，被引频次不利于新发表论文的传播和价值体现。其次，被引频次只是从数量上进行了统计，没有考虑文献来源期刊的质量。期刊质量一般用影响因子来衡量，影响因子越大说明期刊影响范围越大或质量越高。在影响因子大或质量高的期刊发表的论文其质量也较高，被引频次没有反映出这方面的特性。第三，从文献的被引频次中也得不到引用该文献的论文对该文献的态度或评价，在某些论文中会指出引用文献的不足之处甚至是错误之处，当然也会对引用文献进行肯定、赞同或推荐。这种主观性的评价信息目前一般通...

【技术保护点】
一种文献自动评价方法，包括：步骤１）、从文献中提取所述文献中所含参考文献的内容以及所述文献中对参考文献的引证文本；步骤２）、对所述引证文本中的语句做语义分析，所述语义分析包括将所述语句切分成词语的分词处理，根据所述词语的概念类别生成所述语句的概念类别的语义块切分，以及根据所述语句的概念类别生成该语句的句类表达式和语义块的句类假设和检验；步骤３）、根据步骤２）所得到的语句的语义块和句类表达式、所述语句中所包含的极性词语以及倾向性评价模型对所述引证文本中的语句做倾向性分析，由所述倾向性分析的结果以及步骤１）所得到的参考文献的内容得到所述引证文本对参考文献的倾向性态度。

【技术特征摘要】
一种文献自动评价方法，包括步骤1)、从文献中提取所述文献中所含参考文献的内容以及所述文献中对参考文献的引证文本；步骤2)、对所述引证文本中的语句做语义分析，所述语义分析包括将所述语句切分成词语的分词处理，根据所述词语的概念类别生成所述语句的概念类别的语义块切分，以及根据所述语句的概念类别生成该语句的句类表达式和语义块的句类假设和检验；步骤3)、根据步骤2)所得到的语句的语义块和句类表达式、所述语句中所包含的极性词语以及倾向性评价模型对所述引证文本中的语句做倾向性分析，由所述倾向性分析的结果以及步骤1)所得到的参考文献的内容得到所述引证文本对参考文献的倾向性态度。2.根据权利要求1所述的文献自动评价方法，其特征在于，还包括步骤4)、统计一个文献集合中的各个文献对参考文献的倾向性态度，根据所述倾向性态度中所包含的某一文献作为参考文献出现的次数、作为参考文献获得好评的次数、该文献中对其他文献加以好评与差评的比率，生成对所述文献集合中文献的推荐度。3.根据权利要求1或2所述的文献自动评价方法，其特征在于，在所述的步骤2)中，在所述的句类假设和检验后还包括对包含有句子以及句子变形的复杂语义块的构成分析。4.根据权利要求1或2或3所述的文献自动评价方法，其特征在于，在所述的步骤2) 中，所述的分词处理包括根据已知的通用词语知识库对所述引证文本中的语句切分成字或词语，同时得到该字或词语的概念符号和概念类别。5.根据权利要求1或2或3所述的文献自动评价方法，其特征在于，在所述的步骤2) 中，所述的语义块切分包括步骤2-1-1)、根据所述分词处理所得到的词语的概念类别，找出所述语句中用于表示语言逻辑虚词的“ 1，，类概念以及用于表示动态概念的“V”类概念；步骤2-1-2)、对于所述语句中得到的多个“V”类概念，逐个进行如下操作如果其前后概念符合预先制定的排除规则的条件，那么去除该概念的“V”类概念属性；步骤2-1-3)、对于进行排除操作后剩下的多个“V”类概念，按照优选规则计算出每一个“V”类概念作为特征语义块的权重，然后按所述权重做从大到小的排队；步骤2-1-4)、根据特征语义块的构成规则，把“V”类概念与前后的修饰概念合并得到特征语义块EK ；步骤2-1-5)、根据特征语义块EK和EK之前的“ 1 ”类概念，把它们切分语句后形成的字词组合作为广义对象语义块GBK。6.根据权利要求1或2或3所述的文献自动评价方法，其特征在于，在所述的步骤2) 中，所述的句类假设和检验包括步骤2-2-1)、在排队后的多个特征语义块中按顺序进行假设，根据假设的特征语义块得到语句的概念类别，由所述语句的概念类别得到该语句对应的所有可能的实际句类表达式和语义块，并得到语句所对应的实际语句格式；步骤2-2-2)、由所述语句的概念类别得到句类知识中标准的句类表达式和语义块约束知识，由特征语义块的核心概念词语得到词语知识库中的句类约束、语句格式约束和语义块约束知识；步骤2-2-3)、将步骤2-2-2)得到的约束知识与步骤2-2-1)中假设得到的实际句类表达式和语义块在语义块个数、语句格式、语义块核心概念三个方面依次进行比较，保留比较结果都符合的句类表达式和语义块。7.根据权利要求3所述的文献自动评价方法，其特征在于，在所述的步骤2)中，所述复杂语义块的构成分析包括步骤2-3-1)、判断所述复杂语义块的类型，若为块扩或原型句蜕，执行下一步，若为要素句蜕，执行步骤2-3-3)，若为包装句蜕，执行步骤2-3-4)；步骤2-3-2)、将所述复杂语义块中的用于表示动态概念的“V”类概念作为新语句的特征语义块进行句类的假设和检验，结束本步骤的操作；步骤2-3-3)、对所述复杂语义块中的用于表示动态概念的“V”类概念重新恢复特征语义块的资格，然后进行新语句的句类假设和检验，结束本步骤的操作；步骤2-3-4)、识别出所述包装句蜕外部作为“包装品”的字或词或短语，去除该包装品，然后对剩余的部分进行句类的假设和检验，结束本步骤的操作。8.根据权利要求1或2或3所述的文献自动评价方法，其特征在于，所述...

【专利技术属性】
技术研发人员：韦向峰，张全，黄曾阳，缪建明，池毓焕，
申请(专利权)人：中国科学院声学研究所，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人