一种从文献中自动识别实验方案的方法技术

技术编号:6119303 阅读:265 留言:0更新日期:2012-04-11 18:40
本发明专利技术提出一种从文献中自动识别实验方案的方法,包括如下步骤:读取所述文献中数字化的文献内容;将文献内容划分为多个文本段落;基于词频统计,采用特征向量表示文献内容中所有的文本段落;对文本段落的原始特征向量进行高层次特征向量的提取;通过上下文无关分类模型/上下文相关段落分类模型,判断文本段落是否为阐述实验方案的段落。本发明专利技术针对生命科学文献中实验方案段落的识别任务,通过高层特征的提取和上下文无关/相关分类器的构造,能够高效、准确的在海量的生命科技文献中自动的提取出实验方案的段落。

【技术实现步骤摘要】

本专利技术涉及。
技术介绍
在生命科学领域,研究者和技术人员常常需要能够从海量的文字资料中快速准确地获取与实验方案相关的内容,以便对其进行深入的分析或者进一步的知识发现。所以,从数量庞大、内容复杂的文献中快速定位到自己所需的内容是摆在科技人员面前的一个不可回避而又很有意义的问题。现有的工作方式中,从生命科学文献中提取实验方案段落主要依赖于人工对文献内容进行通读,然后再对它们进行标注提取。该种工作方式需要许多具有丰富经验和专门知识的分类人员做大量的工作,不仅代价高昂,而且效率低下。
技术实现思路
本专利技术的目的是提供,可以很好的解决上述问题。本专利技术的目的是通过以下技术方案来实现,包括如下步骤读取所述文献中数字化的文献内容;将文献内容划分为多个文本段落;基于词频统计,采用特征向量表示文献内容中所有的文本段落;对文本段落的原始特征向量进行高层次特征向量的提取;通过上下文无关分类模型/上下文相关段落分类模型,判断文本段落是否为阐述实验方案的段落。优选的,步骤“将文献内容划分为若干文本段落”后,“基于词频统计,采用特征向量表示文献内容中所有的文本段落”前;还包括步骤对文献内容中的所有的文本段落进行预处理,具体包括去除所述文本段落中的停用词;对文本段落中的词根进行还原;将所述文本段落分解为一系列无序的词条,并获取所述词条在所述文本段落中的词频和出现所述词条的所述文本段落的总数。优选的,步骤“基于词频统计,采用特征向量表示文献内容中所有的文本段落”具体为给所述词条加上与该词条对应的权重;将所述文本段落映射成特征向量。优选的,步骤“对文本段落的原始特征向量进行高层次特征向量的提取”具体为通过无监督学习方法进行文本段落的特征向量的抽取训练;通过无监督学习方法对新的文本段落进行高层次特征向量抽取。本专利技术提供了一种可方便应用于计算机,能够针对生命科学研究中的海量文献, 通过高层特征的提取和上下文无关/相关分类器的构造,自动的提取出与实验方案有关的段落,代替人工识别选取,具有高效、准确的特点。 附图说明下面根据附图和实施例对本专利技术作进一步详细说明。图1为本专利技术实施例1提出的流程图;图2为本专利技术实施例1提出的一种从文献中自动识别实验方案中S13的具体流程图;图3为本专利技术实施例1提出的一种从文献中自动识别实验方案中S14的具体流程图;图4为本专利技术实施例1提出的一种从文献中自动识别实验方案中S15的具体流程图。具体实施例方式实施例1参见图1,提出一种实验方案自动识别方法,并做进一步说明如下S11、读取文献中数字化的文献内容。S12、将文献内容划分为若干文本段落,保存该文本段落的总数N。S13、对文献内容中的所有的文本段落进行预处理,获取噪声被初步降低的文献内容。参见图2,其具体包括如下步骤S131、选择未经过预处理的文本段落,并去除该文本段落中的停用词。S132、对该文本段落中的词根进行还原。S133、将未被特征向量表示的文本段落分解为一系列无序的词条,并获取上述词条在该文本段落中的词频tf (t,ρ)和出现该词条的文本段落的总数nt。文本段落由一系列词条组成,根据现有构词规则,将文本段落分解为一系列无序的词条,将词条在上述文本段落中出现的次数统计为tf(t,p),即为上述词条在上述文本段落中的词频,统计所有词条的nt,nt为文献内容中,出现该词条的文本段落的总数。S134、判断文献内容中是否存在未经过预处理的文本段落。如果是,转至S131;如果否,对该文献的预处理过程结束,该文献内容的噪声也被初步降低。S14、基于词频统计,采用特征向量表示文献内容中所有的文本段落。参见图3,其具体包括如下步骤S141、根据上述N、tf(t, ρ)、nt给文本段落中每一词条加上与该词条对应的权重。—个词条在越多的文本段落中出现,其权重越小,因其区分文本段落类别的能力越低;在某一个文本段落中,一个词条出现的频率越高,则其权重越大,因其区分文本段落类别的能力越强。如下详述采用tf idf函数,通过TF-IDF公式计算该词条的权重,并将权重量化的过程权利要求1.,其特征在于,包括如下步骤读取所述文献中数字化的文献内容;将文献内容划分为多个文本段落;基于词频统计,采用特征向量表示文献内容中所有的文本段落;对文本段落的原始特征向量进行高层次特征向量的提取;通过上下文无关分类模型/上下文相关段落分类模型,判断文本段落是否为阐述实验方案的段落。2.如权利要求1所述的方法,其特征在于,步骤“将文献内容划分为若干文本段落”后, “基于词频统计,采用特征向量表示文献内容中所有的文本段落”前;还包括步骤对文献内容中的所有的文本段落进行预处理,具体包括去除所述文本段落中的停用词;对文本段落中的词根进行还原;将所述文本段落分解为一系列无序的词条,并获取所述词条在所述文本段落中的词频和出现所述词条的所述文本段落的总数。3.如权利要求1所述的方法,其特征在于,步骤“基于词频统计,采用特征向量表示文献内容中所有的文本段落”具体为给所述词条加上与该词条对应的权重;将所述文本段落映射成特征向量。4.如权利要求1所述的方法,其特征在于,步骤“对文本段落的原始特征向量进行高层次特征向量的提取”具体为通过无监督学习方法进行文本段落的特征向量的抽取训练;通过无监督学习方法对新的文本段落进行高层次特征向量抽取。全文摘要本专利技术提出,包括如下步骤读取所述文献中数字化的文献内容;将文献内容划分为多个文本段落;基于词频统计,采用特征向量表示文献内容中所有的文本段落;对文本段落的原始特征向量进行高层次特征向量的提取;通过上下文无关分类模型/上下文相关段落分类模型,判断文本段落是否为阐述实验方案的段落。本专利技术针对生命科学文献中实验方案段落的识别任务,通过高层特征的提取和上下文无关/相关分类器的构造,能够高效、准确的在海量的生命科技文献中自动的提取出实验方案的段落。文档编号G06F17/30GK102169493SQ20111008296公开日2011年8月31日 申请日期2011年4月2日 优先权日2011年4月2日专利技术者何芳连 申请人:北京奥米时代生物技术有限公司本文档来自技高网...

【技术保护点】
1.一种从文献中自动识别实验方案的方法,其特征在于,包括如下步骤:读取所述文献中数字化的文献内容;将文献内容划分为多个文本段落;基于词频统计,采用特征向量表示文献内容中所有的文本段落;对文本段落的原始特征向量进行高层次特征向量的提取;通过上下文无关分类模型/上下文相关段落分类模型,判断文本段落是否为阐述实验方案的段落。

【技术特征摘要】

【专利技术属性】
技术研发人员:何芳连
申请(专利权)人:北京奥米时代生物技术有限公司
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1