一种从文献中自动识别实验方案的方法技术

技术编号：6119303 阅读：265 留言：0更新日期：2012-04-11 18:40

本发明专利技术提出一种从文献中自动识别实验方案的方法，包括如下步骤：读取所述文献中数字化的文献内容；将文献内容划分为多个文本段落；基于词频统计，采用特征向量表示文献内容中所有的文本段落；对文本段落的原始特征向量进行高层次特征向量的提取；通过上下文无关分类模型/上下文相关段落分类模型，判断文本段落是否为阐述实验方案的段落。本发明专利技术针对生命科学文献中实验方案段落的识别任务，通过高层特征的提取和上下文无关/相关分类器的构造，能够高效、准确的在海量的生命科技文献中自动的提取出实验方案的段落。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及。
技术介绍
在生命科学领域，研究者和技术人员常常需要能够从海量的文字资料中快速准确地获取与实验方案相关的内容，以便对其进行深入的分析或者进一步的知识发现。所以，从数量庞大、内容复杂的文献中快速定位到自己所需的内容是摆在科技人员面前的一个不可回避而又很有意义的问题。现有的工作方式中，从生命科学文献中提取实验方案段落主要依赖于人工对文献内容进行通读，然后再对它们进行标注提取。该种工作方式需要许多具有丰富经验和专门知识的分类人员做大量的工作，不仅代价高昂，而且效率低下。
技术实现思路
本专利技术的目的是提供，可以很好的解决上述问题。本专利技术的目的是通过以下技术方案来实现，包括如下步骤读取所述文献中数字化的文献内容；将文献内容划分为多个文本段落；基于词频统计，采用特征向量表示文献内容中所有的文本段落；对文本段落的原始特征向量进行高层次特征向量的提取；通过上下文无关分类模型/上下文相关段落分类模型，判断文本段落是否为阐述实验方案的段落。优选的，步骤“将文献内容划分为若干文本段落”后，“基于词频统计，采用特征向量表示文献内容中所有的文本段落”前；还包括步骤对文献内容中的所有的文本段落进行预处理，具体包括去除所述文本段落中的停用词；对文本段落中的词根进行还原；将所述文本段落分解为一系列无序的词条，并获取所述词条在所述文本段落中的词频和出现所述词条的所述文本段落的总数。优选的，步骤“基于词频统计，采用特征向量表示文献内容中所有的文本段落”具体为给所述词条加上与该词条对应的权重；将所述文本段落映射成特征向量。优选的，步骤“对文本段落的原始特征向量进行高层次...

【技术保护点】
１．一种从文献中自动识别实验方案的方法，其特征在于，包括如下步骤：读取所述文献中数字化的文献内容；将文献内容划分为多个文本段落；基于词频统计，采用特征向量表示文献内容中所有的文本段落；对文本段落的原始特征向量进行高层次特征向量的提取；通过上下文无关分类模型／上下文相关段落分类模型，判断文本段落是否为阐述实验方案的段落。

【技术特征摘要】

【专利技术属性】
技术研发人员：何芳连，
申请(专利权)人：北京奥米时代生物技术有限公司，
类型：发明
国别省市：11

全部详细技术资料下载我是这个专利的主人