【技术实现步骤摘要】
一种基于共训练的半监督生物医学事件抽取方法
本专利技术涉及文本挖掘领域,尤其涉及一种基于共训练的半监督生物医学事件抽取方法。
技术介绍
生物医学事件提取是信息抽取的一个重要分支。随着生物医学文献的快速增长,科研工作者需要大量的精力和时间来获得相关的科学知识。因此,生物医学事件信息的自动抽取引起了人们极大的兴趣。因此,有必要以有效和准确的方法提取生物医学事件。目前,事件抽取的方法可以大致可以分为两类:基于规则的方法和基于机器学习的方法。基于规则的事件抽取系统由一系列规则组成,包括句子结构、语法关系和语义关系等。这些是从训练数据手动定义或自动学习的。人工干预可以达到较高的精度,但召回率较低。但当语料库较大时,该方法很难指定对所有样本都能提高召回率的规则。基于机器学习的事件提取系统不需要人工干预,它将事件抽取视为一个分类问题,基于机器学习的方法提取大量的特征,如语法特征和语法特征。这些特征通常被输入到支持向量机模型(SVM)中,用于训练模型。基于机器学习的系统性能往往要优于基于规则的系统性能。随着深度学习的不断发展,许多深度学习方法已成功地应用于自然语言处理中。用卷积神 ...
【技术保护点】
一种基于共训练的半监督生物医学事件抽取方法,其特征在于,至少包括以下步骤:步骤一:初始化有标签数据集作为原始训练集,进行文本预处理,并生成短句训练集,同时初始化无标签数据集;步骤二:在训练集上训练SVM分类器,在短句训练集上训练CNN分类器,用好的SVM分类器和CNN分类器对无标签样本进行分类预测;步骤三:依据选择策略,选择无标签数据集中符合条件的样本,回填至训练集中,用扩充后的新训练集重新训练SVM分类器和CNN分类器,重复步骤二、三,直至开发集上的F值达到最大;步骤四:经上述迭代过程,增量地扩展了训练集,并得到训练好的SVM分类器和CNN分类器,结合两分类器的结果,对最 ...
【技术特征摘要】
1.一种基于共训练的半监督生物医学事件抽取方法,其特征在于,至少包括以下步骤:步骤一:初始化有标签数据集作为原始训练集,进行文本预处理,并生成短句训练集,同时初始化无标签数据集;步骤二:在训练集上训练SVM分类器,在短句训练集上训练CNN分类器,用好的SVM分类器和CNN分类器对无标签样本进行分类预测;步骤三:依据选择策略,选择无标签数据集中符合条件的样本,回填至训练集中,用扩充后的新训练集重新训练SVM分类器和CNN分类器,重复步骤二、三,直至开发集上的F值达到最大;步骤四:经上述迭代过程,增量地扩展了训练集,并得到训练好的SVM分类器和CNN分类器,结合两分类器的结果,对最终待分类预测的文本进行分类预测。2.根据权利要求1所述一种基于共训练的半监督生物医学事件抽取方法,其特征在于,所述短句训练集的构造方法为:21)对训练集中的样本,预处理后提取(触发词,蛋白质)对之间的最短依存路径;22)依存路径过短的情况不能很好的表示句子的语义,有必要在最短依赖路径上添加信息,通过添加直接子节点和直接父节点,拓展最短路径中每个节点,然后根据原始句子中的位置信息,将所有节点包括子树节点扩展和依赖路径中的每个节点进行排列,并获得新的用于分类的短句,进一步构建了带有标签的短句训练集。3.根据权利要求1所述一种基于共训练的半监督生物医学事件抽取方法,其特征在于,所述CNN的训练和预测方法为:将短句训练集中的短句用词嵌入表示为神经网络模型的输入向量,自动学习特征,第一层将单词嵌入到低维向量中,其中词向量由无监督的神经语言模型获得,下一层使用不同长度的滤波器对文本矩阵进行卷积,滤波器的宽度等于词向量的长度,使用最大池化处理每个滤波器提取的向量,并使用正则化方法防止过拟合,每个滤波器对应一个数字,将滤波器拼接在一起,获得表示该句子的向量,最后使用softmax层对结果进行分类,得到CNN预测结果集。4.根据权利要求1所述一种基于共训练的半监督生物医学事件抽取方法,其特征在于,所述选择样本对训练集进行回填的方法为:样本选择策略如下:
【专利技术属性】
技术研发人员:卢奕南,马小蕾,路扬,潘航宇,
申请(专利权)人:吉林大学,
类型:发明
国别省市:吉林,22
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。