一种基于句法词向量的生物医学事件触发词识别方法技术

技术编号:12177861 阅读:83 留言:0更新日期:2015-10-08 15:44
本发明专利技术涉及一种识别方法,一种基于句法词向量的生物医学事件触发词识别方法,包括以下步骤:1、对未标注数据进行预处理,2、基于句法上下文信息的词向量训练,3、候选触发词词典的构建,4、触发词语义特征向量的构建,5、深度学习模型的训练,6、生物医学事件触发词的识别。本发明专利技术利用大量可获得未标注数据训练词向量,精确捕获触发词的语义信息,并有效地降低了输入特征维度;同时利用深度学习模型学习输入特征之间的隐含特征,从而更加精确地进行分类;最后,在训练的过程中对词向量信息进行微调,使得词向量信息更加适合该数据集,有效地提升了模型的泛化能力以及触发词识别性能。

【技术实现步骤摘要】

本专利技术设及一种识别方法,更具体地说,设及一种基于句法词向量的生物医学事 件触发词识别方法。
技术介绍
随着系统生物学的快速发展,揭示生物分子、细胞、组织等之间的复杂关系的需求 愈加迫切。同时,公开发表的生物医学文献也正在呈现爆炸式的增长态势,如何从大量的生 物医学文献中挖掘生物分子、细胞、组织等之间的复杂关系而不是传统的简单的二元关系 (如蛋白质-蛋白质关系、药物-药物关系等)已经成为现代生物医学文本挖掘领域的研究 热点。 目前,大多数生物医学事件抽取方法大都将该任务分为两个子任务:触发词识别 与元素检测,而触发词识别在整个任务中起着决定性的作用,触发词识别的错误将会累积 到元素检测过程中,所W提高触发词识别的性能,对于整个生物医学事件抽取来说至关重 要。目前,触发词识别方法主要包括W下两类: 一类是基于规则匹配的方法,该方法通过对数据集中的事件特征进行分析,手动 构造一些用于识别触发词的模式或者正则表达式,然后用自定义的模式或者正则表达式匹 配满足该模式的触发词。此方法虽然在早期触发词识别研究中起到了一定的作用,但是几 乎不可能穷举所有可能的模式,而且对于在训练集中没有出现过的模式无法预知,导致系 统泛化性能比较差,不能得到广泛的应用。 另一类是基于机器学习的方法,该方法将触发词识别问题看作一个多元分类问 题,将一个词分类为几种事件类型中的一种,该方法重点在于分类模型特征向量的构建,特 征向量的好坏决定了分类模型的优劣。而特征向量的构建主要取决于对于该任务的理解, 选择那些对于识别触发词信息有用的特征,构建特征向量,并利用分类器(如支持向量机、 最大滴等)进行分类。该方法明显优于基于规则匹配的方法,得到了广泛的应用,但是仍然 存在一些缺点,比较依赖于标注数据,当标注数据比较少的时候,无法保证其性能;而且,特 征的构建主要是针对当前数据集手动构造,人工干预比较大,泛化性能不好,人工构建的特 征向量维度高并且稀疏,训练比较耗时。 综上所述,如何减少人工干预,提高触发词识别的泛化性能,是生物医学事件触发 词识别迫切需要解决的问题。
技术实现思路
为了克服现有技术中存在的不足,本专利技术目的是提供一种基于句法词向量的生物 医学事件触发词识别方法。该方法利用大量可获得未标注数据训练词向量,精确捕获触发 词的语义信息,并有效地降低了输入特征维度;同时利用深度学习模型学习输入特征之间 的隐含特征,从而更加精确地进行分类;最后,在训练的过程中对词向量信息进行微调,使 得词向量信息更加适合该数据集,有效地提升了模型的泛化能力W及触发词识别性能。[000引为了实现上述专利技术目的,解决现有技术中所存在的问题,本专利技术采取的技术方案 是;,包括W下步骤: 步骤1、对未标注数据进行预处理;选择1997年到2009年期间所有的化bmed摘 要,并对其进行预处理,具体包括W下子步骤: (a)、利用生物领域专用的GeniaSentenceSpliter分句工具对化bmed摘要进行 分句处理;[001U 化)、利用生物领域专用的GD巧句法分析工具对子步骤(a)中已分句的化bmed摘 要进行句法分析;[001引步骤2、基于句法上下文信息的词向量训练;在触发词识别任务中,识别的对象基 本是动词或者起动词性质作用的词,不能只是简单地利用词袋上下文信息,而更多地需要 利用句法上下文信息来捕获触发词的精确语义;该里,使用改进版的word2vec,利用GDep 句法上下文信息预测目标词,最终获得基于GDep句法上下文信息的词向量,从而可W从 大量的未标注数据中更加精确地捕获触发词的语义信息;在词向量的训练过程中,采用 skip-gram模型进行训练,并设置过滤出现次数少于50次的稀疏词W及词向量维度设置为 200 维; 步骤3、候选触发词词典的构建;利用训练集中出现的所有触发词构建触发词词 典,只对在触发词词典中出现的词构建相应的特征向量进行训练,该样虽然会损失一些召 回率,但是会在准确率上作出补偿,具体包括W下子步骤: (a)、考虑到数据集中触发词大多数是由一个单词组成的,而多个单词组成的触发 词不方便进行识别,所W,只选择训练集中只有一个单词组成的触发词加入到候选词典; 化)、对候选词典中的词进行词形还原W及词干化处理,用于对意思相近但是词形 不同的词进行识别; 步骤4、触发词语义特征向量的构建,具体包括W下子步骤: (a)、对于目标词滑动窗口内的所有词对应的词向量进行连接,表示该目标词对应 的特征向量,取滑动窗口大小为5 ;[001引 化)、如果在滑动窗口内的词的个数小于滑动窗口大小,采用词向量中的一个特殊 字符Vs"与对应的词向量进行填充; 步骤5、深度学习模型的训练;采用去噪找式自编码(SDA)深度学习模型进行训 练,并使用深度学习工具化eano加W实现,具体包括W下子步骤: (a)、非监督预训练;当深度学习模型层数较多时,会发生梯度弥散现象,即误差传 递到前面几层时较小,对于参数的更新几乎不起作用,故采用去噪找式自编码神经网络模 型,利用无标签数据进行非监督预训练的方式对模型参数进行初始化,初始化后的参数,在 全局最优解附近,缩短训练过程的收敛时间;首先,对无标签数据进行特征自动学习,学习 输入的隐含特征表示,通过公式(1)构建输入隐含层的输出值, Hi(X) =S(胖12 ?x+bi2) (1) 式(1)中;S表示神经单元节点的激活函数,Wi2表示第一层与第二层之间的参数 矩阵,bi2表示偏置项,X表示神经网络模型的输入,Hi(X)表示输入隐含层的输出值,然后, 再利用一个解码层输出通过公式(2)对输入值重构, &(x) =s(r12?Hi(x)+b'12) (2) 式似中;b'。为b。的转置,W'。为W。的转置,H2(x)表示对输入值的重构,并 通过随机梯度下降算法对公式(2)中的损失函数进行优化,得到模型参数0, (3) 式(3)中;L表示神经网络模型的输入与输出之间误差的平方和,其中L(x,t)= I&(X)-XII2, 0表示模型参数,N表示样本个数;通过非监督预训练初始化好了第一层与 第二层之间的参数矩阵,将隐含层当做下一个自编码神经网络的输入,重复上述操作便可W对各层的参数完成初始化,初始化后的参数在全局最优解附近,缩短了训练过程的收敛 时间; 化)、监督微调:利用步骤(a)将预训练好的参数对模型进行参数初始化,然后利 用有标签数据进行训练,并对参数进行微调,微调过程中优化的损失函数通过公式(4)表 示,[002引 式(4)中;L(x,t) =||H2(x)-〇|I2,其中0是模型输出的类别信息,A是正则化因 子,0表不模型参数,N表不样本个数; (C)、词向量信息微调;在训练过程中,通过随机梯度下降算法对输入的词向量信 息进行微调,用于词向量信息适合该数据集,得到好的结果。 步骤6、生物医学事件触发词识别;利用步骤5训练得到深度学习模型,在未标注 数据上进行测试,识别未标注数据中的触发词。 本专利技术有益效果是;,包括 W下步骤;1、对未标注数据进行预处理,2、基于句法上下文信息的词向量训练,3、候选触发 词词典的构建,4、触发词语义特征向量的构建,5、深度学习模型的训练,6、生物医本文档来自技高网
...
一种<a href="http://www.xjishu.com/zhuanli/55/CN104965819.html" title="一种基于句法词向量的生物医学事件触发词识别方法原文来自X技术">基于句法词向量的生物医学事件触发词识别方法</a>

【技术保护点】
一种基于句法词向量的生物医学事件触发词识别方法,其特征在于包括以下步骤:步骤1、对未标注数据进行预处理:选择1997年到2009年期间所有的Pubmed摘要,并对其进行预处理,具体包括以下子步骤:(a)、利用生物领域专用的Genia Sentence Spliter分句工具对Pubmed摘要进行分句处理;(b)、利用生物领域专用的GDep句法分析工具对子步骤(a)中已分句的Pubmed摘要进行句法分析;步骤2、基于句法上下文信息的词向量训练:在触发词识别任务中,识别的对象基本是动词或者起动词性质作用的词,不能只是简单地利用词袋上下文信息,而更多地需要利用句法上下文信息来捕获触发词的精确语义;这里,使用改进版的word2vec,利用GDep句法上下文信息预测目标词,最终获得基于GDep句法上下文信息的词向量,从而可以从大量的未标注数据中更加精确地捕获触发词的语义信息;在词向量的训练过程中,采用skip‑gram模型进行训练,并设置过滤出现次数少于50次的稀疏词以及词向量维度设置为200维;步骤3、候选触发词词典的构建:利用训练集中出现的所有触发词构建触发词词典,只对在触发词词典中出现的词构建相应的特征向量进行训练,这样虽然会损失一些召回率,但是会在准确率上作出补偿,具体包括以下子步骤:(a)、考虑到数据集中触发词大多数是由一个单词组成的,而多个单词组成的触发词不方便进行识别,所以,只选择训练集中只有一个单词组成的触发词加入到候选词典;(b)、对候选词典中的词进行词形还原以及词干化处理,用于对意思相近但是词形不同的词进行识别;步骤4、触发词语义特征向量的构建,具体包括以下子步骤:(a)、对于目标词滑动窗口内的所有词对应的词向量进行连接,表示该目标词对应的特征向量,取滑动窗口大小为5;(b)、如果在滑动窗口内的词的个数小于滑动窗口大小,采用词向量中的一个特殊字符“/s”与对应的词向量进行填充;步骤5、深度学习模型训练:采用去噪栈式自编码(SDA)深度学习模型进行训练,并使用深度学习工具Theano加以实现,具体包括以下子步骤:(a)、非监督预训练:当深度学习模型层数较多时,会发生梯度弥散现象,即误差传递到前面几层时较小,对于参数的更新几乎不起作用,故采用去噪栈式自编码神经网络模型,利用无标签数据进行非监督预训练的方式对模型参数进行初始化,初始化后的参数,在全局最优解附近,缩短训练过程的收敛时间;首先,对无标签数据进行特征自动学习,学习输入的隐含特征表示,通过公式(1)构建输入隐含层的输出值,H1(x)=s(W12·x+b12)              (1)式(1)中:s表示神经单元节点的激活函数,W12表示第一层与第二层之间的参数矩阵,b12表示偏置项,x表示神经网络模型的输入,H1(x)表示输入隐含层的输出值,然后,再利用一个解码层输出通过公式(2)对输入值重构,H2(x)=s(W′12·H1(x)+b′12)     (2)式(2)中:b′12为b12的转置,W′12为W12的转置,H2(x)表示对输入值的重构,并通过随机梯度下降算法对公式(2)中的损失函数进行优化,得到模型参数θ,L=Σi=1NL(xi;θ)---(3)]]>式(3)中:L表示神经网络模型的输入与输出之间误差的平方和,其中L(x,t)=||H2(x)‑x||2,θ表示模型参数,N表示样本个数;通过非监督预训练初始化好了第一层与第二层之间的参数矩阵,将隐含层当做下一个自编码神经网络的输入,重复上述操作便可以对各层的参数完成初始化,初始化后的参数在全局最优解附近,缩短了训练过程的收敛时间;(b)、监督微调:利用步骤(a)将预训练好的参数对模型进行参数初始化,然后利用有标签数据进行训练,并对参数进行微调,微调过程中优化的损失函数通过公式(4)表示,L=12Σi=1NL(xi;θ)+12λ||θ||2---(4)]]>式(4)中:L(x,t)=||H2(x)‑o||2,其中o是模型输出的类别信息,λ是正则化因子,θ表示模型参数,N表示样本个数;(c)、词向量信息微调:在训练过程中,通过随机梯度下降算法对输入的词向量信息进行微调,用于词向量信息适合该数据集,得到好的结果。步骤6、生物医学事件触发词识别:利用步骤5训练得到深度学习模型,在未标注数据上进行测试,识别未标注数据中的触发词。...

【技术特征摘要】

【专利技术属性】
技术研发人员:王健张建海林鸿飞张益嘉
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1