一种基于候选事件元素注意力机制的生物事件抽取方法技术

技术编号:19593674 阅读:19 留言:0更新日期:2018-11-28 04:58
本发明专利技术涉及一种生物事件抽取方法,一种基于候选事件元素注意力机制的生物事件抽取方法,包括以下步骤:(1)训练语料预处理,(2)使用PubMed数据库语料进行词向量训练,(3)构建序列的分布式表示方式,(4)构造基于BiLSTM‑Attention的特征表示方式,(5)使用CRF学习、获取当前文档序列的最优序列标注结果,(6)生物事件抽取。本发明专利技术方法具有以下优点:一是采用序列标注的方式进行针对触发词的事件元素识别,可以对一个触发词识别多个事件元素,二是构建了针对候选事件元素的Attention层,相比于传统的序列标注方法可以增加对候选事件元素的注意力权重,三是简化了生成事件的步骤。

【技术实现步骤摘要】
一种基于候选事件元素注意力机制的生物事件抽取方法
本专利技术涉及一种生物事件抽取方法,更具体的说,涉及一种基于候选事件元素注意力机制的生物事件抽取方法。
技术介绍
在生物信息领域上,事件是指一个或多个生物医学实体(如:蛋白质,细胞和化学物质)状态的改变。而这些改变对于理解生物学的过程和功能,以及对生理和发病机制的深入理解有着重要意义。自动创建这些文本描述的结构化表示不仅可以在信息检索和问答系统中构造由此类事件组成的生物网络,还可以用于知识发现,找到生物实体之间新的关联。生物事件抽取任务旨在从文本中获取生物事件信息并结构化表示。通过确定文本中语段的事件类型,然后找到该事件对应的事件元素。由于事件元素仅可以是文本中的实体,所以生物事件抽取主要包括三个步骤,第一步识别文本中的实体,第二步确定事件触发词来获取事件的类型,第三步根据触发词找到其对应事件的事件元素。生物事件抽取训练语料一般为每个文档提供两类标注信息:实体标注信息和事件标注信息。其中实体信息包括文档中的实体对应的偏移量和类别;事件标注信息包含两个部分,触发词信息和事件信息。触发词标注形式与实体标注形式相同;事件信息包含:事件类别以及对应的触发词,事件元素的类别以及对应的实体或事件。以往进行生物事件抽取的方法主要是基于分类模型,将同一句子中的触发词和实体构建二元关系对(如果用触发词来代表事件的话,还要构建触发词-触发词关系),然后对关系进行分类,从而确定实体或触发词是否属于该触发词触发的事件,以及该实体的事件元素类型。这样的方法存在着几个弊端。首先,因为生物语料中存在大量的生物实体和事件嵌套的情况,这种构建二元关系对的方式会产生大量的负样本,造成正负样本比例失衡的问题,不利于分类器学习。另一方面,生物领域的事件相比于通用领域来说,事件粒度更小,而且存在复杂的事件嵌套关系。事件元素之间并不是孤立的。对于含有多个元素以及嵌套的事件(如调控和绑定事件),事件元素之间往往存在关联,单独考虑二元关系对的方式不能有效利用事件元素之间的相互信息。最后,对于多元素的事件,基于二元关系分类的方式还要进行后处理才能生成多元素的事件,不同的后处理方法也会对事件抽取的结果造成影响。
技术实现思路
为克服现有技术针对二元分类实现事件元素识别方法存在的问题,本专利技术提供一种基于候选事件元素注意力机制的生物事件抽取方法。采用该方法可实现事件元素检测,最后将触发词与识别到的对应事件元素构造成生物事件通过格式化来表示,实现生物事件的抽取。不同于二元分类的方法,本专利技术提出的方法重点在于针对某一个触发词,识别其所在序列所有单词对应的事件元素标签序列,从而构造事件。为了实现上述专利技术目的,解决现有技术中所存在的问题,本专利技术采取的技术方案是:一种基于候选事件元素注意力机制的生物事件抽取方法,包括以下步骤:步骤1、训练语料预处理,将生物事件抽取任务构造成序列标注任务形式:使用的训练语料选自MLEE即Multi-LevelEventExtraction,MLEE语料从与癌症相关的生物文献中抽取细粒度事件,其中包含生物组织的命名实体标注和事件标注,该训练语料为每个文档提供三个文件,即原始文本文件、实体标注文件及事件标注文件,其中事件标注文件中分别标注出事件触发词以及由事件触发词和实体组成的事件,处理方法为:遍历标注的触发词,将每一个触发词所在的句子作为一个序列,序列中每个节点包含以下信息:单词、单词对应的实体类别、触发词类别,最后将这个触发词对应事件的元素类别作为待预测的标签,序列构造具体包括以下子步骤:(a)对当前待生成序列的触发词(简称:当前触发词)所在句子进行分词,获得的单词以及符号逐行保存,作为序列信息的第一列;(b)将当前触发词的触发词类型生成BIO标签作为序列信息的第二列,BIO标签给出三种类别的标签,即Begin,简称为B,In,简称为I,Out,简称为O,标签为B的单词为短语的起始,I为短语的中间,O为未标注的非触发词词汇,如果是一个词组成的触发词,则仅用B标签;对于不同事件类别的标签,BIO机制通过拼接类别的BIO标签进行标注,例如:对于Regulation事件的一个触发词playarole,play对应标签B-Regulation,a和role对应标签I-Regulation,而其他非当前触发词的单词的标签则为O;(c)将该句子中每个单词对应的实体类型和触发词类型生成BIO标签方式,分别作为序列信息的第三列和第四列,方法同步骤1子步骤(b),这里的触发词为句子中出现的所有触发词,包括但不限于当前触发词;(d)将该句子中,当前触发词所触发事件的事件元素,根据其类型生成BIO标签方式,方法同步骤1子步骤(b),作为该序列的第五列,也是该序列对应的真实标签,对于事件作为当前事件的事件元素的情况,使用事件的触发词来代表事件;步骤2、使用PubMed数据库语料进行词向量训练,使用生物医学医药方面的文献作为引入的外部资源,并用FastText工具来训练词向量;步骤3、构建序列的分布式表示方式,使用的模型基于循环神经网络,每一个词作为一个时间节点的输入,使用的分布式表示方式是基于每个单词的,主要包括两个部分:一个是单词的分布式表示,另一个是事件特征的分布式表示,具体包括以下子步骤:(a)单词的分布式由两部分拼接而成,分别是基于外部语料预训练的词向量和基于字符序列构造的词向量,基于外部语料预训练的词向量来自权利要求1步骤2,基于字符序列构造的词向量是利用单词的字符序列经过BiLSTM,将最后一个输入的隐层输出作为单词的分布式表示,首先将语料中出现的所有字符进行随机向量映射,然后将当前触发词的字符序列向量输入到BiLSTM中进行表示学习,再将前向和后向序列的最后一个单元的隐层输出拼接,作为这个单词基于字符序列构建的词向量,通过公式(1)进行描述,式中,Lchar_LSTM_for(wi)和Lchar_LSTM_rev(wi)分别表示单词wi的字符序列向量通过前向和后向LSTM层的隐层输出,表示矩阵拼接操作,表示单词wi基于字符序列构建的词向量;(b)事件特征的分布式表示是为了针对事件抽取任务,是对单词的分布式表示的一种额外信息补充,事件特征包括当前触发词类别、单词的实体类别、触发词类别,即步骤1子步骤(b)、(c)描述的第二、三、四列,通过将这些类别信息做随机初始化向量的映射,在模型训练的过程中更新这些参数,单词wi对应的事件特征分布式表示为通过公式(2)进行描述,式中,表示单词wi对应的当前触发词类别的向量、表示单词wi对应实体类别的向量、表示单词wi对应触发词类别的向量;(c)最后将以上的分布式表示拼接,获得单词wi的分布式表示通过公式(3)进行描述,式中,表示步骤2获取的FastText词向量;步骤4、构造基于BiLSTM-Attention的特征表示方式,将事件抽取任务抽象成一个序列标注问题,其目标是在已知触发词的前提下,找到其所在文本序列最优的事件元素类别BIO标签序列,具体包括以下子步骤:(a)将经过步骤3生成的分布式表示序列作为双向LSTM即BiLSTM层输入,按照正序和逆序两个顺序,再将每个单词的分布式表示输入到两个LSTM网络中,然后将两个网络的隐层输出拼接作为BiLSTM层本文档来自技高网
...

【技术保护点】
1.一种基于候选事件元素注意力机制的生物事件抽取方法,其特征在于包括以下步骤:步骤1、训练语料预处理,将生物事件抽取任务构造成序列标注任务形式:使用的训练语料选自MLEE即Multi‑Level Event Extraction,MLEE语料从与癌症相关的生物文献中抽取细粒度事件,其中包含生物组织的命名实体标注和事件标注,该训练语料为每个文档提供三个文件,即原始文本文件、实体标注文件及事件标注文件,其中事件标注文件中分别标注出事件触发词以及由事件触发词和实体组成的事件,处理方法为:遍历标注的触发词,将每一个触发词所在的句子作为一个序列,序列中每个节点包含以下信息:单词、单词对应的实体类别、触发词类别,最后将这个触发词对应事件的元素类别作为待预测的标签,序列构造具体包括以下子步骤:(a)对当前待生成序列的触发词(简称:当前触发词)所在句子进行分词,获得的单词以及符号逐行保存,作为序列信息的第一列;(b)将当前触发词的触发词类型生成BIO标签作为序列信息的第二列,BIO标签给出三种类别的标签,即Begin,简称为B,In,简称为I,Out,简称为O,标签为B的单词为短语的起始,I为短语的中间,O为未标注的非触发词词汇,如果是一个词组成的触发词,则仅用B标签;对于不同事件类别的标签,BIO机制通过拼接类别的BIO标签进行标注,例如:对于Regulation事件的一个触发词play a role,play对应标签B‑Regulation,a和role对应标签I‑Regulation,而其他非当前触发词的单词的标签则为O;(c)将该句子中每个单词对应的实体类型和触发词类型生成BIO标签方式,分别作为序列信息的第三列和第四列,方法同步骤1子步骤(b),这里的触发词为句子中出现的所有触发词,包括但不限于当前触发词;(d)将该句子中,当前触发词所触发事件的事件元素,根据其类型生成BIO标签方式,方法同步骤1子步骤(b),作为该序列的第五列,也是该序列对应的真实标签,对于事件作为当前事件的事件元素的情况,使用事件的触发词来代表事件;步骤2、使用PubMed数据库语料进行词向量训练,使用生物医学医药方面的文献作为引入的外部资源,并用FastText工具来训练词向量;步骤3、构建序列的分布式表示方式,使用的模型基于循环神经网络,每一个词作为一个时间节点的输入,使用的分布式表示方式是基于每个单词的,主要包括两个部分:一个是单词的分布式表示,另一个是事件特征的分布式表示,具体包括以下子步骤:(a)单词的分布式由两部分拼接而成,分别是基于外部语料预训练的词向量和基于字符序列构造的词向量,基于外部语料预训练的词向量来自权利要求1步骤2,基于字符序列构造的词向量是利用单词的字符序列经过BiLSTM,将最后一个输入的隐层输出作为单词的分布式表示,首先将语料中出现的所有字符进行随机向量映射,然后将当前触发词的字符序列向量输入到BiLSTM中进行表示学习,再将前向和后向序列的最后一个单元的隐层输出拼接,作为这个单词基于字符序列构建的词向量,通过公式(1)进行描述,...

【技术特征摘要】
1.一种基于候选事件元素注意力机制的生物事件抽取方法,其特征在于包括以下步骤:步骤1、训练语料预处理,将生物事件抽取任务构造成序列标注任务形式:使用的训练语料选自MLEE即Multi-LevelEventExtraction,MLEE语料从与癌症相关的生物文献中抽取细粒度事件,其中包含生物组织的命名实体标注和事件标注,该训练语料为每个文档提供三个文件,即原始文本文件、实体标注文件及事件标注文件,其中事件标注文件中分别标注出事件触发词以及由事件触发词和实体组成的事件,处理方法为:遍历标注的触发词,将每一个触发词所在的句子作为一个序列,序列中每个节点包含以下信息:单词、单词对应的实体类别、触发词类别,最后将这个触发词对应事件的元素类别作为待预测的标签,序列构造具体包括以下子步骤:(a)对当前待生成序列的触发词(简称:当前触发词)所在句子进行分词,获得的单词以及符号逐行保存,作为序列信息的第一列;(b)将当前触发词的触发词类型生成BIO标签作为序列信息的第二列,BIO标签给出三种类别的标签,即Begin,简称为B,In,简称为I,Out,简称为O,标签为B的单词为短语的起始,I为短语的中间,O为未标注的非触发词词汇,如果是一个词组成的触发词,则仅用B标签;对于不同事件类别的标签,BIO机制通过拼接类别的BIO标签进行标注,例如:对于Regulation事件的一个触发词playarole,play对应标签B-Regulation,a和role对应标签I-Regulation,而其他非当前触发词的单词的标签则为O;(c)将该句子中每个单词对应的实体类型和触发词类型生成BIO标签方式,分别作为序列信息的第三列和第四列,方法同步骤1子步骤(b),这里的触发词为句子中出现的所有触发词,包括但不限于当前触发词;(d)将该句子中,当前触发词所触发事件的事件元素,根据其类型生成BIO标签方式,方法同步骤1子步骤(b),作为该序列的第五列,也是该序列对应的真实标签,对于事件作为当前事件的事件元素的情况,使用事件的触发词来代表事件;步骤2、使用PubMed数据库语料进行词向量训练,使用生物医学医药方面的文献作为引入的外部资源,并用FastText工具来训练词向量;步骤3、构建序列的分布式表示方式,使用的模型基于循环神经网络,每一个词作为一个时间节点的输入,使用的分布式表示方式是基于每个单词的,主要包括两个部分:一个是单词的分布式表示,另一个是事件特征的分布式表示,具体包括以下子步骤:(a)单词的分布式由两部分拼接而成,分别是基于外部语料预训练的词向量和基于字符序列构造的词向量,基于外部语料预训练的词向量来自权利要求1步骤2,基于字符序列构造的词向量是利用单词的字符序列经过BiLSTM,将最后一个输入的隐层输出作为单词的分布式表示,首先将语料中出现的所有字符进行随机向量映射,然后将当前触发词的字符序列向量输入到BiLSTM中进行表示学习,再将前向和后向序列的最后一个单元的隐层输出拼接,作为这个单词基于字符序列构建的词向量,通过公式(1)进行描述,式中,Lchar_LSTM_for(wi)和Lchar_LSTM_rev(wi)分别表示单词wi的字符序列向量通过前向和后向LSTM层的隐层输出,表示矩阵拼接操作,表示单词wi基于字符序列构建的词向量;(b)事件特征的分布式表示是为了针对事件抽取任务,是对单词的分布式表示的一种额外信息补充,事件特征包括当前触发词类别、单词的实体类别、触发词类别,即步骤1子步骤(b)、(c)描述的第二、三、四列,通过将这些类别信息做随机初始化向量的映射,在模型训练的过程中更新这些参数,单词wi对应的事件特征分布式表示为通过公式(2)...

【专利技术属性】
技术研发人员:王健王安然林鸿飞
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1