一种图卷积注意力机制下的条件概率联合事件抽取方法技术

技术编号:28375339 阅读:22 留言:0更新日期:2021-05-08 00:02
本发明专利技术属于生物医学事件的抽取方法技术领域,一种图卷积注意力机制下的条件概率联合事件抽取方法,包括以下步骤:(1)对生物医学事件语料进行结构重构,(2)文本的动态语义空间构建与句法树表示构建,(3)序列分布式表示的构建,(4)基于双向LSTM的上下文特征抽取,(5)采用GCN‑Attention方法对图的关键信息进行抽取,(6)基于条件概率信息的联合事件抽取。本发明专利技术采用基于条件概率的联合学习的方法,运用同一模型结构同时实现生物触发词识别与生物事件抽取工作,削弱了传统抽取方法带来的级联误差传播,使生物医学事件抽取的F1性能达到最好结果。

【技术实现步骤摘要】
一种图卷积注意力机制下的条件概率联合事件抽取方法
本专利技术涉及一种图卷积注意力机制下的条件概率联合事件抽取方法,属于生物医学事件的抽取方法

技术介绍
在生物信息领域上,事件抽取定义为多元关系抽取,其目的是关注一个或多个生物医学分子的具体表现行为及活动状态的改变,而这些改变对于理解生物学的过程和功能,生理和发病机制,以及药物研制和疾病预防具有重要的意义。生物医学抽取的目标是从非结构化的生物医学文本中提取并归纳出结构化的信息表示。通过识别文本段落中事件类型,然后确定该事件相应的参与元素。由于事件抽取涉及到对动词,名词的识别,所以事件抽取一般是通过以下三个步骤完成:首先,针对给定的段落文本,进行命名实体识别,初步构建参与元素集合;然后,确定该段文本中的具体事件类型,并识别代表该事件类型的触发词;最后,构建<触发词,参与元素>候选对,确定对应事件的真正参与元素。对于大部分已经公开的生物医学事件数据集,生物医学实体,生物医学事件触发词以及详细的事件参与角色信息都已经标注出来。大部分研究者,为了在一个统一的标准下实现生物医学事件抽取系统,都会在忽略命名实体识别步骤,在标准的实体标注下,以管道的方式,顺序实现步骤二与步骤三(即触发词识别与事件元素检测)。当上述过程完成后,再通过一些规则方法,对上述结果进行后处理,从而抽取到真正的生物医学事件。然而,上述基于管道的抽取方法会存在着以下两个缺点:(1)两个子任务独立完成,如果每个子任务都具有一定的误差,则该误差会被向后传递,导致抽取结果误差较大;(2)两个子任务之间缺少有效信息的传递,触发词识别后的潜在信息不能有效地传输给元素检测任务,从而影响整体事件抽取性能的提升。另外,对于正负例不平衡的生物事件数据集,传统方法都是以交叉熵或者最大似然作为损失函数,导致抽取结果的准确率和召回率差异极大,从而降低了F1值。
技术实现思路
为了克服现有技术中存在的不足,本专利技术目的是提供一种图卷积注意力机制下的条件概率联合事件抽取方法。该方法使用统一的抽取框架,获取文本中丰富的语义信息,上下文信息,以及句法依赖信息,识别句子中的事件触发词。与此同时,再将上述信息融合触发词识别后的概率分布信息,直接抽取该事件触发词对应的参与元素,并自动构成事件三元组,实现最终的事件抽取任务。为了实现上述专利技术目的,解决现有技术存在的问题,本专利技术采取的技术方案是:一种图卷积注意力机制下的条件概率联合事件抽取方法,包括以下步骤:步骤1、对生物医学事件语料进行结构重构:使用的训练语料是来自Multi-LevelEventExtraction(MLEE)公开的事件抽取数据集,该数据集是于2012年在期刊Bioinformatics上提出的,扩大了生物医学事件抽取在领域信息抽取方面的覆盖范围,以涵盖从分子到整个生物体的所有层次的生物组织,抽取细粒度事件;MLEE官方语料中包含三类文档:即原始摘要文本文件,实体标注文件,以及事件标注文件,其中事件标注文件中详细地标出了事件触发词信息和每个生物事件相关的参与元素信息,针对原始MLEE官方语料,重新调整标注信息,具体包括以下子步骤:(a)使用斯坦福自然语言处理工具对MLEE官方语料中的原始摘要文本进行分句、分词并保留标点符号,以句子为单位,将每个句子处理后的结果保存到一个单词列表(wordList)中,即[“word1”,“word2”,…,“wordn”];(b)对获取子步骤(a)中的一个单词列表wordList中的每一个单词进行词性标注,并将标注后的结果以词性标签列表(POSList)的形式记录下来,即[“POS1”,“POS2”,…,“POSn”],其中POSi为对应wordi的词性标签;对于wordList:[“Imaging”,“tumor”,“angiogenesis”,“.”],经过词性标注后,可以得到该wordList中每一个单词的对应词性标签,即POSList:[“NOUN”,“NOUN”,“NOUN”,“PUNCT”];(c)对子步骤(a)中的一个单词列表wordList,使用斯坦福句法解析器进行相应的句法结构识别,并将解析后的结果以句法列表(parseList)的形式进行保存,即[‘parseType1/dep=0/gov=i′,...,′parseTypen/dep=n-1/gov=j’],其中parseTypek为wordk与wordi间的句法关系类型,dep=k为wordk的index,gov=i为wordk的父亲节点wordi的index,对于wordList:[“Imaging”,“tumor”,“angiogenesis”,“.”],经过斯坦福句法解析后,得到其句法结构,并将其转变成parseList形式:[“compound/dep=0/gov=1”,“compound/dep=1/gov=2”,“root/dep=2/gov=-1”,“punct/dep=3/gov=2”];(d)对子步骤(a)中的一个单词列表wordList,根据MLEE官方语料中的实体标注文件,进行生物实体标签重构,对于每一个生物实体,按照字典的形式进行记录,对于实体rat,其实体类型为Organism,该实体在句子中的位置为<9,10>,则将该实体记录为如下形式:{“text”:“rat”,“start”:9,“end”:10,“entity_type”:“Organism”},最后,将句子中的所有生物实体记录到实体列表(entityList)中,即[“entity1”,“entity2”,…,“entitym”];(e)对子步骤(a)中的一个单词列表wordList,根据MLEE官方语料中的事件标注文件,进行生物事件标签重构,对于每一个生物事件,以生物事件触发词,生物事件参与元素,以及生物事件角色三部分记录,结构如下:{“trigger”:{字典形式},“arguments”:[List形式],“event_type”:“字符串”},对于Death生物事件,其生物事件触发词为"survival",该词在句中的位置是<6,7>;其生物事件参与元素为"cornealallograft",扮演的生物事件角色为“Theme”,该短语在句中的位置是<4,6>,该生物事件记录为:最后,将句子中的所有生物事件,按照事件列表(eventList)的形式记录下来,即[“event1”,“event2”,…,“eventh”];步骤2、文本的动态语义空间构建与句法树表示构建,具体包括以下子步骤:(a)动态语义空间的构建,使用谷歌提出的BERT预训练模型,先在PubMed数据库语料进行微调,然后再应用到MLEE官方语料中,获取动态词向量表示;(b)句法树表示的构建,主要是基于步骤1子步骤(c)抽取的句法解析parseList,按照图邻接矩阵构建树状图结构,由于解析出的句法结构中的单词之间的依赖关系都是单向的,为了增加信息流动的有效性,故为每本文档来自技高网
...

【技术保护点】
1.一种图卷积注意力机制下的条件概率联合事件抽取方法,其特征在于包括以下步骤:/n步骤1、对生物医学事件语料进行结构重构:使用的训练语料是来自Multi-LevelEvent Extraction(MLEE)公开的事件抽取数据集,该数据集是于2012年在期刊Bioinformatics上提出的,扩大了生物医学事件抽取在领域信息抽取方面的覆盖范围,以涵盖从分子到整个生物体的所有层次的生物组织,抽取细粒度事件;MLEE官方语料中包含三类文档:即原始摘要文本文件,实体标注文件,以及事件标注文件,其中事件标注文件中详细地标出了事件触发词信息和每个生物事件相关的参与元素信息,针对原始MLEE官方语料,重新调整标注信息,具体包括以下子步骤:/n(a)使用斯坦福自然语言处理工具对MLEE官方语料中的原始摘要文本进行分句、分词并保留标点符号,以句子为单位,将每个句子处理后的结果保存到一个单词列表(wordList)中,即[“word

【技术特征摘要】
1.一种图卷积注意力机制下的条件概率联合事件抽取方法,其特征在于包括以下步骤:
步骤1、对生物医学事件语料进行结构重构:使用的训练语料是来自Multi-LevelEventExtraction(MLEE)公开的事件抽取数据集,该数据集是于2012年在期刊Bioinformatics上提出的,扩大了生物医学事件抽取在领域信息抽取方面的覆盖范围,以涵盖从分子到整个生物体的所有层次的生物组织,抽取细粒度事件;MLEE官方语料中包含三类文档:即原始摘要文本文件,实体标注文件,以及事件标注文件,其中事件标注文件中详细地标出了事件触发词信息和每个生物事件相关的参与元素信息,针对原始MLEE官方语料,重新调整标注信息,具体包括以下子步骤:
(a)使用斯坦福自然语言处理工具对MLEE官方语料中的原始摘要文本进行分句、分词并保留标点符号,以句子为单位,将每个句子处理后的结果保存到一个单词列表(wordList)中,即[“word1”,“word2”,...,“wordn”];
(b)对获取子步骤(a)中的一个单词列表wordList中的每一个单词进行词性标注,并将标注后的结果以词性标签列表(POSList)的形式记录下来,即[“POS1”,“POS2”,...,“POSn”],其中POSi为对应wordi的词性标签;对于wordList:[“Imaging”,“tumor”,“angiogenesis”,“.”],经过词性标注后,可以得到该wordList中每一个单词的对应词性标签,即POSList:[“NOUN”,“NOUN”,“NOUN”,“PUNCT”];
(c)对子步骤(a)中的一个单词列表wordList,使用斯坦福句法解析器进行相应的句法结构识别,并将解析后的结果以句法列表(parseList)的形式进行保存,即[‘parseType1/dep=0/gov=i’,...,’parseTypen/dep=n-1/gov=j’],其中parseTypek为wordk与wordi间的句法关系类型,dep=k为wordk的index,gov=i为wordk的父亲节点wordi的index,对于wordList:[“Imaging”,“tumor”,“angiogenesis”,“.”],经过斯坦福句法解析后,得到其句法结构,并将其转变成parseList形式:[“compound/dep=0/gov=1”,“compound/dep=1/gov=2”,“root/dep=2/gov=-1”,“punct/dep=3/gov=2”];
(d)对子步骤(a)中的一个单词列表wordList,根据MLEE官方语料中的实体标注文件,进行生物实体标签重构,对于每一个生物实体,按照字典的形式进行记录,对于实体rat,其实体类型为Organism,该实体在句子中的位置为<9,10>,则将该实体记录为如下形式:{“text”:“rat”,“start”:9,“end”:10,“entity_type”:“Organism”},最后,将句子中的所有生物实体记录到实体列表(entityList)中,即[“entity1”,“entity2”,…,“entitym”];
(e)对子步骤(a)中的一个单词列表wordList,根据MLEE官方语料中的事件标注文件,进行生物事件标签重构,对于每一个生物事件,以生物事件触发词,生物事件参与元素,以及生物事件角色三部分记录,结构如下:{“trigger”:{字典形式},“arguments”:[List形式],“event_type”:“字符串”},对于Death生物事件,其生物事件触发词为"survival",该词在句中的位置是<6,7>;其生物事件参与元素为"cornealallograft",扮演的生物事件角色为“Theme”,该短语在句中的位置是<4,6>,该生物事件记录为:



最后,将句子中的所有生物事件,按照事件列表(eventList)的形式记录下来,即[“event1”,“event2”,…,“eventh”];
步骤2、文本的动态语义空间构建与句法树表示构建,具体包括以下子步骤:
(a)动态语义空间的构建,使用谷歌提出的BERT预训练模型,先在PubMed数据库语料进行微调,然后再应用到MLEE官方语料中,获取动态词向量表示;
(b)句法树表示的构建,主要是基于步骤1子步骤(c)抽取的句法解析parseList,按照图邻接矩阵构建树状图结构,由于解析出的句法结构中的单词之间的依赖关系都是单向的,为了增加信息流动的有效性,故为每一条单向边增加一个逆向边,并且为每一个单词增加一个自循环边,由于斯坦福句法解析中的标准的依赖关系多达50种,再加上补充的逆向边与自循环边,会使得该句法树表示过于复杂,为了解决该问题,使用公式(1)简化句法树中单词节点的依赖关系,



式中,Re是对句子中单词间依赖关系的重新定义:正向关系用direct表示,逆向关系用reverse表示,以及自循环关系用loop表示,vi和vj分别为单词i和单词j的节点表示形式,(vi,vj)为单词i到单词j的边类型,ε为斯坦福解析中的标准依赖关系集合;
步骤3、序列分布式表示的构建,由于这步骤的结果要输入到基于序列表示的模型当中,即输入的每一个单词为序列的每一个时间点,所以构建的序列分布式表示是基于每个单词的,该序列分布式表示,包含三个部分:
(a)单词嵌入表示,是由步骤2子步骤(a)所得到的BERT动态词向量表示,记为其中wordi为第i个单词;
(b)词性标签嵌入表示,将步骤1子步骤(b)所得到的POSList通过查询一个随机初始化的词性标签嵌入向量表来生成第i个单词wordi的词性标签向量,记为
(c)实体标签嵌入表示,根据步骤1子步骤(d)的结果,使用BIO标签机制对句子中提到的实体进行标注,其中B表示begin,为一个实体的首个单词,I表示in,为一个实体的内部单词,O表示out,表示非实体,最后通过查找随机初始化的实体标签嵌入表将实体类型标签转换为真实的向量,记为
(d)拼接所有嵌入表示,将步骤3中的(a),(b)和(c)的嵌入表示...

【专利技术属性】
技术研发人员:王健王琰林鸿飞张益嘉
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1