当前位置: 首页 > 专利查询>武汉大学专利>正文

多任务交互增强的电子文本事件抽取方法技术

技术编号:26690298 阅读:11 留言:0更新日期:2020-12-12 02:40
本发明专利技术提供了一种多任务交互增强的电子文本事件抽取方法,该方法是一种从电子文本中进行事件抽取的方法,其联合了实体识别任务、触发词识别任务、论元角色预测三个任务,并额外引入辅助的事件句识别任务,使得抽取器的注意力更加集中在事件句上。该方法为实体识别任务与触发词识别任务采用了两套参数分别建模,并在子任务间增加信息交互,使得多个子任务可以协同训练实现优良性能。该联合事件抽取的方法采用神经网络的技术,形成了一个更加直接、完整、端到端的事件抽取模型,大幅度地提高了事件抽取任务的效果。

【技术实现步骤摘要】
多任务交互增强的电子文本事件抽取方法
本专利技术涉及事件抽取与多任务学习
,具体涉及一种多任务交互增强的电子文本事件抽取方法。
技术介绍
互联网的快速发展和广泛普及,使得大量信息以电子文本的形式呈现在人们眼前。对这些信息进行快速且准确的挖掘,从中提取出人们感兴趣的事件相关信息,并转换为半结构或者结构化的形式,即为事件抽取任务(eventextraction,EE)。事件抽取是自然语言处理领域中一项具有重要意义的任务,在信息检索、问答系统、摘要系统等领域都有广泛的应用。事件抽取任务可以划分为三个子任务,包括实体识别任务(entitymentionsdetection,EMD)、触发词识别(eventdetection,ED)任务与论元角色预测(argumentroleprediction,ARP)任务。初期的事件抽取任务通常采用基于特征工程技术的流水线模型。这种模型的复杂度较低,实现简单,但是存在显著缺陷。首先,特征工程技术需要由领域相关的专家人工设计关键的特征和规则,并且会依赖外部的自然语言处理工具;其次,流水线模型会存在级联误差,即上游子任务的错误会传递到下游子任务。随着深度学习及神经网络在学术界与工业界的大力应用,采用深度学习技术的联合事件抽取模型被广泛使用,一定程度上缓解了流水线模型的缺陷。联合事件抽取模型一方面可以实现“端到端”的系统架构,即一端输入原始数据,另一端输出分析结果,可以形成更加自动、完整的事件抽取系统。另一方面深度学习技术具有更加强大的特征表示与建模能力,多任务学习技术实现的联合抽取可以使得多个子任务之间进行有益的信息交流与相互辅助。本申请专利技术人在实施本专利技术的过程中,发现现有技术的方法,至少存在如下技术问题:在目前已有的联合事件抽取模型中,大部分只联合了触发词识别任务与论元角色预测任务,忽略了实体识别任务与其他两个子任务之间的联系。因此,多个子任务之间的信息交互不够充分,导致事件抽取效果不佳。
技术实现思路
本专利技术提出一种多任务交互增强的电子文本事件抽取方法,用于解决或者至少部分解决现有技术的方法存在的事件抽取效果不佳的技术问题。为了解决上述技术问题,本专利技术提供了多任务交互增强的电子文本事件抽取方法,包括:S1:对原始数据集中的新闻文本及标注信息,进行预处理获得符号化表示,并且按照需求比例划分训练集、验证集和测试集,其中,原始数据集具有预先定义好的事件抽取框架体系,预先定义好的事件抽取框架体系包括事件类型的种类、角色类型,原始数据集的标注信息至少包含对文本中句子出现的实体、触发词以及实体与触发词之间关系的标签;S2:将划分好的训练集和验证集批量随机地送入构建好的基于交互增强的多任务联合电子文本事件抽取网络中,开始迭代模型训练过程,得到训练集与验证集上的评价指标,当验证集上的指标不再上升或者迭代达到一定次数后停止,保存验证集上的最优模型,其中,基于交互增强的多任务联合电子文本事件抽取网络包括共享特征表示模块、私有序列信息特征表示模块、实体识别模块、触发词识别模块、论元角色预测模块、二分类事件句识别模块以及增强交互模块,共享特征表示模块用于将文本中的每个字转化为对应的向量表示,作为多个子任务的上游共享词向量,私有序列信息特征表示模块用于对每条句子的序列信息进行建模,实体识别模块用于识别出句子中的每一个实体包括它的实体边界与实体类型,触发词识别模块用于识别出句子中的每一个触发词以及其触发词代表的事件类型,论元角色预测模块用于对识别出的实体与触发词之间的关系进行预测,二分类事件句识别模块用于判断每个句子中是否包含事件,增强交互模块用于使得多个子任务之间进行交互;S3:将保存的最优模型作为基于交互增强的多任务联合电子文本事件抽取目标网络,将测试样本批量送入目标网络中,输出与保存抽取的结果。在一种实施方式中,S1中对原始数据集中的新闻文本及标注信息,进行预处理包括:对文本分句、分词,将标注偏移量与文本词对应等,最终处理成一系列有序、固定格式、句子级别的模型所需的输入形式。在一种实施方式中,S2中的共享特征表示模块利用经Word2Vec方法预训练的词向量模型,将每个词用一个连续的稠密向量来表示,并且使得词与词之间产生语义上的联系,并采用自然语言处理工具StanfordCoreNLP对文本进行处理,得到每个词词性并向量化。在一种实施方式中,S2中的私有序列信息特征表示模块采用两套双向门控单元分别对实体识别与触发词识别任务中的每条句子进行特则提取,并采用每个词的前后c个词的词向量拼接作为语境向量,最终,将双向门控单元学习到的特征表示与语境向量在列方向上进行拼接,其中,c为正整数。在一种实施方式中,S2中的实体识别模块采用BIO标注方式来联合解决实体边界与实体类型的识别问题,将私有序列信息特征的表示送入前馈神经网络中,前馈神经网络的输出通过softmax层后,获得每个词被分为某种标签类型的概率,选择概率最大的作为每个词的实体类型。在一种实施方式中,S2中的触发词识别模块将私有序列信息特征的表示通过前馈神经网络及softmax层,转换为每个词的触发词类型。在一种实施方式中,S2中的论元角色预测模块采用矩阵的形式,对每句话中的每两个词进行预测,得到它们之间潜在的配对关系。在一种实施方式中,S2中的二分类事件句识别模块采用attention注意力机制自动地学习到一个更加合理的句子向量表示,接着使用softmax层进行二分类,得到事件句分类的概率分布P1。在一种实施方式中,S2中的增强交互模块首先为实体识别任务与触发词识别任务之间加上交互,将实体识别的结果转换为one-hot向量拼接在触发词识别任务的输入上,并且给关系更加密切的二分类句子识别任务与触发词识别任务之间加上交互,对触发词识别任务中的序列表示也利用attention机制得到一个句子级别的向量表示,同样进行二分类,得到事件句分类的概率分布P2,对P1和P2两个概率分布计算交叉熵损失,通过最小化该损失,使得二者的分布在一定程度上趋向于一致,从而学习到句子级别信息,用以辅助词级别的分类任务。在一种实施方式中,S3具体包括:先加载步骤2中保存的最优模型,再将测试集中的样本批量输入到网络中,此时网络参数固定不变,经过网络计算后,得到每个词的实体类型、触发词类型以及每两个词之间的论元角色预测关系。与现有技术相比,本专利技术具有以下优点和积极效果:本专利技术提供的多任务交互增强的电子文本事件抽取方法,联合了实体识别任务、触发词识别任务、论元角色预测三个任务,并额外引入辅助的事件句识别任务,使得抽取器的注意力更加集中在事件句上,从而可以改善事件抽取的效果。进一步地,本专利技术引入了更容易学习的句子级信息,让句子级信息去辅助词级别的分类任务。进一步地,本专利技术考虑到了触发词识别任务与实体识别任务训练时的本质差异,采用了两套序列建模网络来进行表示学习。进一步地,本专利技术完善了子任务之间的信息交互,大幅提高了事件抽取任务本文档来自技高网
...

【技术保护点】
1.多任务交互增强的电子文本事件抽取方法,其特征在于,包括:/nS1:对原始数据集中的新闻文本及标注信息,进行预处理获得符号化表示,并且按照需求比例划分训练集、验证集和测试集,其中,原始数据集具有预先定义好的事件抽取框架体系,预先定义好的事件抽取框架体系包括事件类型的种类、角色类型,原始数据集的标注信息至少包含对文本中句子出现的实体、触发词以及实体与触发词之间关系的标签;/nS2:将划分好的训练集和验证集批量随机地送入构建好的基于交互增强的多任务联合电子文本事件抽取网络中,开始迭代模型训练过程,得到训练集与验证集上的评价指标,当验证集上的指标不再上升或者迭代达到一定次数后停止,保存验证集上的最优模型,其中,基于交互增强的多任务联合电子文本事件抽取网络包括共享特征表示模块、私有序列信息特征表示模块、实体识别模块、触发词识别模块、论元角色预测模块、二分类事件句识别模块以及增强交互模块,共享特征表示模块用于将文本中的每个字转化为对应的向量表示,作为多个子任务的上游共享词向量,私有序列信息特征表示模块用于对每条句子的序列信息进行建模,实体识别模块用于识别出句子中的每一个实体包括它的实体边界与实体类型,触发词识别模块用于识别出句子中的每一个触发词以及其触发词代表的事件类型,论元角色预测模块用于对识别出的实体与触发词之间的关系进行预测,二分类事件句识别模块用于判断每个句子中是否包含事件,增强交互模块用于使得多个子任务之间进行交互;/nS3:将保存的最优模型作为基于交互增强的多任务联合电子文本事件抽取目标网络,将测试样本批量送入目标网络中,输出与保存抽取的结果。/n...

【技术特征摘要】
1.多任务交互增强的电子文本事件抽取方法,其特征在于,包括:
S1:对原始数据集中的新闻文本及标注信息,进行预处理获得符号化表示,并且按照需求比例划分训练集、验证集和测试集,其中,原始数据集具有预先定义好的事件抽取框架体系,预先定义好的事件抽取框架体系包括事件类型的种类、角色类型,原始数据集的标注信息至少包含对文本中句子出现的实体、触发词以及实体与触发词之间关系的标签;
S2:将划分好的训练集和验证集批量随机地送入构建好的基于交互增强的多任务联合电子文本事件抽取网络中,开始迭代模型训练过程,得到训练集与验证集上的评价指标,当验证集上的指标不再上升或者迭代达到一定次数后停止,保存验证集上的最优模型,其中,基于交互增强的多任务联合电子文本事件抽取网络包括共享特征表示模块、私有序列信息特征表示模块、实体识别模块、触发词识别模块、论元角色预测模块、二分类事件句识别模块以及增强交互模块,共享特征表示模块用于将文本中的每个字转化为对应的向量表示,作为多个子任务的上游共享词向量,私有序列信息特征表示模块用于对每条句子的序列信息进行建模,实体识别模块用于识别出句子中的每一个实体包括它的实体边界与实体类型,触发词识别模块用于识别出句子中的每一个触发词以及其触发词代表的事件类型,论元角色预测模块用于对识别出的实体与触发词之间的关系进行预测,二分类事件句识别模块用于判断每个句子中是否包含事件,增强交互模块用于使得多个子任务之间进行交互;
S3:将保存的最优模型作为基于交互增强的多任务联合电子文本事件抽取目标网络,将测试样本批量送入目标网络中,输出与保存抽取的结果。


2.如权利要求1所述的多任务交互增强的电子文本事件抽取方法,其特征在于,S1中对原始数据集中的新闻文本及标注信息,进行预处理包括:
对文本分句、分词,将标注偏移量与文本词对应等,最终处理成一系列有序、固定格式、句子级别的模型所需的输入形式。


3.如权利要求1所述的多任务交互增强的电子文本事件抽取方法,其特征在于,S2中的共享特征表示模块利用经Word2Vec方法预训练的词向量模型,将每个词用一个连续的稠密向量来表示,并且使得词与词之间产生语义上的联系,并采用自然语言处理工具StanfordCoreNLP对文本进行处理,得到每个词词性并向量化。


4.如权利要求1所述的多任务交互增强的电子文本事件抽取方法,其特征在于,S2中的私有...

【专利技术属性】
技术研发人员:钱铁云唐小雅陈壮
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1