当前位置: 首页 > 专利查询>南开大学专利>正文

文档级别的事件论元抽取方法技术

技术编号:27743547 阅读:26 留言:0更新日期:2021-03-19 13:37
本发明专利技术提出了一种文档级别的事件论元抽取方法,本发明专利技术公开的方法是以非结构化的文档文本作为输入数据,构建基于深度学习的文档级别事件论元抽取模型,包含两个阶段,一个预训练阶段用于微调训练好的文本表示模型,一个抽取模型的训练和预测阶段用于学习各类事件角色的特征和生成预测结果,在两个阶段中均利用了事件角色的语义信息作为文本特征的扩充,以生成更加准确的事件论元抽取结果。对于普遍使用的文档级别事件论元抽取数据集,本发明专利技术的方法效果显著优于目前现有的文档级别事件论元抽取方法,证明事件角色的语义信息有助于从文档中进行事件论元的抽取。

【技术实现步骤摘要】
文档级别的事件论元抽取方法
本专利技术属于人工智能
,具体涉及一种从文档即包含多个句子作为输入的文本中抽取事件论元的技术。
技术介绍
随着大数据时代的到来,越来越多的信息以非结构化文本的形式呈现在互联网中,如何从这些海量的文本中寻找有用信息,抽取出对应知识的需求变得越来越强烈。文档级别的事件论元抽取任务作为信息抽取领域的一项重要子任务,旨在从文档中识别出与特定事件相关的论元以及它们在事件中扮演的角色类别,从而形成结构化的事件知识。一个性能良好的事件论元抽取系统能够促进许多下游应用,如基于事件的知识图谱构建,风险预测分析以及决策支持系统构建。文档级别的事件论元抽取任务近年来得到了广泛的研究。传统的事件论元抽取研究主要采用基于特征工程的机器学习方法,这类方法以人为设计好的语言学文本特征作为前提,训练相应的机器学习模型;近些年来的研究尝试利用深度学习模型来学习不同的文本表示向量,以提升事件论元抽取的效果。然而,这些方法都只考虑了文本的语义特征而忽略了事件角色类别所包含的语义信息。在事件论元的抽取任务中,每个事件论元均有一个事件角色与之对应,这些事件角色描述了事件论元和它们所参与的事件之间的关系。除此之外,事件角色还描述了一类事件论元均具备的抽象属性等。这些关系以及抽象属性的描述均属于事件角色语义信息的一部分,对这些信息显式地利用将有助于提升文档级别的事件论元抽取效果。例如,袭击类事件共包含5种事件角色:袭击者个体、袭击者组织、袭击目标、受害者以及袭击工具,其中,根据事件角色语义信息,袭击者个体和受害者表示这两个类别的事件论元应该指代一个人而非一个物体。借助这些事件角色语义信息,在进行文档级别的事件论元抽取时,对指代人的单词,将更容易地将这些单词与袭击者个体和受害者这两类事件角色相关联,然后根据文本的上下文语义,能更加准确地识别出这些单词对应的事件角色。综上所述,结合事件角色语义信息进行文档级别的事件论元抽取是一个创新的研究思路,具有重要的研究意义和应用价值。
技术实现思路
本专利技术的目的是解决现有的文档级别的事件论元抽取方法对事件角色语义信息考虑不足的问题,提出一种结合事件角色语义信息的文档级别的事件论元抽取方法。该方法以序列标注模型为基本框架,在两个阶段的训练任务中结合事件角色语义信息,使文档级别的事件论元抽取更加准确和完整。本专利技术的技术方案文档级别的事件论元抽取方法,该方法构建一个融合事件角色语义的序列标注模型,在不同粒度的文本语义信息基础上结合事件角色的语义信息,最终提升文档级别的事件论元抽取效果。本专利技术提出的方法的具体步骤如下:步骤1、文本表示模型微调;该阶段的目标是将文本的语义空间和事件角色所描述的语义空间进行关联。因为预训练好的文本表示模型没有将事件角色的语义特征考虑在内,而论元的文本语义不一定包含对事件角色的描述信息,所以需要将文本和事件角色在语义空间上进行关联,以丰富文本的表示。步骤1.1、生成论元与事件角色匹配/非匹配对;给定一个文档d通常由多个句子组成,即d={s1,s2,...,sn},其中,n是句子的数量。每一个句子又可以被表示一个符号序列,如第i个句子可以表示为其中,x表示文本经分词器分词处理后得到的不同符号,li表示第i个句子中符号的数量。对于每一个事件论元,记其在文档中对应的符号序列为xa,其分配的事件角色为rt,其中t表示该事件角色为m个事件角色中的第t个。通过组合xa和rt生成论元与事件角色的匹配对。对于每一个生成的匹配对,从文档中随机选择一个和xa具有相同长度的符号序列xna,要求该符号序列不对应任何事件论元。通过组合xna和rt生成论元与事件角色的非匹配对。为保证数据的平衡性,匹配对和非匹配对的数量保持一致。步骤1.2、利用论元与事件角色对微调文本表示模型;本专利技术中利用上下文表示模型BERT生成符号的原始嵌入向量表示,文本表示模型微调的目标是利用事件角色语义信息微调原始训练好的BERT模型。根据匹配/非匹配对的使用方式,本专利技术中设计了两种不同的微调策略。一种是基于符号序列分类的微调策略TC,另一种是基于符号序列和角色标签关系预测的微调策略TLP。TC微调策略中将事件角色视作简单的标记,通过对符号序列的分类来微调训练好的BERT模型。对于匹配和非匹配对,此微调策略在符号序列xa和xna的头部添加分类符号[CLS],以及在尾部添加分割符号[SEP]。此微调策略中以这些扩充得到的符号序列作为BERT的输入,然后根据BERT模型最后一层中对[CLS]符号的表示进行输出。对于匹配对,其输出应为匹配对中事件角色所对应的标记下标,如下标0表示袭击类事件中的袭击者个体这一事件角色;对于任意非匹配对,其输出应为非事件角色这一固定标记的下标。至此,TC微调策略的优化目标为:对符号序列分类其正确的事件角色标记下标。TLP微调策略中将匹配对/非匹配对中的事件角色替换为描述性文本,这些描述性文本是对不同事件角色的简要描述,例如,袭击者个体这一事件角色的描述性文本为“发动袭击的个人”。记事件角色rt的描述性文本为rdt。对于匹配和非匹配对,此微调策略在符号序列的头部添加分类符号[CLS],在符号序列和事件角色的描述性文本之间添加分割符号[SEP],以及在事件角色的描述性文本尾部添加分割符号[SEP]。TLP微调策略中以这些扩充得到的序列作为BERT的输入,然后根据BERT模型最后一层中对[CLS]符号的表示进行输出。对于匹配对,其输出应为0,表示输入的符号序列和事件角色描述性文本是相关的;对于非匹配对,其输出应为1,表示输入的符号序列与事件角色描述性文本无关。至此,TLP微调策略的优化目标为:对符号序列和事件角色描述性文本预测其正确的关系。步骤2、生成文本的上下文特征表示;步骤1将文本的语义空间和事件角色所描述的语义空间进行关联,接下来利用这种关联来引导文档级别的事件论元抽取。整体抽取模型以序列标注模型为基础,首先生成包含上下文语义的文本特征表示。因为以序列标注模型为基础,所以原始的标注数据被转变为符号和BIO标签对的格式,这些符号和BIO标签分别作为抽取模型的输入和输出。为捕获文本序列的双向特征,本专利技术采用BiLSTM网络模型生成文本的上下文表示。经过步骤1微调过的BERT模型后,输入抽取模型的第i个句子被表示为一个向量序列的集合,记为其中,表示不同符号的嵌入向量。这些向量序列作为BiLSTM模型的输入。BiLSTM模型包括正向LSTM和反向LSTM两个模型,这两个LSTM模型的计算遵循相同的公式和过程,区别在于输入序列的顺序不同。因为在句子层面和文档层面分别表达了不同的上下文语义信息,所以对输入抽取模型的文档文本,分别建立句子层面和文档层面的文本上下文表征模型。这些上下文表征模型结构相同,均为BiLSTM,区别在于输入的文本长度不同,前者以单一句子作为输入,后者以多个句子作为输入。步骤2.1、生成句子级别的文本上下文特征表示;考虑句子层面的上下文语本文档来自技高网
...

【技术保护点】
1.一种文档级别的事件论元抽取方法,其特征在于:包括以下步骤:/n步骤1、从训练集的文档标注数据中,构造论元与事件角色的匹配/非匹配对,进而微调预先训练好的文本表示模型;/n步骤2、将训练集的标注数据格式转换为符号和BIO标签对,利用第1步微调好的模型生成文本符号的初始嵌入向量表示,通过构造两个不同输入序列长度的BiLSTM网络为符号序列生成句子级别和文档级别的文本上下文特征表示;/n步骤3、基于第2步生成的上下文特征表示,通过事件角色语义注意力模块生成与不同粒度上下文特征表示相对应的事件角色语义特征向量,融合这些特征向量生成每个符号的特征向量表示;/n步骤4、基于融合后的每个符号的特征向量数据作为输入,采用CRF模块输出每个符号的BIO标签预测结果,通过BIO标签预测结果与步骤2中训练集中对应的真实BIO标签之间的误差设置目标损失函数,训练更新步骤2至4的整个抽取模型的参数;/n步骤5、针对未知的待抽取文档,利用训练好的抽取模型抽取出其中的事件论元。/n

【技术特征摘要】
1.一种文档级别的事件论元抽取方法,其特征在于:包括以下步骤:
步骤1、从训练集的文档标注数据中,构造论元与事件角色的匹配/非匹配对,进而微调预先训练好的文本表示模型;
步骤2、将训练集的标注数据格式转换为符号和BIO标签对,利用第1步微调好的模型生成文本符号的初始嵌入向量表示,通过构造两个不同输入序列长度的BiLSTM网络为符号序列生成句子级别和文档级别的文本上下文特征表示;
步骤3、基于第2步生成的上下文特征表示,通过事件角色语义注意力模块生成与不同粒度上下文特征表示相对应的事件角色语义特征向量,融合这些特征向量生成每个符号的特征向量表示;
步骤4、基于融合后的每个符号的特征向量数据作为输入,采用CRF模块输出每个符号的BIO标签预测结果,通过BIO标签预测结果与步骤2中训练集中对应的真实BIO标签之间的误差设置目标损失函数,训练更新步骤2至4的整个抽取模型的参数;
步骤5、针对未知的待抽取文档,利用训练好的抽取模型抽取出其中的事件论元。


2.根据权利要求1所述的文档级别的事件论元抽取方法,其特征在于:步骤1中,预先训练好的文本表示模型采用BERT文本表示模型。


3.根据权利要求1所述的文档级别的事件论元抽取方法,其特征在于:步骤1中,微调预训练好的文本表示模型的具体方法是:
从原始数据中选择事件论元的符号序列,以及标注的事件角色,构建匹配对xa-rt,并通过非事件论元的符号序列构建非匹配对xna-rt;
对预先训练好的文本表示模型,通过基于符号序列分类的TC策略来进行微调:
对于匹配和非匹配对,在符号序列xa和xna的头部添加分类符号[CLS],以及在尾部添加分割符号[SEP],以这些扩充得到的符号序列作为预先训练好的文本表示模型的输入,然后根据模型最后一层中对[CLS]符号的表示进行输出,得到文本符号序列相对应的事件角色类别。


4.根据权利要求1所述的文档级别的事件论元抽取方法,其特征在于:步骤1中,微调预训练好的文本表示模型的具体方法是:
从原始数据中选择事件论元的符号序列,以及标注的事件角色,构建匹配对xa-rt,并通过非事件论元的符号序列构建非匹配对xna-rt;
对预先训练好的文本表示模型,通过基于符号序列和角色标签关系预测的TLP策略来进行微调:
对于匹配和非匹配对,在符号序列的头部添加分类符号[CLS],在符号序列和事件角色的描述性文本之间添加分割符号[SEP],以及在事件角色的描述性文本尾部添加分割符号[SEP],以这些扩充得到的序列作为预先训练好的文本表示模型的输入,然后根据模型最后一层中对[CLS]符号的表示进行输出,得到文本符号序列与事件角色描述性文本之间的相关关系。


5.根据权利要求1所述的文档级别的事件论元抽取方法,其特征在于:步骤2生成文...

【专利技术属性】
技术研发人员:温延龙王嘉贤张莹蔡祥睿袁晓洁
申请(专利权)人:南开大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1