【技术实现步骤摘要】
文档级别的事件论元抽取方法
本专利技术属于人工智能
,具体涉及一种从文档即包含多个句子作为输入的文本中抽取事件论元的技术。
技术介绍
随着大数据时代的到来,越来越多的信息以非结构化文本的形式呈现在互联网中,如何从这些海量的文本中寻找有用信息,抽取出对应知识的需求变得越来越强烈。文档级别的事件论元抽取任务作为信息抽取领域的一项重要子任务,旨在从文档中识别出与特定事件相关的论元以及它们在事件中扮演的角色类别,从而形成结构化的事件知识。一个性能良好的事件论元抽取系统能够促进许多下游应用,如基于事件的知识图谱构建,风险预测分析以及决策支持系统构建。文档级别的事件论元抽取任务近年来得到了广泛的研究。传统的事件论元抽取研究主要采用基于特征工程的机器学习方法,这类方法以人为设计好的语言学文本特征作为前提,训练相应的机器学习模型;近些年来的研究尝试利用深度学习模型来学习不同的文本表示向量,以提升事件论元抽取的效果。然而,这些方法都只考虑了文本的语义特征而忽略了事件角色类别所包含的语义信息。在事件论元的抽取任务中,每个事件论元均有一个事件角色与之对应,这些事件角色描述了事件论元和它们所参与的事件之间的关系。除此之外,事件角色还描述了一类事件论元均具备的抽象属性等。这些关系以及抽象属性的描述均属于事件角色语义信息的一部分,对这些信息显式地利用将有助于提升文档级别的事件论元抽取效果。例如,袭击类事件共包含5种事件角色:袭击者个体、袭击者组织、袭击目标、受害者以及袭击工具,其中,根据事件角色语义信息,袭 ...
【技术保护点】
1.一种文档级别的事件论元抽取方法,其特征在于:包括以下步骤:/n步骤1、从训练集的文档标注数据中,构造论元与事件角色的匹配/非匹配对,进而微调预先训练好的文本表示模型;/n步骤2、将训练集的标注数据格式转换为符号和BIO标签对,利用第1步微调好的模型生成文本符号的初始嵌入向量表示,通过构造两个不同输入序列长度的BiLSTM网络为符号序列生成句子级别和文档级别的文本上下文特征表示;/n步骤3、基于第2步生成的上下文特征表示,通过事件角色语义注意力模块生成与不同粒度上下文特征表示相对应的事件角色语义特征向量,融合这些特征向量生成每个符号的特征向量表示;/n步骤4、基于融合后的每个符号的特征向量数据作为输入,采用CRF模块输出每个符号的BIO标签预测结果,通过BIO标签预测结果与步骤2中训练集中对应的真实BIO标签之间的误差设置目标损失函数,训练更新步骤2至4的整个抽取模型的参数;/n步骤5、针对未知的待抽取文档,利用训练好的抽取模型抽取出其中的事件论元。/n
【技术特征摘要】
1.一种文档级别的事件论元抽取方法,其特征在于:包括以下步骤:
步骤1、从训练集的文档标注数据中,构造论元与事件角色的匹配/非匹配对,进而微调预先训练好的文本表示模型;
步骤2、将训练集的标注数据格式转换为符号和BIO标签对,利用第1步微调好的模型生成文本符号的初始嵌入向量表示,通过构造两个不同输入序列长度的BiLSTM网络为符号序列生成句子级别和文档级别的文本上下文特征表示;
步骤3、基于第2步生成的上下文特征表示,通过事件角色语义注意力模块生成与不同粒度上下文特征表示相对应的事件角色语义特征向量,融合这些特征向量生成每个符号的特征向量表示;
步骤4、基于融合后的每个符号的特征向量数据作为输入,采用CRF模块输出每个符号的BIO标签预测结果,通过BIO标签预测结果与步骤2中训练集中对应的真实BIO标签之间的误差设置目标损失函数,训练更新步骤2至4的整个抽取模型的参数;
步骤5、针对未知的待抽取文档,利用训练好的抽取模型抽取出其中的事件论元。
2.根据权利要求1所述的文档级别的事件论元抽取方法,其特征在于:步骤1中,预先训练好的文本表示模型采用BERT文本表示模型。
3.根据权利要求1所述的文档级别的事件论元抽取方法,其特征在于:步骤1中,微调预训练好的文本表示模型的具体方法是:
从原始数据中选择事件论元的符号序列,以及标注的事件角色,构建匹配对xa-rt,并通过非事件论元的符号序列构建非匹配对xna-rt;
对预先训练好的文本表示模型,通过基于符号序列分类的TC策略来进行微调:
对于匹配和非匹配对,在符号序列xa和xna的头部添加分类符号[CLS],以及在尾部添加分割符号[SEP],以这些扩充得到的符号序列作为预先训练好的文本表示模型的输入,然后根据模型最后一层中对[CLS]符号的表示进行输出,得到文本符号序列相对应的事件角色类别。
4.根据权利要求1所述的文档级别的事件论元抽取方法,其特征在于:步骤1中,微调预训练好的文本表示模型的具体方法是:
从原始数据中选择事件论元的符号序列,以及标注的事件角色,构建匹配对xa-rt,并通过非事件论元的符号序列构建非匹配对xna-rt;
对预先训练好的文本表示模型,通过基于符号序列和角色标签关系预测的TLP策略来进行微调:
对于匹配和非匹配对,在符号序列的头部添加分类符号[CLS],在符号序列和事件角色的描述性文本之间添加分割符号[SEP],以及在事件角色的描述性文本尾部添加分割符号[SEP],以这些扩充得到的序列作为预先训练好的文本表示模型的输入,然后根据模型最后一层中对[CLS]符号的表示进行输出,得到文本符号序列与事件角色描述性文本之间的相关关系。
5.根据权利要求1所述的文档级别的事件论元抽取方法,其特征在于:步骤2生成文...
【专利技术属性】
技术研发人员:温延龙,王嘉贤,张莹,蔡祥睿,袁晓洁,
申请(专利权)人:南开大学,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。