System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 长短期记忆辅助的文档级事件论元提取方法以及迭代框架技术_技高网
当前位置: 首页 > 专利查询>复旦大学专利>正文

长短期记忆辅助的文档级事件论元提取方法以及迭代框架技术

技术编号:40187969 阅读:8 留言:0更新日期:2024-01-26 23:51
长短期记忆辅助的文档级事件论元提取方法以及迭代框架。本发明专利技术的目的是为文档事件信息抽取提供一种基于提示(prompt)的、长短期记忆的句子迭代抽取框架,所述方法包括:通过将文档输入拆分成句子输入进行抽取,以突破transformer的输出长度限制;包含事件信息以及事件论元交互的提示作为论元抽取器,用于句子论元抽取。为进一步利用文档全局信息和句子抽取结果,记忆存储器用于存储已抽取的句子作为文档长记忆信息,在下一次迭代中同句子一同输入从而让句子也能获得句子外的文档信息;包含论元本体信息和文档局部信息的句子抽取结果,作为短记忆信息,用于提示的更新以辅助模型对句子迭代抽取。

【技术实现步骤摘要】

本专利技术涉及计算机领域,尤其涉及一种基于提示学习的、长短期记忆辅助的文档级事件论元提取方法以及迭代框架


技术介绍

1、文档级事件参数提取(deae)是信息提取的一个极具挑战性的子任务;各领域的事件抽取可以帮助相关人员从海量信息中快速提取相关内容,提高工作时效,为量化分析提供技术支持。例如:结构化的事件可以直接用于拓展知识库,进一步可进行逻辑推理;在公共管理方面,事件提取和监测有助于当局及时了解社会热点事件的爆发和演变,做出相应反应;在生物医学领域,事件提取可用于识别文献中以自然语言描述的生物分子状态的改变或是分子之间相互作用,可用于理解生理和发病机制,从而进行药物研制;在工业管理方面,也可以在工作日志中提取出需要注意的事件,从而进行工业管理和控制。而当我们想要捕获完整的事件信息时,deae是非常需要的。当前大多数方法都是基于实体的分类框架或生成框架,同时也取得了不错的性能。

2、然而,基于实体的分类框架从句子中获取实体并对实体进行分类以组成deae的结果,这样的方法在处理复杂的事件结构时面临重大挑战,因为许多角色不是实体类型。在涉及长文本和许多事件论元类别的情况下,基于生成的方法表现不佳。


技术实现思路

1、本说明书实施方式的目的是提供一种长短期记忆辅助的文档事件论元信息抽取的迭代框架。本说明书实施方式提供的长短期记忆辅助的迭代抽取方法,可以突破模型输入长度的限制,同时也能关注到文档的全局和局部特征。进一步,本说明书实施方式通过将文档拆分成句子的方式,以使得模型能够迭代输入无限长的文档;同时构建长短期记忆存储模块使模型关注文档全局-局部特征。

2、为实现上述目的,本说明书实施方式提供了一种编码器-解码器的抽取模型,应用于对文档的句子按照文中顺序进行迭代抽取,所述方法包括:将文档拆分成句子,将句子和长记忆模块中的记忆信息一同输入到编码器当中获取到包含全局信息的句子编码;将包含事件信息和文档局部信息的提示在利用短期记忆更新后,与句子编码输入到解码器当中获取到论元类别的特征;论元类别的特征用于抽取句子中对应的论元提及;输入的句子和抽取结果分别用于长、短期记忆信息的更新。

3、在一个实施方式中,在文档拆分用于迭代的步骤中包括:对应于每个领域,收集相关的缩略词以及通用缩略词用于保证分句时缩略词不被分开,保证句子的完整性;使用分句器对文档进行句子拆分,句子按在文档当中的顺序逐句迭代进行抽取。

4、在一个实施方式中,在长短期记忆的更新的步骤中包括:迭代的句子的词按照在文档当中的顺序依次添加到已有的长记忆存储词后,即长记忆中存储着所有已迭代过的句子;根据需要灵活地选择一定长度的最新的词用于辅助模型捕捉全局信息。句子的论元抽取结果(每个论元类别在句子中对应的文本)被保存,同时最新的抽取结果用于事件提示的更新。

5、在一个实施方式中,在使用提示进行句子论元抽取的步骤中包括:更新后的事件提示包含事件论元本体信息、文档局部信息以及事件论元之间的互动,每一个论元在事件提示中都有相应的文本;事件提示在与包含文档全局信息的句子编码通过解码器交互后,得到包含文档全局-局部信息、事件-论元信息的提示表征,从该表征中得到对应的各个论元类别表征;类别表征用于指向句子中该论元的始末位置,从而得到抽取结果。

6、由以上本说明书实施方式提供的技术方案可见,本说明书实施方式的目的提供一种长短期记忆辅助的文档事件论元信息抽取的迭代框架。本说明书实施方式的提供长短期记忆辅助的迭代抽取方法,可以突破模型输入长度的限制,同时也能关注到文档的全局和局部特征。进一步,本说明书实施方式通过将文档拆分成句子的方式,以使得模型能够迭代输入无限长的文档;同时构建的长短期记忆存储模块使模型灵活得关注文档全局-局部特征,提示用于更好得纳入短期记忆信息和事件信息。实验的结果也证明了本说明书提供的迭代抽取框架可以有效地处理复杂事件结构和长文本问题。

本文档来自技高网...

【技术保护点】

1.一种利用长短期记忆辅助的文档级别的事件论元抽取方法,其特征在于,应用于对包含复杂事件结构的长文档进行论元定位和抽取,所述方法包括以下步骤:

2.根据权利要求1所述的事件论元抽取方法方法,其特征在于,在步骤“将n个句子进行迭代获取到所有句子的抽取结果”中,每次迭代包括以下步骤:

3.根据权利要求1所述的事件论元抽取方法方法,其特征在于,步骤“以文档作为输入,将文档拆分为n个按照顺序排序的句子”包括:

4.一种利用长短期记忆辅助的文档级别的事件论元抽取框架,其特征在于,包括:

【技术特征摘要】

1.一种利用长短期记忆辅助的文档级别的事件论元抽取方法,其特征在于,应用于对包含复杂事件结构的长文档进行论元定位和抽取,所述方法包括以下步骤:

2.根据权利要求1所述的事件论元抽取方法方法,其特征在于,在步骤“将n个句子进行迭代获取到所有句子的抽...

【专利技术属性】
技术研发人员:魏忠钰游涛
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1