文档级事件论元抽取方法、装置、设备及介质制造方法及图纸

技术编号:42819509 阅读:19 留言:0更新日期:2024-09-24 20:58
本发明专利技术提出一种文档级事件论元抽取方法、装置、设备及介质,包括输入文档,获取文档中的事件集合、触发词集合、角色集合以及论元集合,构造论元抽取学生模型,基于文档来预测所有事件的论元集合,对各事件分别构建事件内部级别的教师模型,以获得各事件内的论元关联,构建事件间级别的教师模型,以获得文档中跨事件的论元关联,引入基于多教师蒸馏采用特征对齐和logit对齐的方式将事件关联知识从各事件内部级别的教师模型和事件间级别的教师模型迁移到论元抽取学生模型上,继而确定论元抽取学生模型总代价函数,迭代最小化所述论元抽取学生模型总损失函数直至收敛,以输出训练好的论元抽取学生模型,进而用于文档级事件论元抽取。

【技术实现步骤摘要】

本专利技术主要涉及到大数据处理,尤其是一种文档级事件论元抽取方法、装置、设备及介质


技术介绍

1、事件论元抽取(eae)是事件抽取(ee)的一个关键子任务,旨在基于已知的事件类型从文本中识别事件论元,并正确分类它们所扮演的角色。以图1中第6句触发的“life.die”事件为例,eae需要识别论元“tamerlantsarnaev”和“police”,并分别确定它们的角色为“victim”和“killer”。文档级eae则是通过分析整个文档来提取多个事件的论元。由于论元可能分布在多个句子中,文档级eae更具挑战性。图1展示了一个文档级的示例,输入文档包含8个句子,涉及4个事件,文档级eae需要抽取对应于4个事件的各个论元。

2、当前文档级的eae任务主要通过生成式方法来解决,大致可分为两种范式。一类研究专注于文档级单事件论元提取,输入的一个文档后,每次仅输出一个事件的论元信息,并通过迭代提取出文档中所有事件的论元。另一类则是多事件论元提取的方法,其输入同样是一个文档,但目的在于同时输出所有事件的论元,实现多事件论元的并行抽取。然而,在图1所示的本文档来自技高网...

【技术保护点】

1.文档级事件论元抽取方法,其特征在于,包括:

2.根据权利要求1所述的文档级事件论元抽取方法,其特征在于,事件内部级别的教师模型Tintra:通过在各事件内以一定的概率随机选择一部分论元作为特权知识,训练模型基于事件内特权论元来预测相同事件内的其余非特权论元;

3.根据权利要求1或2所述的所述的文档级事件论元抽取方法,其特征在于,还包括对输入文档进行编码处理,包括:

4.根据权利要求3所述的文档级事件论元抽取方法,其特征在于,训练事件内部级别的教师模型Tintra,包括:

5.根据权利要求3所述的文档级事件论元抽取方法,其特征在于,训练事...

【技术特征摘要】

1.文档级事件论元抽取方法,其特征在于,包括:

2.根据权利要求1所述的文档级事件论元抽取方法,其特征在于,事件内部级别的教师模型tintra:通过在各事件内以一定的概率随机选择一部分论元作为特权知识,训练模型基于事件内特权论元来预测相同事件内的其余非特权论元;

3.根据权利要求1或2所述的所述的文档级事件论元抽取方法,其特征在于,还包括对输入文档进行编码处理,包括:

4.根据权利要求3所述的文档级事件论元抽取方法,其特征在于,训练事件内部级别的教师模型tintra,包括:

5.根据权利要求3所述的文档级事件论元抽取方法,其特征在于,训练事件间级别的教师模...

【专利技术属性】
技术研发人员:谭立君胡艳丽曹健威张若寒刘腾周庄易李宏阳张馨予孙英杰王浩源李凌寒
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1