结合Bert模型和模板匹配的事件抽取方法及系统、电子设备技术方案

技术编号:31814090 阅读:18 留言:0更新日期:2022-01-08 11:17
本发明专利技术涉及一种结合Bert模型和模板匹配的事件抽取方法及系统、电子设备,该方法包括步骤:基于Bert模型对待处理文本进行事件检测,识别出事件中的触发词及其类型;根据触发词的类型确定出事件类型,根据事件类型调取对应的模式匹配模板,并基于调取出的模式匹配模板匹配抽取出事件中的论元信息。本发明专利技术通过Bert模型进行事件检测和触发词分类,充分发挥了深度学习无需特征设计和可移植性强的特点,避免了模板匹配方式只能在限定域使用的缺点;然后,在得到触发词抽取结果后,根据触发词类型和领域,用提前设计好的对应领域的模板进行论元抽取,充分发挥出模板匹配在限定域准确率高的特点,同时又避免了联合抽取模型方案设计困难的缺点。困难的缺点。困难的缺点。

【技术实现步骤摘要】
结合Bert模型和模板匹配的事件抽取方法及系统、电子设备


[0001]本专利技术涉及自然语言处理
,特别涉及一种结合Bert模型和模板匹配的事件抽取方法及系统。

技术介绍

[0002]事件抽取是信息抽取领域一个重要的研究方向,也是当前自然语言处理的研究热点和难点问题。事件抽取是把含有事件信息的非结构化文本以结构化的形式呈现出来,对人们认知世界有着深远的意义,在自动文摘、自动问答、信息检索、知识图谱等领域有着广泛的应用。
[0003]事件抽取包括两个子任务:事件检测与论元抽取,而具体到评测过程中,每一个子任务中又包含两个评测目标,事件检测包括触发词检测和触发词分类,论元抽取包括论元检测与论元分类。即事件抽取首先得基于触发词识别出文本中的事件和事件类型,其次要从文本中识别出事件元素并判断元素角色。所以事件抽取依赖于命名实体识别、关系抽取等底层自然语言处理任务的结果,但其并不是事件抽取任务本身所关注的。事件抽取主要有三种方法:模式匹配的方法、机器学习的方法、深度学习的方法。
[0004]早期的事件抽取任务采用基于模式匹配的方法,模式匹配的方法是指对于某类事件的识别和抽取是在一些模式的指导下进行的,采用各种模式匹配法将待抽取的句子和已经抽出的模板匹配。框架表示事件抽取任务是参照公开测评事件抽取任务,预先定义结构化的事件表示框架来进行的事件抽取任务,也称为限定域事件抽取。模式匹配的方法对于限定域准确率较高,但往往依赖于具体领域,可移植性差。
[0005]随着机器学习的兴起,利用最大熵、隐马尔可夫、支持向量机等分类器采用特征工程的方法进行事件抽取受到越来越多的关注,机器学习的方法是把事件抽取任务看作分类问题,把主要的精力放在分类器的构建和特征的发现、选择上。中文事件抽取还存在中文语言特性方面的问题需要解决。机器学习的方法较为客观,受领域限制较小,具有良好的可移植性,其缺点主要在于需要复杂的词法、句法特征设计,以及能够良好契合特征设计的模型构建。
[0006]深度学习为事件抽取研究指出了一条新的方向,捕获了更为深层次的语义特征,分为流水线的方式和联合抽取的方式进行事件抽取。流水线方式的思路是将事件抽取任务划分成两阶段任务,先进行触发词抽取,再利用抽出的触发词对事件论元进行槽填充。联合抽取的方式是以文本作为模型的输入,考虑了事件触发词与事件论元之间的依赖性,直接输出抽取出的触发词和对应的论元。深度学习方法相较于模式匹配方法以及机器学习方法,大大减少了特征设计的需求,且具有更高的可移植性。但深度学习方法也有其缺点,流水线的方式中,触发词抽取结果的错误会在论元抽取模型中传播,而联合抽取模型的缺点是方案设计困难,无法进行局部的优化处理。

技术实现思路

[0007]本专利技术的目的在于提供一种结合Bert模型和模板匹配的事件抽取方法及系统,以改善目前常用的事件抽取方法所存在的缺陷。
[0008]为了实现上述专利技术目的,本专利技术实施例提供了以下技术方案:一方面,本专利技术实施例提供了一种结合Bert模型和模板匹配的事件抽取方法,包括以下步骤:基于Bert模型对待处理文本进行事件检测,识别出事件中的触发词及其类型;根据触发词的类型确定出事件类型,根据事件类型调取对应的模式匹配模板,并基于调取出的模式匹配模板匹配抽取出事件中的论元信息。
[0009]另一方面,本专利技术实施例同时提供了一种结合Bert模型和模板匹配的事件抽取系统,包括:事件检测模块,用于基于Bert模型对待处理文本进行事件检测,识别出事件中的触发词及其类型;论元抽取模块,用于根据触发词的类型确定出事件类型,根据事件类型调取对应的模式匹配模板,并基于调取出的模式匹配模板匹配抽取出事件中的论元信息。
[0010]再一方面,本专利技术实施例同时提供了一种电子设备,包括:存储器,存储程序指令;处理器,与所述存储器相连接,执行存储器中的程序指令,实现本专利技术实施例中所述方法中的步骤。
[0011]与现有技术相比,本专利技术在深入分析现有事件抽取方法优缺点的基础上,独辟蹊径,提出了一种结合Bert模型和模板匹配的事件抽取方法。首先,通过Bert模型进行事件检测和触发词分类,充分发挥了深度学习无需特征设计和可移植性强的特点,避免了模板匹配方式只能在限定域使用的缺点;然后,在得到触发词抽取结果后,根据触发词类型和领域,用提前设计好的对应领域的模板进行论元抽取,充分发挥出模板匹配在限定域准确率高的特点,同时又避免了联合抽取模型方案设计困难的缺点。简言之,本专利技术通过将Bert模型和模板匹配两种方式完美结合,在保障抽取结果准确性的基础上,增强了可移植性。
附图说明
[0012]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍, 应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0013]图1为本专利技术实施例中所述事件抽取方法的流程图。
[0014]图2为本专利技术实施例中事件检测Bert

CRF模型的结构图。
[0015]图3为本专利技术实施例中的军事演习模板示意图。
[0016]图4为本专利技术实施例中的军事演习信息抽取结果示意图。
[0017]图5为本专利技术实施例中所述事件抽取系统的结构框图。
[0018]图6为本专利技术实施例中所述电子设备的结构框图。
具体实施方式
[0019]下面将结合本专利技术实施例中附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0020]请参阅图1,本实施例提供的一种结合Bert模型和模板匹配的事件抽取方法,包括以下步骤:S1,基于Bert模型对待处理文本进行事件检测,识别出事件中的触发词及其类型。
[0021]事件类型与触发词的类型对应关系是预先定义的,比如演习事件类型,对应的触发词有三个,分别是演习、演练、演训,即这三个词为演习事件类触发词,当用Bert模型对文本句子进行序列标注实体识别时,识别到了演习、演练、演训三个词中的任何一个,即可判断出该文本中事件类型为演习事件。
[0022]S2,根据触发词的类型确定出事件类型,根据事件类型调取对应的模式匹配模板,并基于调取出的模式匹配模板匹配抽取出事件中的论元信息。
[0023]下面将更具体地阐述各个步骤。
[0024]Bert模型使用了transformer的self

attention机制实现双向编码,并且构造了更加通用的输入本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种结合Bert模型和模板匹配的事件抽取方法,其特征在于,包括以下步骤:基于Bert模型对待处理文本进行事件检测,识别出事件中的触发词及其类型;根据触发词的类型确定出事件类型,根据事件类型调取对应的模式匹配模板,并基于调取出的模式匹配模板匹配抽取出事件中的论元信息。2.根据权利要求1所述的结合Bert模型和模板匹配的事件抽取方法,其特征在于,所述Bert模型通过BIO序列标注规则对待处理文本句子中的词进行标注,输出得到词的标注结果,基于标注结果识别出事件中的触发词及其类型。3.根据权利要求1所述的结合Bert模型和模板匹配的事件抽取方法,其特征在于,所述基于调取出的模式匹配模板匹配抽取出事件中的论元信息的步骤包括:对待处理文本进行分词、分句、命名实体识别,然后用正则表达式的方式对待处理文本进行模式匹配和信息抽取,得到事件中的论元信息。4.根据权利要求1所述的结合Bert模型和模板匹配的事件抽取方法,其特征在于,还包括步骤:当所述待处理文本为多个,且确定出为同一个事件时,将从每一个待处理文本中抽取出的论元信息进行比对,当时间、空间和事件主体一致时,根据时空的一致性原则对同一事件进行合并。5.一种结合Bert模型和模板匹配的事件抽取系统,其特征在于,包括:事件检测模块,用于基于Bert模型对待处理文本进行事件检测,识别出事件中的触发词及其类型;论元抽取模块,用于...

【专利技术属性】
技术研发人员:刘禹汐侯立旺姜青涛崔利娜
申请(专利权)人:北京道达天际科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1