基于BERT预训练模型的端到端事件抽取方法及系统技术方案

技术编号:38572783 阅读:15 留言:0更新日期:2023-08-22 21:06
本发明专利技术涉及数据挖掘技术领域,提出了基于BERT预训练模型的端到端事件抽取方法及系统,包括获得输入语料;将输入语料输入BERT预训练模型,提取每个词的BERT词向量;对输入语料的每一行进行词性标注,根据标注结果进行词性赋值,作为该行的初始词性向量,将初始词性向量输入词性特征向量模块,得到对应的词性特征向量;将所述BERT词向量和所述词性特征向量输入多层感知机,得到触发词向量;将触发词向量和实体词向量作为参数,输入条件随机场算法,得到事件论元和论元角色;所述实体词向量根据词性标注结果得到;所述触发词、所述论元和所述论元角色用于事件抽取。通过上述技术方案,解决了现有技术中事件抽取准确率低的问题。决了现有技术中事件抽取准确率低的问题。决了现有技术中事件抽取准确率低的问题。

【技术实现步骤摘要】
基于BERT预训练模型的端到端事件抽取方法及系统


[0001]本专利技术涉及数据挖掘
,具体的,涉及基于BERT预训练模型的端到端事件抽取方法及系统。

技术介绍

[0002]自动内容抽取(automatic content extraction,ACE)国际评测会议将事件定义为:发生在某个特定时间点或时间段,某个特定地域范围内,由一个或者多个角色参与的一个或者多个动作组成的事情或者状态的改变。ACE将事件抽取任务定义为从非结构化的文本中识别并抽取事件信息并结构化表示,包括事件触发词、事件论元、论元角色。触发词是整个事件的核心词,其大多数以动词的形式存在;事件论元是与触发词之间具备语义联系的词,包含事件的参与者,即主体和客体,事件发生的时间、地点,事件发生的程度等;论元角色是论元与触发词之间具体的语义关系角色。
[0003]该问题传统上被视为两个独立的子任务,即(i)触发词识别和(ii)论元及论元角色识别。早期的研究主要采用基于模式匹配的方法,但是此类方法准确率大大依赖于模式提取的好坏,制作模板和人工抽取特征需要耗费大量的时间和人力。

技术实现思路

[0004]本专利技术提出基于BERT预训练模型的端到端事件抽取方法及系统,解决了相关技术中事件抽取准确率低的问题。
[0005]本专利技术的技术方案如下:
[0006]第一方面,基于BERT预训练模型的端到端事件抽取方法,包括:
[0007]获得输入语料;
[0008]将输入语料输入BERT预训练模型,提取每个词的BERT词向量;
[0009]对输入语料的每一行进行词性标注,根据标注结果进行词性赋值,作为该行的初始词性向量,将初始词性向量输入词性特征向量模块,得到对应的词性特征向量;
[0010]将所述BERT词向量和所述词性特征向量输入多层感知机,得到触发词向量;
[0011]将触发词向量和实体词向量作为参数,输入条件随机场算法,得到事件论元和论元角色;所述实体词向量根据词性标注结果得到;所述触发词、所述论元和所述论元角色用于事件抽取;
[0012]其中,所述词性特征向量模块的训练过程包括:
[0013]对触发词以及触发词上下文各r个词的词性进行标注,每一词性对应不同的赋值,不同的赋值构成初始词性向量;
[0014]采用基于CNN的编码器从多个维度提取初始词性向量中不同的依赖信息;
[0015]采用解码器拟合编码器的输出;
[0016]修改训练参数,重复执行训练过程,直到编码器的输入和解码器的输出误差在设定范围内。
[0017]第二方面,基于BERT预训练模型的端到端事件抽取系统,包括:
[0018]输入模块,用于获得输入语料;
[0019]词向量模块,用于根据BERT预训练模型提取每个词的BERT词向量;
[0020]词性特征向量模块,用于根据初始词性向量计算词性特征向量;所述初始词性向量具体为:对输入语料的每一行进行词性标注,根据标注结果进行词性赋值,作为该行的初始词性向量;
[0021]触发词抽取模块,用于将所述BERT词向量和所述词性特征向量输入多层感知机,得到触发词向量;
[0022]论元抽取模块,用于将触发词向量和实体词向量作为参数,输入条件随机场算法,得到事件论元和论元角色;所述实体词向量根据词性标注结果得到;所述触发词、所述论元和所述论元角色用于事件抽取;
[0023]其中,所述词性特征向量模块的训练过程包括:
[0024]对触发词以及触发词上下文各r个词的词性进行标注,每一词性对应不同的赋值,不同的赋值构成初始词性向量;
[0025]采用基于CNN的编码器从多个维度提取初始词性向量中不同的依赖信息;
[0026]采用解码器拟合编码器的输出;
[0027]修改训练参数,重复执行训练过程,直到编码器的输入和解码器的输出误差在设定范围内。
[0028]第三方面,基于BERT预训练模型的端到端事件抽取系统,包括储存器和处理器,所述储存器上存储有计算机程序或指令,所述处理器执行所述程序或指令时实现所述的基于BERT预训练模型的端到端事件抽取方法。
[0029]本专利技术的工作原理及有益效果为:
[0030]本专利技术中通过训练词性特征向量模块,和BERT预训练模型一起,用于触发词的判定,有利于触发词的准确提取。比如出现多动词情况时,对于触发词的判定会变的模糊,此时需要通过各个动词所服务的对象来判断触发词,而动词周围的词性组合可以帮助更好的判别。进一步,通过将触发词向量和实体词向量作为参数,输入条件随机场算法,综合判断事件论元和论元角色,提高事件抽取准确度。
附图说明
[0031]下面结合附图和具体实施方式对本专利技术作进一步详细的说明。
[0032]图1为本专利技术基于BERT预训练模型的端到端事件抽取方法流程图;
[0033]图2为本专利技术的一个实施例原理框图;
[0034]图3为本专利技术基于BERT预训练模型的端到端事件抽取系统结构图。
具体实施方式
[0035]下面将结合本专利技术实施例,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都涉及本专利技术保护的范围。
[0036]实施例1
[0037]如图1所示,本实施例提出了基于BERT预训练模型的端到端事件抽取方法,包括:
[0038]S100:获得输入语料;
[0039]S200:将输入语料输入BERT预训练模型,提取每个词的BERT词向量;
[0040]本实施例中,使用BERT预训练模型提取出每个词的词向量,得到的词表示具备强大的语义表征能力。
[0041]S300:对输入语料的每一行进行词性标注,根据标注结果进行词性赋值,作为该行的初始词性向量,将初始词性向量输入词性特征向量模块,得到对应的词性特征向量;
[0042]其中,所述词性特征向量模块的训练过程包括:
[0043]对触发词以及触发词上下文各r个词的词性进行标注,每一词性对应不同的赋值,不同的赋值构成初始词性向量;
[0044]采用Encoding

Decoding结构,提取词性依赖特征。首先采用基于CNN的编码器从多个维度提取初始词性向量中不同的依赖信息;然后采用解码器拟合编码器的输出;解码器由多层MLP组成,用于拟合编码器的输出。模型训练的目的则是让编码器的输入和解码器的输出尽可能的一致。最后用于进行触发词判别的词性特征即为编码器的输出。
[0045]S400:将所述BERT词向量和所述词性特征向量输入多层感知机,得到触发词向量;
[0046]如图2所示,为本实施例原理框图。本实施例中通过训练词性特征向量模块,和BERT预训练模型一起,用于触发词的判定,有利于触本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于BERT预训练模型的端到端事件抽取方法,其特征在于,包括:获得输入语料;将输入语料输入BERT预训练模型,提取每个词的BERT词向量;对输入语料的每一行进行词性标注,根据标注结果进行词性赋值,作为该行的初始词性向量,将初始词性向量输入词性特征向量模块,得到对应的词性特征向量;将所述BERT词向量和所述词性特征向量输入多层感知机,得到触发词向量;将触发词向量和实体词向量作为参数,输入条件随机场算法,得到事件论元和论元角色;所述实体词向量根据词性标注结果得到;所述触发词、所述论元和所述论元角色用于事件抽取;其中,所述词性特征向量模块的训练过程包括:对触发词以及触发词上下文各r个词的词性进行标注,每一词性对应不同的赋值,不同的赋值构成初始词性向量;采用基于CNN的编码器从多个维度提取初始词性向量中不同的依赖信息;采用解码器拟合编码器的输出;修改训练参数,重复执行训练过程,直到编码器的输入和解码器的输出误差在设定范围内。2.根据权利要求1所述的基于BERT预训练模型的端到端事件抽取方法,其特征在于,所述将输入语料输入BERT预训练模型,提取每个词的词向量,具体包括:通过随机初始化生成初始化词向量{e1,e2,,e
n
};其中,n为语料长度根据输入语料中每个字的位置计算位置嵌入向量{p1,p2,,p
n
};根据初始化词向量{e1,e2,,e
n
}和位置嵌入向量{p1,p2,,p
n
}计算传入矩阵D={m1,m2,,m
n
},其中m
i
=p
i
+e
i
,1≤i≤n;基于注意力机制,将传入矩阵D进行映射,具体为:K=W
K
(m1,m2,...,m
n
)=(k1,k2,...,k
n
)Q=W
Q
(m1,m2,...,m
n
)=(q1,q2,...,q
n
)V=W
V
(m1,m2,...,m
n
)=(v1,v2,...,v
n
)其中,W
K
、W
Q
、W
V
为BERT预训练模型中的参数,K为关键字矩阵,Q为询问矩阵,V为值矩阵;对于每一个输入字,根据映射后的传入矩阵D计算当前位置和其他位置的相关性特征,将相关性特征输入BERT预训练模型,得到每个词的词向量;其中,任一位置i的向量表示为(k
i
,q
i
,v
i
),任一位置j的向量表示为(k
j
,q
j
,v
j
),将向量(k
i
,q
i
,v
i
)和向量(k
j
,q
j
,v
j
)点乘结果作为任一位置i和任一位置j的相关性特征。3.根据权利要求2所述的基于BERT预训练模型的端到端事件抽取方法,其特征在于,所述根据输入语料中每个字的位置计算位置嵌入向量{p1,p2,,p
n
},具体包括:对任一位置i,其对应的位置嵌入向量为:其中,d
model
是向量维度,w表示所在维度。
4.根据权利要求1所述的基于BERT预训练模型的端到端事件抽取方法,其特征在于,所述将触发词向量和实体词向量作为参数,输入条件随机场算法,得到事件论元和论元角色之后,还包括:根据事件论元和论元角色再次计算触发词向量的概率。5.基于BERT预训练模型的端到端事件抽取系统,其特征在于,包括:输入模块,用于获得输入语料;词向量模...

【专利技术属性】
技术研发人员:程祥宋志立何召锋匡明杨文林
申请(专利权)人:杭州康晟健康管理咨询有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1