一种基于信息增强的提示学习事件抽取方法及装置制造方法及图纸

技术编号:39160744 阅读:14 留言:0更新日期:2023-10-23 15:02
本发明专利技术提供一种基于信息增强的提示学习事件抽取方法及装置,方法包括以下步骤:将待抽取事件的语料转换为若干个字嵌入向量,将所述若干个字嵌入向量输入至Lattice LSTM模型,得到若干个字词信息编码;通过词汇链构造历史事件信息,并根据预设的训练数据集统计高频触发词;将所述若干个字词信息编码、所述历史事件信息、所述高频触发词以及预设目标模板输入至预训练语言模型;通过所述预训练语言模型处理,得到事件触发词以及若干个论元,并根据得到的所述事件触发词确定事件类型;根据所述预设目标模板,将得到的所述事件触发词、所述事件类型以及若干个论元组合为抽取完成的事件语句。本发明专利技术能够提高事件类型识别的准确率,实现低资源下的事件抽取。实现低资源下的事件抽取。实现低资源下的事件抽取。

【技术实现步骤摘要】
一种基于信息增强的提示学习事件抽取方法及装置


[0001]本专利技术涉及事件抽取领域,尤其涉及一种基于信息增强的提示学习事件抽取方法及装置。

技术介绍

[0002]随着大数据、云计算、物联网等技术的不断进步,互联网上的数据呈爆发式增长,面对海量的数据,如何从中非结构化的信息中提取出有价值的结构化信息是数据挖掘领域的核心问题。
[0003]事件抽取旨在从文本中识别和提取出特定类型的事件。事件是指某件具体事情的发生,描述事件的信息包括:事件发生的时间和地点、事件的内容和状态、事件的一个或多个参与者等。一个结构化的事件由事件触发词、事件类型、论元、事件论元角色等信息组成。
[0004]然而,目前大多数相关研究都忽略了句子中先验知识在事件抽取中的利用,并未意识到句子与触发词之间、句子与论元之间、事件与事件之间的语义关系,导致了事件抽取结果的准确率较低,且在少资源情况下事件抽取的性能和鲁棒性较差。

技术实现思路

[0005]本专利技术为克服上述现有技术的缺陷,提供一种基于信息增强的提示学习事件抽取方法及装置,能够提高事件类型识别的准确率,避免分层抽取造成的累计错误,实现低资源下的事件抽取。
[0006]本专利技术一实施例提供一种基于信息增强的提示学习事件抽取方法,包括以下步骤:
[0007]将待抽取事件的语料转换为若干个字嵌入向量,将所述若干个字嵌入向量输入至Lattice LSTM模型,得到若干个字词信息编码;
[0008]通过词汇链构造历史事件信息,并根据预设的训练数据集统计高频触发词;其中,所述训练数据集中包括已经预先标注触发词、事件类型以及论元的训练语料;
[0009]将所述若干个字词信息编码、所述历史事件信息、所述高频触发词以及预设目标模板输入至预训练语言模型,输出得到语句关联向量;
[0010]在所述预设目标模板中选取与所述语句关联向量匹配度最高的目标模板,根据所述目标模板,从所述语句关联向量中抽取得到事件触发词以及若干个论元,同时确定事件类型,并将所述事件触发词、事件类型以及若干个论元组合为完整的事件语句。
[0011]进一步的,所述将待抽取事件的语料转换为若干个字嵌入向量,将所述若干个字嵌入向量输入至Lattice LSTM模型,得到若干个字词信息编码,具体包括:
[0012]所述Lattice LSTM模型包括若干个lattice结构以及主干LSTM结构;
[0013]将所述语料作为输入序列输入至Word2Vec模型,得到若干个字嵌入向量;其中,一个字嵌入向量对应一个字符;
[0014]将对应的所述若干个字嵌入向量分别输入至所述主干LSTM结构中,对应得到若干
个第一输出向量;
[0015]根据所述语料,在预设字词库中检索所述语料中的若干个潜在词,并将检索到的潜在词对应的词嵌入向量一一输入至所述lattice结构中,分别对应得到若干个第二输出向量;其中,所述潜在词由所述语料中的若干个连续字符组成;
[0016]根据所述潜在词,将所述潜在词的尾字对应的第一输出向量与该潜在词对应的第二输出向量进行归一计算,得到若干个第三输出向量;其中,一个所述第三输出向量对应一个所述潜在词的尾字;
[0017]当所述语料中的字符不为所述潜在词的尾字时,将该字符对应的所述第一输出向量输入至所述主干LSTM结构的输出门,得到对应的所述字词信息编码;
[0018]当所述语料中的字符为所述潜在词的尾字时,将该字符对应的所述第三输出向量输入至所述主干LSTM结构的输出门,得到对应的所述字词信息编码。
[0019]进一步的,所述通过词汇链构造历史事件信息,具体包括:
[0020]根据语料中已经抽取得到的事件类型,依次将所述已经抽取得到的事件类型与已有的词汇链作词汇相似度计算,分别对应得到若干个相似度数值;
[0021]当所述相似度数值大于预设相似阈值时,则将对应的所述已经抽取得到的事件类型加入已有的词汇链;
[0022]当所述相似度数值小于预设相似阈值时,将对应的所述已经抽取得到的时间类型设为一条新增词汇链,并将所述新增词汇链加入到所述已有的词汇链中,继续与所述已经抽取得到的事件类型进行词汇相似度计算;
[0023]将所有所述已有的词汇链组合为历史事件信息。
[0024]进一步的,所述根据预设的训练数据集统计高频触发词,具体包括:
[0025]根据预设的训练数据集,在所述训练语料中分别统计各个词语出现的频率,得到对应的若干个第一触发频率;
[0026]在所述训练数据集的所有事件类型中选取一个作为特定事件类型,在所述训练语料中分别统计各个词语作为所述特定事件类型的事件触发词的频率,得到对应的若干个第二触发频率;
[0027]分别令所有所述第二触发频率除以对应的所述第一触发频率,对应得到若干个选择概率;
[0028]当触发词的所述选择概率大于预设概率阈值时,确定为所述特定事件类型的高频触发词;
[0029]依次选取所述训练数据集中的各事件类型作为所述特定事件类型,统计所有事件类型的高频触发词。
[0030]进一步的,所述将所述若干个字词信息编码、所述历史事件信息、所述高频触发词以及预设目标模板输入至预训练语言模型,输出得到语句关联向量,具体包括:
[0031]所述预训练语言模型为BART模型,包括Encoder层以及Decoder层;
[0032]将所述若干个字词信息编码、所述历史事件信息、所述高频触发词以及所述预设目标模板输入至所述Encoder层;
[0033]在所述Encoder层中,通过自注意力机制处理所述若干个字词信息编码、所述历史事件信息以及所述高频触发词,得到语句关联向量,并把所述语句关联向量发送至所述
Decoder层。
[0034]进一步的,所述所述在所述预设目标模板中选取与所述语句关联向量匹配度最高的目标模板,根据所述目标模板,从所述语句关联向量中抽取得到事件触发词以及若干个论元,并确定事件类型,最后将所述事件触发词、事件类型以及若干个论元组合为完整的事件语句,具体包括:
[0035]所述预设目标模板为预定义的输出格式,一个所述预设目标模板对应一个事件类型;其中,所述预设目标模板中包括若干个占位符,所述占位符的类别包括事件触发词占位符以及论元占位符,一个所述事件触发词占位符对应一个事件触发词,一个所述论元占位符对应一个论元;
[0036]将所有的所述预设目标模板输入至所述预训练语言模型的Decoder层,并依次与所述语句关联向量进行匹配,选取所述预设目标模板中与所述语句关联向量匹配度最高的目标模板作为事件语句模板;
[0037]根据所述事件语句模板,执行替换操作以使所述预训练语言模型从所述语句关联向量中抽取所述事件触发词以及论元,同时确定事件类型,并将所述事件语句模板中的一个所述占位符被替换为所述事件触发词或所述若干个论元之一;
[0038]重复所述替换操作直至本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于信息增强的提示学习事件抽取方法,其特征在于,包括以下步骤:将待抽取事件的语料转换为若干个字嵌入向量,将所述若干个字嵌入向量输入至Lattice LSTM模型,得到若干个字词信息编码;通过词汇链构造历史事件信息,并根据预设的训练数据集统计高频触发词;其中,所述训练数据集中包括已经预先标注触发词、事件类型以及论元的训练语料;将所述若干个字词信息编码、所述历史事件信息、所述高频触发词以及预设目标模板输入至预训练语言模型,输出得到语句关联向量;在所述预设目标模板中选取与所述语句关联向量匹配度最高的目标模板,根据所述目标模板,从所述语句关联向量中抽取得到事件触发词以及若干个论元,同时确定事件类型,并将所述事件触发词、事件类型以及若干个论元组合为完整的事件语句。2.根据权利要求1所述的一种基于信息增强的提示学习事件抽取方法,其特征在于,所述将待抽取事件的语料转换为若干个字嵌入向量,将所述若干个字嵌入向量输入至Lattice LSTM模型,得到若干个字词信息编码,具体包括:所述Lattice LSTM模型包括若干个lattice结构以及主干LSTM结构;将所述语料作为输入序列输入至Word2Vec模型,得到若干个字嵌入向量;其中,一个字嵌入向量对应一个字符;将对应的所述若干个字嵌入向量分别输入至所述主干LSTM结构中,对应得到若干个第一输出向量;根据所述语料,在预设字词库中检索所述语料中的若干个潜在词,并将检索到的潜在词对应的词嵌入向量一一输入至所述lattice结构中,分别对应得到若干个第二输出向量;其中,所述潜在词由所述语料中的若干个连续字符组成;根据所述潜在词,将所述潜在词的尾字对应的第一输出向量与该潜在词对应的第二输出向量进行归一计算,得到若干个第三输出向量;其中,一个所述第三输出向量对应一个所述潜在词的尾字;当所述语料中的字符不为所述潜在词的尾字时,将该字符对应的所述第一输出向量输入至所述主干LSTM结构的输出门,得到对应的所述字词信息编码;当所述语料中的字符为所述潜在词的尾字时,将该字符对应的所述第三输出向量输入至所述主干LSTM结构的输出门,得到对应的所述字词信息编码。3.根据权利要求1所述的一种基于信息增强的提示学习事件抽取方法,其特征在于,所述通过词汇链构造历史事件信息,具体包括:根据语料中已经抽取得到的事件类型,依次将所述已经抽取得到的事件类型与已有的词汇链作词汇相似度计算,分别对应得到若干个相似度数值;当所述相似度数值大于预设相似阈值时,则将对应的所述已经抽取得到的事件类型加入已有的词汇链;当所述相似度数值小于预设相似阈值时,将对应的所述已经抽取得到的时间类型设为一条新增词汇链,并将所述新增词汇链加入到所述已有的词汇链中,继续与所述已经抽取得到的事件类型进行词汇相似度计算;将所有所述已有的词汇链组合为历史事件信息。4.根据权利要求1所述的一种基于信息增强的提示学习事件抽取方法,其特征在于,所
述根据预设的训练数据集统计高频触发词,具体包括:根据预设的训练数据集,在所述训练语料中分别统计各个词语出现的频率,得到对应的若干个第一触发频率;在所述训练数据集的所有事件类型中选取一个作为特定事件类型,在所述训练语料中分别统计各个词语作为所述特定事件类型的事件触发词的频率,得到对应的若干个第二触发频率;分别令所有所述第二触发频率除以对应的所述第一触发频率,对应得到若干个选择概率;当触发词的所述选择概率大于预设概率阈值时,确定为所述特定事件类型的高频触发词;依次选取所述训练数据集中的各事件类型作为所述特定事件类型,统计所有事件类型的高频触发词。5.根据权利要求1所述的一种基于信息增强的提示学习事件抽取方法,其特征在于,所述将所述若干个字词信息编码、所述历史事件信息、所述高频触发词以及预设目标模板输入至预训练语言模型,输出得到语句关联向量,具体包括:所述预训练语言模型为BART模型,包括Encoder层以及Decoder层;将所述若干个字词信息编码、所述历史事件信息、所述高频触发词以及所述预设目标模板输入至所述Encoder层;在所述Encoder层中,通过自注意力机制处理所述若干个字词信息编码、所述历史事件信息以及所述高频触发词,得到语句关联向量,并把所述语句关联向量发送至所述Decoder层。6.根据权利要求1所述的一种基于信息增强的提示学习事件抽取方法,其特征在于,所述在所述预设目标模板中选取与所述语句关联向量匹配度最高的目标模板,根据所述目标模板,从所述语句关联向量中抽取得到事件触发词以及若干个论元,并确定事件类型,最后将所述事件...

【专利技术属性】
技术研发人员:肖红廖鸿辉姜文超黄子豪
申请(专利权)人:广州凡沙智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1