【技术实现步骤摘要】
一种基于BERT的交互性元学习事件检测方法
[0001]本专利技术涉及文字检测
,特别涉及一种基于BERT的交互性元学习事件检测方法。
技术介绍
[0002]随着网络技术的大规模普及,互联网每时每刻都在产生着海量的自然语言数据,将事件信息从自然语言中抽取出来已经成为一个重要应用场景。然而由于事件的标注成本较高,并且在实际应用场景中有些事件如政变,经济危机等缺乏标注语料,因此在某些场景中事件抽取任务难以获得大量的标注数据来训练模型。事件检测作为事件抽取的重要子任务,如何通过少量数据获得更好效果的模型成为一个亟待解决的问题。
[0003]现有的小样本事件检测技术多数基于元学习架构,即模型需要从一个由少量标注数据组成的支持集上,学习到事件特征,然后使用学习到的知识在由未标注数据组成的查询集上进行推理。目前,相关技术一般聚焦于使用各种复杂的网络结构获得更好的支持集编码以及查询集编码,如使用 CNN,RNN,GCN等多种神经网络来对支持集进行编码得到各个事件类型的原型,或者是设计一种基于记忆力机制的特征编码方式来得到鲁棒 ...
【技术保护点】
【技术特征摘要】
1.一种基于BERT的交互性元学习事件检测方法,其特征在于,包括:获取目标支持集,所述目标支持集包括至少一个参考数据集,所述参考数据集中包括至少一条参考数据,所述参考数据为标注了事件触发词和事件类型的句子;获取目标数据,所述目标数据为未标注事件触发词的句子;将所述目标支持集与所述目标数据进行拼接编码,得到所述目标数据对应的事件类型;获取目标参考数据集,所述目标参考数据集对应的事件类型与所述目标数据对应的事件类型相同,将所述目标参考数据集与所述目标数据进行拼接编码,得到所述目标数据中的事件触发词。2.根据权利要求1所述的基于BERT的交互性元学习事件检测方法,其特征在于,所述目标支持集包含至少一种事件类型,每一种事件类型对应一个所述参考数据集;所述目标支持集的表达式为:其中,S为所述目标支持集,N为所述参考数据集数量,K为每组所述参考数据集中的参考数据数量,对于每条所述参考数据考数据数量,对于每条所述参考数据为第i个所述参考数据集中的第j个所述参考数据对应的句子,为第i个所述参考数据集中的第j个所述参考数据中的触发词对应的位置,e
i
为第i个所述参考数据集对应的事件类型。3.根据权利要求1所述的基于BERT的交互性元学习事件检测方法,其特征在于,所述将所述目标支持集与所述目标数据进行拼接编码,得到所述目标数据对应的事件类型,包括:将所述目标数据分别与所述目标支持集中的每条所述参考数据进行拼接,得到第一目标序列;对所述第一目标序列进行编码,得到第一目标序列编码;根据所述第一目标序列编码获取第一目标相似度;根据所述第一目标相似度获取所述目标数据对应的事件类型。4.根据权利要求3所述的基于BERT的交互性元学习事件检测方法,其特征在于,所述根据所述第一目标序列编码获取第一目标相似度,包括:将所述第一目标序列编码经过一层全连接层,得到每个所述第一目标序列编码中拼接的两个句子的相似度分数;分别将各个所述参考数据集对应的相似度进行加和平均后,得到一个或多个所述目标数据与当前参考数据集对应的事件类型的所述第一目标相似度。5.根据权利要求4所述的基于BERT的交互性元学习事件检测方法,其特征在于,所述将所述目标参考数据集与所述目标数据进行拼接编码,得到所述目标数据中的事件触发词,包括:
将所述目标数据分别与所述目标参考数据集中的每条所述参考数据进行拼接,得到第二目标序列;对所述第二目标序列进行编码,得到第二目标序列编码;将所述目标数据分别与所述目标参考数据集中的每条所述参考数据中的触发词进行拼接,得到第三...
【专利技术属性】
技术研发人员:户保田,陶靖枞,刘振宇,
申请(专利权)人:哈尔滨工业大学深圳,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。