图神经网络事件检测模型的鲁棒性分析方法技术

技术编号:35552166 阅读:13 留言:0更新日期:2022-11-12 15:32
本发明专利技术公开了图神经网络事件检测模型的鲁棒性分析方法,包括:通过通用文本变换和亚种群变换将原始文本数据转换为对抗数据,将词向量化为并输入Bi

【技术实现步骤摘要】
图神经网络事件检测模型的鲁棒性分析方法


[0001]本专利技术属于图神经网络
,尤其涉及图神经网络事件检测模型的鲁棒性分析方法。

技术介绍

[0002]事件检测(ED)是自然语言处理(NLP)领域的一个重要任务,其旨在从给定的文本中识别能代表事件的触发词并将它们分类为正确的事件类型。如图1所示,一个ED模型旨在将S1中的“被破坏”识别为“攻击”的触发词,将S2中的“被解雇”识别为“失去工作”的触发词。ED促进了事件关系抽取,并且对现实世界的应用有益,如自动文本摘要、信息检索和问答。
[0003]传统的ED模型主要基于机器学习方法,但它们的性能严重依赖于人工选择的特征。随着近年深度学习理论与技术的发展,越来越多的研究者采用深度学习方法来完成ED任务。最近,更多的研究集中于如何将文本序列转化为图结构数据,以融入更丰富的语义信息,进而将图神经网络(GNN)引入ED任务。目前最先进的事件检测模型都是基于GNN的。
[0004]上述模型大多基于一个默认且完美的数据集假设,即标签质量高、噪音少且分布均衡。并期望从这样的数据集中学到的模式是可以推广到其他数据集的。然而,不满足这一完备性的真实数据集会导致模型包含与训练数据相同的偏差。大多数关于ED的研究主要关注模型的构建,并根据高质量数据集上的指标如Precision、Recall和F1分数来评估模型的性能,这会导致对模型能力的有过高的评价。
[0005]在NLP领域中,模型的鲁棒性显然是必不可少的指标。现实世界中的应用接收的输入通常不是高质量的,因此需要对不同输入文本都有很强适应性的模型。尽管已有研究开始关注NLP模型的鲁棒性,但其中关注ED模型的甚少。
[0006]Lu等人在非专利文献“Distilling discrimination and generalization knowledge for event detection via delta

representation learning[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019: 4366

4376”中提出一个Δ

learning方法以提取区分歧义触发词的判别知识以及检测未见/稀疏触发词的泛化知识,但他们忽略了精心设计的对抗文本。Liu等人在非专利文献“How Does Context Matter On the Robustness of Event Detection with Context

Selective Mask Generalization[C]//Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings. 2020: 2523

2532”中提出一种新的训练范式,名为context

selective mask generalization for ED,并通过实验证明了该范式在防御对抗攻击、探索未见触发词和处理歧义情况的有效性。然而,他们仅仅考虑了词级别的对抗攻击,而没有考虑字符级别的对抗攻击以及亚种群。此外,据本专利技术所知,尚未有关于GNN模型在事件检测问题上的鲁棒性的研究。
[0007]早期,关于ED的研究主要采用传统的机器学习方法,以N

gram语言模型和自然语
法语义解析工具提取的语言特征为主要特征。这些所选择的特征的质量直接影响ED模型的整体性能,同时,这种方法对人力资源投入和专业知识都有较高要求。
[0008] 深度学习最突出的优势就是通过多层神经网络自动地从原始数据中学习出有效的特征,因此,随着近年来深度学习理论和技术的逐步完善,越来越多的研究者采用深度学习方法来解决ED问题。Nguyen等人在非专利文献“Modeling skip

grams for event detection with convolutional neural networks[C]//Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. 2016: 886

891”首次将卷积神经网络(CNN)引入到事件抽取(EE)中,通过卷积运算将候选词的相邻词的语义聚合在一起,从而增强了词向量的语义表示;动态多池化策略被用来将更多信息引入 CNN,他们认为传统卷积无法提取长距离词之间的关联,因此提出了skip

grams方法来捕捉不连续词之间的语义关联。Ghaeini等人在非专利文献“Event nugget detection with forward

backward recurrent neural networks[C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). 2016: 369

373”首次将循环神经网络(RNN) 引入ED中,以检测多词事件。
[0009]最近,更多的研究关注如何将文本序列转化成图结构数据,以融入更丰富的语义信息,进而GNN被引入了ED任务。Nguyen等人在非专利文献“Graph convolutional networks with argument

aware pooling for event detection[C]//Thirty

second AAAI conference on artificial intelligence, Menlo Park:AAAI, 2018”中第一次通过句法依存树将图卷积网络(GCN)引入到ED中,并取得了显着的效果;Liu等人在非专利文献“Jointly multiple events extraction via attention

based graph information aggregation[C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing: Findings. 2018”中用自注意力和高速网络增强了GCN,进而提升了GCN在ED任务上的性能;多阶距离和多层词向量注意力聚合机制被引入GCN,进一步提升了GCN的性能;Cui等人在非专利文献“Edge

enhanc本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.图神经网络事件检测模型的鲁棒性分析方法,其特征在于,包括以下步骤:获取原始文本数据;通过通用文本变换和亚种群变换,将原始文本数据转换为对抗数据,将对抗数据作为输入序列,其中为第i个token的向量,n为序列中token的数量;将向量化为,其中和分别表示的词嵌入向量和实体类型嵌入向量,d
w
、d
e
分别是所述词嵌入向量和实体类型嵌入向量的维度;将输入隐藏层维度为d
l /2的Bi

LSTM网络中,分别为的正向隐层状态和反向隐层状态,用来表示每个token的;同时对输入序列进行句法依存分析,即将单词作为节点,依存关系作为边,得到句法依存图;将句法依存图中的边嵌入向量空间,得到一个边表示张量;将每个节点的表示变换到d
g
维后,作为EE

GCN神经网络中第1层的输入状态,层中每个节点的向量通过边表示张量聚合邻居节点更新,L为EE

GCN神经网络的层数;将各个节点的最终表示输入全连接网络,使用Softmax函数计算所有事件类型的概率分布,将概率最大的事件标签作为分类结果并输出,使用有偏损失函数来增强事件标签对训练过程的影响。2.根据权利要求1所述的图神经网络事件检测模型的鲁棒性分析方法,其特征在于,层中每个节点的向量通过边表示张量聚合邻居节点更新,层l的输出状态如下:层l的输出状态如下:分别是第l层中各个通道的节点表示,p是通道数;具体而言,聚合是在边表示张量中逐通道进行的,如下所示:其中,Pool表示平均池化操作,用于压缩所有通道的信息,是一个可学习的参数,是ReLU激活函数。3.根据权利要求2所述的图神经网络事件检测模型的鲁棒性分析方法,其特征在于,层中各边的向量更新如下所示:其中,是一个可学习的参数,表示连接操作,是第l层中第i
个节点的表示,是第l层中第j个节点的表示,n是节点数量。4.根据权利要求1所述的图神经网络事件检测模型的鲁棒性分析方法,其特征在于,所述使用Softmax函数计算所有事件类型的概率分布的公式如下:其中,为各个节点的最终表示,将最...

【专利技术属性】
技术研发人员:王懋韦晖刘丽华吴继冰肖开明朱汉卿杨皓宇
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1