基于对比学习和数据增强的零样本事件抽取系统及方法技术方案

技术编号:34033471 阅读:20 留言:0更新日期:2022-07-06 11:42
本发明专利技术公开了自然语言处理技术领域的基于对比学习和数据增强的零样本事件抽取系统及方法,包括:获取数据集后,划分为已知事件和未知事件;重写未知事件的事件描述文本;将已知事件、未知事件和经过事件描述重写的未知事件组成正负样本对;将正负样本对输入事件编码器,生成对应的特征向量;基于特征向量计算对比损失函数值后,通过梯度回传更新事件编码器中的模型参数;基于更新后事件编码器输出的特征向量输入进行分类与聚类。本发明专利技术通过对比同类与异类样本的方式,充分利用已知事件的标注数据与未知事件的无标注样本,实现对未知事件类型的自动发现并归类。类型的自动发现并归类。类型的自动发现并归类。

【技术实现步骤摘要】
基于对比学习和数据增强的零样本事件抽取系统及方法


[0001]本专利技术涉及基于对比学习和数据增强的零样本事件抽取系统及方法,属于自然语言处理


技术介绍

[0002]自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。
[0003]现有零样本解决方案,要么需要预定义的事件类型作为启发规则,要么只具备了区别已知与未知事件的能力,无法进一步归类发现的未知事件。

技术实现思路

[0004]本专利技术的目的在于克服现有技术中的不足,提供基于对比学习和数据增强的零样本事件抽取系统及方法,通过对比同类与异类样本的方式,充分利用已知事件的标注数据与未知事件的无标注样本,实现对未知事件类型的自动发现并归类。
[0005]为达到上述目的,本专利技术是采用下述技术方案实现的:
[0006]第一方面,本专利技术提供了基于对比学习和数据增强的零样本事件抽取方法,包括:
[0007]获取数据集后,划分为已知事件和未知事件;
[0008]重写未知事件的事件描述文本;
[0009]将已知事件、未知事件和经过事件描述重写的未知事件组成正负样本对;
[0010]将正负样本对输入事件编码器,生成对应的特征向量;
[0011]基于特征向量计算对比损失函数值后,通过梯度回传更新事件编码器中的模型参数;
[0012]基于更新后事件编码器输出的特征向量输入进行分类与聚类。
[0013]进一步的,将数据集划分为已知事件和未知事件,包括:将数据集中所有事件类别按样本数降序排列,取降序排列中偶数位的类别为已知类别,取奇数位类别为未知类别,其中,样本数小于指定数额的事件类别被删除。
[0014]进一步的,重写未知事件的事件描述文本,包括:对未知事件描述进行词性标记,对所有的非名词与动词执行随机的近义词替换,保留事件触发词不被修改。
[0015]进一步的,将正负样本对输入事件编码器,生成对应的特征向量,包括:
[0016]通过单词编码映射为低维度的单词编码向量E=[e0,e1,...,e
L
];
[0017]将单词编码向量E输入预训练的BERT编码器,得到包含文本信息的上下文向量C=BERT(E)=[c0,c1,...,c
L
],使用BERT模型中的分类标记CLS对应的输出向量c0作为整个事
件描述文本的输出向量;
[0018]对输出向量c0经过一个全连接层和一个激活函数降维,成为时间编码器的输出隐向量h=σ(W
h
c0+b
h
),其中w
h
和b
h
是全连接层参数,σ是非线性激活函数sigmoid。
[0019]进一步的,所述对比损失函数为:
[0020][0021]其中,N为样本数,y为类别标记,d为x1和x2隐向量h1和h2的欧氏距离, margin为表示不同类样本之间被拉开距离的超参数。
[0022]进一步的,基于更新后事件编码器输出的特征向量输入进行分类与聚类,包括:将输出的特征向量输入分类器以判别已知事件的类型,以及将输出的特征向量输入聚类器完成对未知事件的聚类任务。
[0023]进一步的,特征向量输入分类器后通过K近邻算法实现对已知事件的分类,特征向量输入聚类器后通过K均值算法对未知事件完成聚类。
[0024]第二方面,本专利技术提供了基于对比学习和数据增强的零样本事件抽取系统,包括:
[0025]划分模块:用于获取数据集后,划分为已知事件和未知事件;
[0026]重写模块:用于重写未知事件的事件描述文本;
[0027]组对模块:用于将已知事件、未知事件和经过事件描述重写的未知事件组成正负样本对;
[0028]事件编码模块:用于将正负样本对输入事件编码器,生成对应的特征向量;
[0029]模型更新模块:用于基于特征向量计算对比损失函数值后,通过梯度回传更新事件编码器中的模型参数;
[0030]分类与聚类模块:用于基于更新后事件编码器输出的特征向量输入进行分类与聚类。
[0031]第三方面,本专利技术提供了基于对比学习和数据增强的零样本事件抽取装置,包括处理器及存储介质;
[0032]所述存储介质用于存储指令;
[0033]所述处理器用于根据所述指令进行操作以执行根据上述任一项所述方法的步骤。
[0034]第四方面,本专利技术提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述方法的步骤。
[0035]与现有技术相比,本专利技术所达到的有益效果:
[0036]本专利技术提出了一种基于对比学习的零样本事件抽取模型,通过对比同类与异类样本的方式,充分利用已知事件的标注数据与未知事件的无标注样本,实现对未知事件类型的自动发现并归类;通过数据增强的方式给对比学习过程中未标注的未知事件提供了同类样本;对事件描述进行改写时,引入词性等特征,找到语义相似的词进行替换改写并保持文本整体语义相似的技术;对事件描述铏编码时,引入对比学习损失函数学习文本向量表征间的空间距离信息,最后得到一个高质量的文本向量表征的技术。
附图说明
[0037]图1是本专利技术实施例一提供的事件抽取模型的总体架构图;
[0038]图2是本专利技术实施例一提供的事件编码器的架构图。
具体实施方式
[0039]下面结合附图对本专利技术作进一步描述。以下实施例仅用于更加清楚地说明本专利技术的技术方案,而不能以此来限制本专利技术的保护范围。
[0040]实施例一:
[0041]基于对比学习和数据增强的零样本事件抽取方法,模型训练时,已知事件、未知事件和经过事件描述重写的未知事件一起组成正负样本对。正样本对包含两个事件类型相同的样本,负样本对包含两个事件类型不同的样本。这些样本输入事件编码器,生成对应的特征向量。后者被用于计算对比损失函数值,进而通过梯度回传更新事件编码器中的模型参数。模型推理时,输出的特征向量将被输入分类器或者聚类器,以判别已知事件的类型或者完成对未知事件的聚类任务。该方法由基于对比学习和数据增强的零样本事件抽取系统(Zero

ShotEventExtractionBasedonContrastiveLearning,简称ZECL)实现,在零样本事件抽取领域提供更好的准确度。系统结构主要包括:S1数据集输入模块、S2事件描述重写器、S3事件本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于对比学习和数据增强的零样本事件抽取方法,其特征是,包括:获取数据集后,划分为已知事件和未知事件;重写未知事件的事件描述文本;将已知事件、未知事件和经过事件描述重写的未知事件组成正负样本对;将正负样本对输入事件编码器,生成对应的特征向量;基于特征向量计算对比损失函数值后,通过梯度回传更新事件编码器中的模型参数;基于更新后事件编码器输出的特征向量输入进行分类与聚类。2.根据权利要求1所述的基于对比学习和数据增强的零样本事件抽取方法,其特征是,将数据集划分为已知事件和未知事件,包括:将数据集中所有事件类别按样本数降序排列,取降序排列中偶数位的类别为已知类别,取奇数位类别为未知类别,其中,样本数小于指定数额的事件类别被删除。3.根据权利要求1所述的基于对比学习和数据增强的零样本事件抽取方法,其特征是,重写未知事件的事件描述文本,包括:对未知事件描述进行词性标记,对所有的非名词与动词执行随机的近义词替换,保留事件触发词不被修改。4.根据权利要求1所述的基于对比学习和数据增强的零样本事件抽取方法,其特征是,将正负样本对输入事件编码器,生成对应的特征向量,包括:通过单词编码映射为低维度的单词编码向量E=[e0,e1,...,e
L
];将单词编码向量E输入预训练的BERT编码器,得到包含文本信息的上下文向量C=BERT(E)=[c0,c1,...,c
L
],使用BERT模型中的分类标记CLS对应的输出向量c0作为整个事件描述文本的输出向量;对输出向量c0经过一个全连接层和一个激活函数降维,成为时间编码器的输出隐向量h=σ(W
h
c0+b
h
),其中w
h
和b
h...

【专利技术属性】
技术研发人员:纪焘邱震宇朱冰朱德伟周一航张森辉孔维璟纪文迪吴苑斌王晓玲
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1