System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种面向农业气象灾害的零样本事件关系抽取方法技术_技高网

一种面向农业气象灾害的零样本事件关系抽取方法技术

技术编号:43333533 阅读:64 留言:0更新日期:2024-11-15 20:30
本发明专利技术公开了一种面向农业气象灾害的零样本事件关系抽取方法,属于自然语言处理技术领域,包括如下步骤:步骤1、获取农业气象灾害句子,根据句子中事件的关系利用在线开放资源库获取关系对应的关系描述和同义词,构建数据集并进行预处理;步骤2、基于语义匹配和自注意力机制构建农业气象灾害零样本事件关系抽取模型;步骤3、利用数据集进行模型训练并测试,在多任务学习结构下训练模型,在测试阶段利用最近邻搜索算法对输入的新句子进行零样本关系预测。本发明专利技术能够实现对未定义或者未观察到的农业气象灾害事件之间的新关系进行预测。

【技术实现步骤摘要】

本专利技术属于自然语言处理,具体涉及一种面向农业气象灾害的零样本事件关系抽取方法


技术介绍

1、事件关系抽取是自然语言处理领域的一项重要任务,旨在推断给定句子中两个事件之间的语义关系。比如从句子“**等地连续降雪加之气温骤降,导致蔬菜大棚等设施垮塌损毁”中可以抽取事件“连续降雪加之气温骤降”和事件“蔬菜大棚等设施垮塌损毁”之间的关系是“导致”。正确抽取农业气象灾害事件之间的关系是构建农业气象灾害事理图谱的关键环节。现有方法通常将关系抽取任务定义为一个多分类问题,基于已有标签的数据中训练模型,需要依赖大量的人工标注数据,缺乏泛化能力,在对未见关系的抽取中应用受限。虽然最近的一些研究基于远程监督生成标记数据,然而当将关系抽取任务应用于实际场景时,现有的监督模型无法很好地识别那些在训练数据中极为罕见甚至从未涵盖的事件之间的关系。

2、为了避免对农业气象灾害相关的数据进行高昂的人工标注,研究者们开始探索零样本关系抽取方法,即模型可以对未定义或未观察到的新关系进行预测。现有的面向农业气象灾害事件关系的抽取的零样本方法有基于prompt模板的方法、基于文本蕴含的方法和基于语义匹配的方法等。prompt技术通过给预训练模型提供提示,激发其处理下游任务所需的隐藏知识,但是prompt模板需要手动构建,费时费力,同时手动构建的模板无法覆盖所有的情况,导致模型的泛化能力受限。文本蕴涵揭示了两个文本之间的内在逻辑关系,但是对文本的理解要求较高,如果文本蕴含的关系复杂或者模糊,模型可能无法准确推断出正确的关系。语义匹配方法不仅学习标签与文本的对应关系,还评估文本间的语义相似性,逐渐成为农业气象灾害领域零样本事件关系抽取的主流方法。

3、然而,现有的基于语义匹配的零样本事件关系抽取方法未能深入挖掘关系属性信息,并且对句子的关键信息关注不足。基于此,本专利技术提出了一种面向农业气象灾害的基于自注意力机制和语义匹配的零样本事件关系抽取方法。


技术实现思路

1、为了解决上述问题,本专利技术提出了一种面向农业气象灾害的零样本事件关系抽取方法,基于语义匹配、bert编码器和自注意力机制构建农业气象灾害零样本事件关系预测模型,利用该模型能够实现对未定义或者未观察到的农业气象灾害事件间新关系进行预测。

2、本专利技术的技术方案如下:

3、一种面向农业气象灾害的零样本事件关系抽取方法,包括如下步骤:

4、步骤1、获取农业气象灾害句子,根据句子中事件的关系利用在线开放资源库获取关系对应的关系描述和同义词,构建数据集并进行预处理;

5、步骤2、基于语义匹配和自注意力机制构建农业气象灾害零样本事件关系抽取模型;

6、步骤3、利用数据集进行模型训练并测试,在多任务学习结构下训练模型,在测试阶段利用最近邻搜索算法对输入的新句子进行零样本关系预测。

7、进一步地,所述步骤1中,构建数据集并进行预处理的过程为:将具有同样关系的农业气象灾害句子放在同一个集合内,并且在输入句子中插入四个特殊标记[eh]、[\eh]、[et]和[\et],[eh]和[\eh]分别标记头部事件的开始和结束;[et]和[\et]分别标记尾部事件的开始和结束;对关系描述和同义词以整个序列的方式进行处理,若农业气象灾害事件间的关系没有对应的关系描述或没有同义词,则将关系描述和关系描述的整个序列填充为“default”。

8、进一步地,所述步骤2的具体过程为:

9、步骤2.1、构建编码模块,编码模块包括关系属性编码和句子属性编码两部分;

10、步骤2.2、构建模型训练的目标函数。

11、进一步地,所述步骤2.1中,关系属性编码的具体过程为:

12、首先,将关系r对应的自然语言关系描述dr={dr1,dr2,...,drk}输入到bert编码器中,生成句子级表示作为关系r对应的关系描述向量dr;k为关系描述中包含的词的个数;drk为关系r的关系描述中的第k个词;

13、然后,将关系r对应的同义词sr={sr1,sr2,...,srl}输入到bert编码器中,获取同义词向量sr;l为关系r所拥有的同义词个数;srl为关系r的第l个同义词;

14、最后,将dr与sr进行求和,得到最终的关系r对应的关系属性向量公式如下:

15、

16、其中,的维度是

17、进一步地,所述步骤2.1中,句子属性编码的具体过程为:

18、首先,将关系r对应的农业气象灾害句子xs={xs1,xs2,...,xsn}输入到bert编码器中,生成每个词的向量表示;n为句子xs中包含的词的个数;xsn为句子xs的第n个词;公式如下:

19、h=bert(xs1,xs2,...,xsn) (2);

20、其中,h为bert编码器生成的句子xs的语义向量;bert(·)为bert编码器计算;

21、然后,利用自注意力机制进行上下文表示,计算公式如下:

22、q=wq*h (3);

23、v=wv*h (4);

24、k=wk*h (5);

25、

26、h′=β*v (7);

27、其中,q为新查询矩阵;v为新值矩阵;k为新键矩阵;wq、wk和wv分别为计算q、k和v的参数矩阵;β为句子xs的权重值;softmax(·)为softmax函数;t为转置符号;是隐藏层的维度;h′为上下文向量;

28、再然后,通过平均每个词的向量,获得两个事件的隐藏状态向量,公式如下:

29、

30、其中,为事件c的隐藏状态向量;当c为1时表示事件1的隐藏状态向量c为2时表示事件2的隐藏状态向量we、be为不同的参数;tanh(·)为tanh激活函数;en为索引范围上限;st为索引范围下限;t为索引序号;ht为索引为t的词的语义向量;

31、最后,通过拼接h′、和来学习句子属性向量,公式如下:

32、

33、其中,为句子xs对应的句子属性向量;w和b是不同的可学习参数;是拼接运算符。

34、进一步地,所述步骤2.2的具体过程为:

35、将关系属性向量与softmax层相结合,在可见关系上生成分类概率分布,如下公式所示:

36、

37、其中,p(·)为分类概率分布;ys∈ys为可见关系,ys为所有的可见关系;θ为模型参数,w*为参数矩阵;b*为偏置项;

38、目标函数l如下所示:

39、

40、其中,α为平衡系数;i为样本序号;n是样本总数;γ为阈值;为样本i的句子属性向量;j为负样本序号;为负样本j的句子属性向量;为样本i的关系;为样本i的预测关系。

41、进一步地,所述步骤3的具体过程为:

42、步骤3.1、随机从数据集中选择5个关系作为验证集,分别选取5、10本文档来自技高网...

【技术保护点】

1.一种面向农业气象灾害的零样本事件关系抽取方法,其特征在于,包括如下步骤:

2.根据权利要求1所述面向农业气象灾害的零样本事件关系抽取方法,其特征在于,所述步骤1中,构建数据集并进行预处理的过程为:将具有同样关系的农业气象灾害句子放在同一个集合内,并且在输入句子中插入四个特殊标记[EH]、[\EH]、[ET]和[\ET],[EH]和[\EH]分别标记头部事件的开始和结束;[ET]和[\ET]分别标记尾部事件的开始和结束;对关系描述和同义词以整个序列的方式进行处理,若农业气象灾害事件间的关系没有对应的关系描述或没有同义词,则将关系描述和同义词的整个序列填充为“DEFAULT”。

3.根据权利要求1所述面向农业气象灾害的零样本事件关系抽取方法,其特征在于,所述步骤2的具体过程为:

4.根据权利要求3所述面向农业气象灾害的零样本事件关系抽取方法,其特征在于,所述步骤2.1中,关系属性编码的具体过程为:

5.根据权利要求4所述面向农业气象灾害的零样本事件关系抽取方法,其特征在于,所述步骤2.1中,句子属性编码的具体过程为:

6.根据权利要求5所述面向农业气象灾害的零样本事件关系抽取方法,其特征在于,所述步骤2.2的具体过程为:

7.根据权利要求6所述面向农业气象灾害的零样本事件关系抽取方法,其特征在于,所述3的具体过程为:

...

【技术特征摘要】

1.一种面向农业气象灾害的零样本事件关系抽取方法,其特征在于,包括如下步骤:

2.根据权利要求1所述面向农业气象灾害的零样本事件关系抽取方法,其特征在于,所述步骤1中,构建数据集并进行预处理的过程为:将具有同样关系的农业气象灾害句子放在同一个集合内,并且在输入句子中插入四个特殊标记[eh]、[\eh]、[et]和[\et],[eh]和[\eh]分别标记头部事件的开始和结束;[et]和[\et]分别标记尾部事件的开始和结束;对关系描述和同义词以整个序列的方式进行处理,若农业气象灾害事件间的关系没有对应的关系描述或没有同义词,则将关系描述和同义词的整个序列填充为“default”。

...

【专利技术属性】
技术研发人员:赵华白雪洋曾庆田倪维健郭文艳程成许士霄张希文宋青华梁金国
申请(专利权)人:山东科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1