一种基于提示微调的事件检测方法技术

技术编号：40529108 阅读：7 留言：0更新日期：2024-03-01 13:49

本发明专利技术公开了一种基于提示微调的事件检测方法，包括：文本预处理；构建分类模型，并训练分类器；构建可学习的提示，引入一个BART编码器，将原始的离散提示信息转换成可学习的提示；构建生成模型，并训练生成器；联合训练，在训练阶段同时训练分类模型和生成模型，并通过动态调整损失权重进一步优化上述模型；使用训练完成的语言模型，对输入的文本进行检测，完成基于提示微调的事件检测。本发明专利技术结合了当前自然语言处理领域流行的提示学习范式，解决了传统事件检测任务中无法充分利用事件类型标签信息这一问题，并在相关数据集上取得了不错的表现，能够有效地抽取出文本中包含的事件和对应的触发词，具有一定的实际应用价值。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种事件检测方法，特别是一种基于提示微调的事件检测方法。

技术介绍

1、作为信息的主要载体，文本中所蕴含的内容对于人类社会生活的重要性不言而喻。随着大数据时代的来临，仅凭人类自身的阅读理解速度，想从浩如烟海的文本中定位我们所需要的信息这一过程是非常繁琐冗余的，因此，如何精确而快速地从文本中提取对我们有价值的信息(信息抽取)至关重要。作为信息抽取的一个子任务，事件检测任务的定义是从无结构的文本中抽取事件的类型、事件的触发词(标志某一事件发生的词语)。

2、在对此方向的研究和实践过程中，传统的事件检测方法大多都是基于序列标注的方案，即判断文本中每个词是否是事件的触发词，这种方法虽然简洁，但往往忽略了事件类型标签中所包含的语义信息；同时，随着提示学习范式的兴起，提示中通常都包含着事件类型标签的信息，因此也有研究者通过构造提示模板来完成事件检测任务，然而，这些方法基本上都是使用的是离散的、固定的手工提示，并不能保证其是最适合当前任务的。

技术实现思路

1、专利技术目的：本专利技术所要解决的技术问题是针对现有技术的不足，提供一种基于提示微调的事件检测方法。

2、为了解决上述技术问题，本专利技术公开了一种基于提示微调的事件检测方法，包括如下步骤：

3、步骤s1：文本预处理，将原始数据集切分成训练集、验证集和测试集，并将输入的原始文本数据集转换为符合bart模型的输入形式；

4、步骤s2：构建分类模型，并训练分类器，通过获取原始文本的

5、步骤s3：构建可学习的提示，引入一个bart编码器，将原始的离散提示信息转换成可学习的提示；

6、步骤s4：构建生成模型，并训练生成器，所述生成器的编码端输入为原始文本的嵌入表示，解码端输入为步骤s3中得到的可学习的提示，两部分共同引导生成模型生成事件的触发词；

7、步骤s5：联合训练，在训练阶段同时训练分类模型和生成模型，并通过动态调整损失权重进一步优化上述模型；

8、步骤s6：使用训练完成的上述模型，对输入的文本进行检测，完成基于提示微调的事件检测。

9、进一步的，步骤s1中所述的文本预处理，具体包括：

10、步骤s11：数据切分和读取：先按照8：1：1的比例将数据集切分成训练集、验证集和测试集三部分，随后解析输入的原始文本数据集中的文件，得到每个样本的原始文本、事件类型标签、事件触发词标签、待生成目标文本和事件类型提示模板；

11、步骤s12：数据清洗，去除原始文本中包含的非正文的冗余内容；

12、步骤s13：数据标注，以预设的比例为样本的事件触发词做预设的标记，即在所述事件触发词前后分别添加触发词开始标记<trigger>和触发词结束标记</trigger>。

13、进一步的，步骤s2中所述的构建分类模型，并训练分类器，具体包括：

14、步骤s21：通过分词器对每个原始文本进行编码，得到文本标记序列及文本注意力标记；

15、步骤s22：将文本标记序列和文本注意力标记共同作为bart编码器的输入，获取原始文本中句子的隐藏层表示；

16、步骤s23：构造一个多层感知机，将获取的句子的隐藏层表示向量映射到标签维度，所述标签维度为原始文本数据集中的每个样本的事件类型总数，与步骤s11中所述的事件类型标签进行交叉熵运算，得到分类损失l1用于后续训练。

17、进一步的，步骤s3中所述的原始的离散提示信息，至少包括：事件类型的描述和触发词的描述。

18、进一步的，步骤3中所述的构建可学习的提示，具体包括：

19、步骤s31：根据步骤s11中所述的的事件类型提示模板，通过分词器将每个事件类型提示模板编码为提示模板标记序列和提示模板注意力标记；

20、步骤s32：将提示模板标记序列送入另一个bart编码器中，得到提示模板部分的上下文表示，即可学习的提示。

21、进一步的，步骤4中所述的构建生成模型，并训练生成器，具体包括：

22、步骤s41：所述生成模型采用bart框架，其中，编码端输入步骤s21中获取的文本标记序列和文本注意力标记，解码端输入步骤s32中得到的可学习的提示和步骤s31中得到的提示模板注意力标记；

23、步骤s42：获取生成模型的生成结果，并与步骤s11中所述的待生成目标文本计算交叉熵，得到生成损失l2用于后续训练。

24、进一步的，步骤s41中所述的生成模型采用bart框架，具体包括：

25、所述生成模型，由编码端和解码端两部分构成；其中，编码端用于对输入序列进行编码和建模，解码端用于根据编码端的输出生成目标序列。

26、进一步的，步骤5中所述的联合训练，具体包括：

27、步骤s51：将分类损失l1和生成损失l2加权相加，权值分别为w1和w2；

28、步骤s52：在训练集上每训练一轮后，就在验证集上重新计算一次分类损失l1’和生成损失l2’，根据当前验证集上w1*l1’和w2*l2’的比值来调整w1和w2，使得w1*l1’和w2*l2’的值相等；

29、步骤s53：根据上述损失反向传播，不断迭代，直至到达最大迭代轮数，完成所述联合训练。

30、进一步的，步骤s11中所述的事件类型标签，为独热码标签形式。

31、进一步的，步骤s51中所述的权值w1和w2的初始值均为1。

32、有益效果：

33、本专利技术提出的方法，在引入了事件类型标签语义信息的同时，结合了当前提示学习范式中的提示微调策略，将原始的离散提示转化为可学习的软提示，最终能够得到适合任务的提示。通过在相关数据集上的实验结果对比，本专利技术的效果能够超过大多数的生成式事件检测方案，进一步证明了本专利技术的可行性。

本文档来自技高网...

【技术保护点】

1.一种基于提示微调的事件检测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于提示微调的事件检测方法，其特征在于，步骤S1中所述的文本预处理，具体包括：

3.根据权利要求2所述的一种基于提示微调的事件检测方法，其特征在于，步骤S2中所述的构建分类模型，并训练分类器，具体包括：

4.根据权利要求3所述的一种基于提示微调的事件检测方法，其特征在于，步骤S3中所述的原始的离散提示信息，至少包括：事件类型的描述和触发词的描述。

5.根据权利要求4所述的一种基于提示微调的事件检测方法，其特征在于，步骤3中所述的构建可学习的提示，具体包括：

6.根据权利要求5所述的一种基于提示微调的事件检测方法，其特征在于，步骤4中所述的构建生成模型，并训练生成器，具体包括：

7.根据权利要求6所述的一种基于提示微调的事件检测方法，其特征在于，步骤S41中所述的生成模型采用BART框架，具体包括：

8.根据权利要求7所述的一种基于提示微调的事件检测方法，其特征在于，步骤5中所述的联合训练，具体包括：

...

【技术特征摘要】

1.一种基于提示微调的事件检测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于提示微调的事件检测方法，其特征在于，步骤s1中所述的文本预处理，具体包括：

3.根据权利要求2所述的一种基于提示微调的事件检测方法，其特征在于，步骤s2中所述的构建分类模型，并训练分类器，具体包括：

4.根据权利要求3所述的一种基于提示微调的事件检测方法，其特征在于，步骤s3中所述的原始的离散提示信息，至少包括：事件类型的描述和触发词的描述。

5.根据权利要求4所述的一种基于提示微调的事件检测方法，其特征在于，步骤3中所述的构建可学习的提示，具体包括：

6.根据权利...

【专利技术属性】
技术研发人员：胡莫闲，周沧琦，
申请(专利权)人：南京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人