一种语境对比学习识别模型的构建方法及其应用技术

技术编号：41328992 阅读：25 留言：0更新日期：2024-05-13 15:07

本发明专利技术提供一种语境对比学习识别模型的构建方法及其应用，包括以下步骤：利用自定义模板将样本进行模板化，并拼接得到输入T<subgt;i</subgt;；将T<subgt;i</subgt;输入预训练语言模型进行编码；在对比模块中，模型优化事件对的表示，提取关系信息；预测模块则基于事件表示预测缺失词的概率分布，选择最可能的答案标签；通过训练集训练模型，实现事件因果关系的准确识别。本发明专利技术通过添加带标签语境样本的方式引入显式指导，进一步挖掘预训练语言模型中隐含的因果知识，并采用语境对比学习的方式将语境学习与对比学习有机结合，更充分地利用语境样本中的正负样本，有效的提高了事件因果关系识别的准确度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及事件因果关系识别领域，尤其是涉及一种语境对比学习识别模型的构建方法及其应用。

技术介绍

1、事件因果关系识别(event causality identification，eci)旨在检测文档中两个事件提及之间是否为因果关系。事件因果关系识别任务对自然语言处理(nlp)领域的许多下游任务至关重要，例如问答系统，信息摘要等，同时在真实场景中也有着广泛的应用，例如事件预测等。针对事件因果关系识别任务，现在已经开发出了多种技术，最近的方法大致上可以分为基于图结构的学习范式和基于提示学习的学习范式。

2、传统的使用图结构解决事件因果关系识别任务的工作主要分类两种技术路线：节点分类和边预测。节点分类的方法致力于通过图神经网络在图结构上聚合文档级的语义信息，不断更新节点的表示使其表示向量蕴含更丰富的语义信息，最终根据两个节点的表示判断两者之间是否有因果关系；边预测的方法则将关注的重点转移到对图中边的研究，通过图神经网络等方式不断对图进行更新，最后根据各个节点之间边的状态判断两个事件是否有因果关系。

3、提示学习范式的基本思想则是利用预训练语言模型(pre-trained languagemodel)本身所蕴含的语义知识完成下游任务。通常是把下游任务通过设计合适的提示模板转化为预训练语言模型的预训练任务(mlm任务)的形式。具体来讲就是结合下游任务的输入设计合适的提示模板，以完形填空的形式向预训练语言模型提问，然后将预训练语言模型的回答映射到对应的标签，从而完成下游任务。对于事件因果关系识别任务，在一些研

技术实现思路

1、本专利技术的主要目的在于提供一种语境对比学习识别模型的构建方法及其应用，解决现有的基于提示学习的事件因果关系识别方法提示模板设计耗费大量资源且普适性较差的问题。

2、为解决上述技术问题，本专利技术所采用的技术方案是：一种语境对比学习识别模型的构建方法，包括以下步骤：

3、s1、模板构建模块：基于自定义的两种模板tq(q)、tg(dk)，将语境样本q、待预测样本dk模板化并拼接得到ti作为输入；

4、s2、预训练网络编码：将ti输入预训练语言模型进行编码，得到各个样本中事件以及待预测样本中[mask]的表示向量，分别用作对比学习模块和预测模块的输入；

5、s3、对比模块和预测模块：对比模块中，利用对比学习范式对事件对的表示进行优化，通过步骤s3获得的事件表示作为对比模块的初步输入，提取关系信息，并将提取到的关系信息用作对比学习；预测模块中，根据h[mask]预测[mask]处缺失词在全词表上的概率分布，并将其映射至对应答案空间，将概率最大的答案词对应的标签作为预测结果；

6、s4、构建基于语境对比学习的事件因果关系识别模型：通过上述步骤，构建事件因果关系识别模型；

7、s5、训练和测试网络：根据以缩小正样本与待预测样本事件表示之间的距离、扩大负样本与待预测样本事件表示之间的距离、最小化根据h[mask]预测出的缺失词与真实标签的差异为目标，采用训练集训练事件因果关系识别模型。

8、优选方案中，所述步骤s1中，根据所设计的模板tq(q)、tg(dk)，将待预测样本q、语境样本dk进行模板化，并拼接得到ti，具体包括以下步骤：

9、s01、首先按照如下模板分别将待预测样本q和语境样本dk分别模板化：

10、

11、

12、其中，cls和sep为预训练语言模型中的特殊标记，分别代表句子的开头与结束，s1和s2代表事件e1和e2所在的句子，yk∈{<causal＞,<none＞}为语境样本dk的真实标签，分别代表事件对之间有因果关系、无因果关系；

13、s02、将模板化后的语境样本、待预测样本拼接，其中标签为有因果的语境样本在前，然后依次拼接标签为无因果的语境样本和待预测样本，最终得到模型输入ti：

14、

15、其中，语境样本包含m个因果样本和n个非因果样本为了保持训练过程中的一致性，总是将非因果样本拼在因果样本之后，且在训练过程中，针对同一个待预测样本，在不同训练轮次中，会随机选择不同的样本作为语境样本，而在测试阶段，为了保持不同轮次间评价标准的一致性，对相同的待预测样本会选择相同的语境样本并保持同样的顺序进行拼接作为模型的输入。

16、优选方案中，所述步骤s2中，将ti输入预训练语言模型得到输入中每个事件的表示向量以及[mask]的隐层向量，其中，来自的事件对表示记作来自的事件对表示记作来自q的事件对表示记作特殊标记[mask]的表示记作h[mask]；

17、所述预训练语言模型为roberta模型。

18、优选方案中，所述步骤s3中的对比模块，在选择的语境样本中根据标签选择样本选择对比学习过程中的正负样本，即，语境样本中的因果样本为正样本，非因果样本为负样本，然后将步骤s2获得的事件表示作为对比模块的初步输入,提取关系信息，并将提取到的关系信息用作对比学习，具体包括以下子步骤：

19、s11、将在步骤s2中所获得的事件表示作为对比模块的初步输入，并通过相减的方式提取同一个样本中事件对之间的关系信息用作对比学习，关系提取方式如下：

20、

21、

22、

23、s12、将所提取的关系信息用作对比学习，损失计算如下式所示：

24、

25、其中τ为温度系数。

26、优选方案中，所述步骤s3中的预测模块，具体包括以下子步骤：

27、s21、将特殊标记[mask]的隐层向量输入分类器进行预测，首先得到[mask]处缺失词在全词表v的分布概率：

28、p([mask]＝vd∈v|ti(x)) (8)

29、s22、然后将全词表概率映射到由两个虚拟词{＜causal＞,＜none＞}构成的答案空间va：

30、

31、最终得到[mask]处缺失词在答案空间va的概率分布，选择概率高的词作为最终预测，并将其映射为有因果关系{＜causal＞}或无因果关系{＜none＞}。

32、优选方案中，所述步骤s5中，构建s3中所预测的标签与对应的真实标签之间的损失函数lpre，将损失函数lpre和对比模块中的损失函数lcon进行联合训练，以最小化损失函数的方式对事件因果关系识别模型进行训练；

33、其中，所述训练集中的训练样本主要由事件对、事件所在本文档来自技高网...

【技术保护点】

1.一种语境对比学习识别模型的构建方法，其特征是：包括以下步骤：

2.根据权利要求1所述一种语境对比学习识别模型的构建方法，其特征是：所述步骤S1中，根据所设计的模板Tq(q)、Tg(dk)，将待预测样本q、语境样本dk进行模板化，并拼接得到Ti，具体包括以下步骤：

3.根据权利要求1所述一种语境对比学习识别模型的构建方法，其特征是：所述步骤S2中，将Ti输入预训练语言模型得到输入中每个事件的表示向量以及[MASK]的隐层向量，其中，来自的事件对表示记作来自的事件对表示记作来自q的事件对表示记作特殊标记[MASK]的表示记作h[MASK]；

4.根据权利要求1所述一种语境对比学习识别模型的构建方法，其特征是：所述步骤S3中的对比模块，在选择的语境样本中根据标签选择样本选择对比学习过程中的正负样本，即，语境样本中的因果样本为正样本，非因果样本为负样本，然后将步骤S2获得的事件表示作为对比模块的初步输入，提取关系信息，并将提取到的关系信息用作对比学习，具体包括以下子步骤：

5.根据权利要求1所述一种语境对比学习识别模型的构建方法，其特征

6.根据权利要求1所述一种语境对比学习识别模型的构建方法，其特征是：所述步骤S5中，构建S3中所预测的标签与对应的真实标签之间的损失函数Lpre，将损失函数Lpre和对比模块中的损失函数Lcon进行联合训练，以最小化损失函数的方式对事件因果关系识别模型进行训练；

7.一种语境对比学习的识别方法，其特征是：根据待预测数据，选择合适的语境样本，分别使用模板Tq(q)和Tg(dk)进行模板化后拼接作为模型输入，将其输入至如权利要求1-6任一项所述的方法构建的语境对比学习的识别模型，得到识别结果。

8.一种语境对比学习的识别模型构建系统，其特征是：包括计算机可读存储介质和处理器；

9.一种语境对比学习的事件因果关系识别系统，其特征是：根据待预测数据，选择合适的语境样本，分别使用模板Tq(q)和Tg(dk)进行模板化后拼接作为模型输入，将其输入至采用权利要求7所述的方法构建的语境对比学习的识别模型，得到识别结果。

10.一种计算机可读存储介质，其特征是：所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行如权利要求1-6任一项所述的语境对比学习的识别模型的构建方法或如权利要求7所述的语境对比学习的识别方法。

...

【技术特征摘要】

1.一种语境对比学习识别模型的构建方法，其特征是：包括以下步骤：

2.根据权利要求1所述一种语境对比学习识别模型的构建方法，其特征是：所述步骤s1中，根据所设计的模板tq(q)、tg(dk)，将待预测样本q、语境样本dk进行模板化，并拼接得到ti，具体包括以下步骤：

3.根据权利要求1所述一种语境对比学习识别模型的构建方法，其特征是：所述步骤s2中，将ti输入预训练语言模型得到输入中每个事件的表示向量以及[mask]的隐层向量，其中，来自的事件对表示记作来自的事件对表示记作来自q的事件对表示记作特殊标记[mask]的表示记作h[mask]；

4.根据权利要求1所述一种语境对比学习识别模型的构建方法，其特征是：所述步骤s3中的对比模块，在选择的语境样本中根据标签选择样本选择对比学习过程中的正负样本，即，语境样本中的因果样本为正样本，非因果样本为负样本，然后将步骤s2获得的事件表示作为对比模块的初步输入，提取关系信息，并将提取到的关系信息用作对比学习，具体包括以下子步骤：

5.根据权利要求1所述一种语境对比学习识别模型的构建方法，其特征是：所述步骤s3中的预测模块，具体包括以下子步骤：

6.根据权...

【专利技术属性】
技术研发人员：史晓薇，杨旭，沈柯言，鲍正风，翟少军，徐杨，刘亚新，卢佳，汪涛，王锦，冯士琦，刘晓阳，
申请(专利权)人：中国长江电力股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人