System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于标签增强的双视角层次化对比学习的隐式篇章关系识别方法技术_技高网
当前位置: 首页 > 专利查询>天津大学专利>正文

基于标签增强的双视角层次化对比学习的隐式篇章关系识别方法技术

技术编号:40059816 阅读:2 留言:0更新日期:2024-01-16 22:30
本发明专利技术公开一种基于标签增强的双视角层次化对比学习的隐式篇章关系识别方法,包括以下步骤:(1)采用预训练语言模型对论元对实例以及层次化标签编码,捕获包含上下文语义交互信息的论元对实例表示和标签表示;(2)标签增强的双视角层次化对比学习:将层次标签语义信息融入对比学习,基于层次性标签对比和论元与标签对比的角度,实现多层次标签条件下同类别样本特征聚集;(3)预测和对比联合学习:实现多层次篇章关系分类,采用交叉熵损失函数计算多类别预测损失,并结合(2)中标签增强的双视角层次对比学习损失,更新模型参数信息。

【技术实现步骤摘要】

本专利技术涉及自然语言处理中篇章分析,尤其是涉及篇章关系识别技术,具体为基于标签增强的双视角层次化对比学习的隐式篇章关系识别方法


技术介绍

1、隐式篇章关系识别旨在无连接词作为指示信息的情况下,识别两个相邻文本片段(如句子、从句、段落,又称论元)间的潜在逻辑关联。由于缺少连接词指示信息,识别两个论元间的逻辑关系需要深入理解上下文语义信息、捕获论元间语义交互线索,该任务具有挑战性。同时作为基础的篇章分析任务,识别论元间逻辑关系可以为机器翻译、文本摘要、文本生成等任务提供技术支撑,具有深入研究的必要性。此任务常用语料库为宾州篇章关系数据,该语料库标签具有层次性,高层级的标签指示更细化粒度的语义的语义信息,标注者对隐式连接词进行了标注,隐式连接词可以视为最细粒度的标签语义。

2、隐式篇章关系识别任务存在数据稀缺的问题,模型难以精确学习编码的论元对与篇章关系的映射关系。此外,基于语料库具有层次化标签的特点,我们需要建模论元对与多层篇章关系间的层次化语义约束。

3、早期研究大多基于人类构建的语言学特征(如情感极性、实体特征、词汇以及句法特征)进行概率统计模型的构建,增强对篇章关系的理解。随着深度学习快速发展,一些研究采用捕获论元局部特征的cnn和建模序列化文本的lstm来编码论元或关系特征,但是该类工作并未深层次挖掘论元对之间的交互模式。随后,注意力机制受到广泛关注并被应用于篇章关系识别任务,其可以自然的捕获论元内重要信息,并实现论元间的深度语义交互。

4、前人工作采用基于知识图谱补充额外三元组知识辅助关系识别的方法来缓解数据稀缺问但此类方法所引入的知识为泛化的、非任务特定的知识,也会带来噪声。语料库标签可以视为特定任务的、具有针对性的知识。基于标签感知类的工作主要分为三类:1)从几何空间构建篇章-关系三元组,联合语义空间建模篇章关系,辅助识别任务;2)利用标签间依赖信息来丰富论元表示;3)采用对比学习促进同类别样本聚集:着重于难负样本的挑选,将第二层级标签相同或第三层级标签相同的论元对实例视为互为正样本,将第二层级标签不同,但第一层级标签相同的论元视为互为负样本,拉近正样本间距离并拉远负样本之间的距离,该方法不利于第一层级分类效果。总体来讲,上述工作:1)并未充分利用标签知识本身蕴含的语义信息;2)并未约束论元对实例与相应的多层标签之间的语义关联:论元与细粒度标签之间相似度应该高于其与粗粒度标签相似度。

5、基于上述分析,探索编码论元标签知识至潜和构建层次化语义约束对提升隐式篇章关系识别效果十分重要。


技术实现思路

1、本专利技术的目的是为了补充现有技术中的不足,提供一种将标签知识融入对比学习的隐式篇章关系识别框架,构建论元关系实例与多层级标签间的层次化语义约束。

2、本专利技术提出了一种基于标签增强的双视角层次化对比学习的隐式篇章关系识别方法,该方法充分利用标签语义知识,并建立论元关系实例与多层级标签间的层次化语义关联。已被证明可以有效提升隐式篇章关系的识别准确率。

3、具体而言,本专利技术方法主要包括如下部分:篇章关系预测部分,双视角层次化对比学习模块。1)篇章关系预测部分:基于连接词多出现于两个论元句衔接处的分布特性,构建相应的提示学习模板。采用预训练编码器编码论元实例,抽取出连接词对应位置的隐藏层表示并送入并行的多层感知机模块,预测多层篇章关系,利用加权的多个交叉熵损失更新预训练编码器。1)部分可以实现多层篇章关系的预测,并构建论元实例与多层级标签间的具有层次化的语义关系,丰富论元实例表示。我们认为,论元实例围绕着相应的层次化标签呈现层次性聚集有利于分类器分割线性语义空间。具体的,假设存在class1标签以及其两个下层分支标签type1和type2,带有class1标签的论元实例会围绕着class1标签聚集成较大的簇,同时具有type1和type2标签的论元实例会分别围绕着其对应的标签聚集成两个子簇。基于如上思考,我们提出了:2)双视角层次化对比学习模块。该模块旨在实现论元关系实例与连接词层级标签相似度高于其与type层级标签相似度高于其与class层级标签相似度,分为层次性标签对比(a)、论元与标签(b)对比的两个角度。a-视角:将连接词层级标签视为锚点,分层选取type和class层级标签作为样本。当type层的标签为样本时,最大化连接词层标签与其所属type层标签表示间的相似度,最小化其与type层非对应标签间的相似度。当选择class层标签为样本时,对比思想类似。同时,进行标签间的层次性约束,即连接词层标签与type层标签表示的相似度高于其与class层标签间的相似度。b-视角:以论元关系为锚点,选取连接词层级标签作为样本。最大化论元关系与其连接词层级所属标签间的相似度,最小化与非对应标签间的相似度。两个视角相互增强,构建了论元关系实例与多层级标签间的层次化语义约束。

4、本专利技术的目的通过以下技术方案实现:

5、一种基于标签增强的双视角层次化对比学习的隐式篇章关系识别方法,具体包括以下步骤:

6、(101)捕获论元实例及标签表示:采用预训练编码器对论元对实例及多层次标签进行特征编码,获取对应的隐藏层表示。

7、论元对实例编码:本专利技术构造论元对提示学习模板设计为p=[cls]+arg1+[mask]+

8、arg2+[sep],并利用roberta编码器plm捕获篇章论元实例的表示v,将[mask]词对应位置的表征表示为论元实例表示r,如公式(1)、(2)所示。

9、v=[v0,...,v[mask],...,vn]=plm(p)  (1)

10、r=v[mask]  (2)

11、其中,[cls]、[sep]分别指示句子首位、分割符,[mask]为掩码词,plm为roberta预训练编码器,v∈rc×d,c为输入提示学习模板的词长度,d为词向量的维度。

12、层次化标签编码:将m个层级的标签添加至列表l,采用预训练嵌入层roberta_emb将分词后的标签填充为相同的长度,如公式(3)(4)所示。

13、l=[l1,l2,...,lm]  (3)

14、t=roberta_emb(l)  (4)

15、其中,l是所有标签的集合,li为第i层的语义标签集合,li={lij|0≦j≦ni,j∈n+},ni为第i层标签总数。

16、将分词后的标签沿着词长度维度dim=1加和,送入预训练编码器plm,获取论元实例表示h,如公式(5)、(6)所示,其中,sum为聚合操作,

17、t′=sum(t,dim=1)  (5)

18、h=plm(t')=[h1,h2,...,hm]  (6)

19、(102)双视角层次化对比学习:

20、该模块旨在建模论元实例与其对应的多层级标签的层次化语义约束。给定论元对实例x=(arg1,arg2),基于获取的论元实例r及标本文档来自技高网...

【技术保护点】

1.一种基于标签增强的双视角层次化对比学习的隐式篇章关系识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述一种基于标签增强的双视角层次化对比学习的隐式篇章关系识别方法,其特征在于,步骤(1)具体包括:

3.根据权利要求1所述一种基于主题-述题理论的分层规划论文摘要生成方法,其特征在于,步骤(2)具体包括:

4.根据权利要求1所述一种基于主题-述题理论的分层规划论文摘要生成方法,其特征在于,步骤(3)具体包括:

5.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上

6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至4任一项所述基于标签增强的双视角层次化对比学习的隐式篇章关系识别方法的步骤。

【技术特征摘要】

1.一种基于标签增强的双视角层次化对比学习的隐式篇章关系识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述一种基于标签增强的双视角层次化对比学习的隐式篇章关系识别方法,其特征在于,步骤(1)具体包括:

3.根据权利要求1所述一种基于主题-述题理论的分层规划论文摘要生成方法,其特征在于,步骤(2)具体包括:

4.根据权利...

【专利技术属性】
技术研发人员:贺瑞芳许静
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1