【技术实现步骤摘要】
基于对比学习和Adapter网络的隐式篇章关系识别方法及系统
[0001]本专利技术属于自然语言处理
,尤其涉及一种基于对比学习和Adapter网络的隐式篇章关系识别方法及系统。
技术介绍
[0002]随着传统以字、词、短语、句子级别研究的分析方法已经远远不能满足自然语言理解和生成的需要,越来越多的研究者把研究重点从句子级别转向篇章层级。篇章有时也称语篇或话语,通常指由一系列连续的子句、句子或句群构成的,有意义、传达一个完整信息、前后衔接、语义连贯的语言整体单位。篇章之所以受到关注的原因主要在于以下几点:(1)与句法分析以词为最基本的分析单位不同,篇章分析中以基本篇章单元为基本单元,基本篇章单元切分块通常与人类的语言理解一致;(2)基本篇章单元之间的关系包含了相应的基本篇章单元在整个篇章中的语义功能信息;(3)篇章的结构也表示了整个段落或者句子的组织方式,在一个篇章中,各子句之间并不是杂乱无章的堆放在一起,而是具有一定的层次结构和语义关系,只有分析出其中的层次结构及语义关系,才能对篇章进行深入的分析和理解。其中篇章分析是自然语言处理的一个核心问题,也是近几年的一个研究热点和难点。篇章分析在自动文摘、问答系统、指代消解和篇章连贯性评价等方面都有所应用,而篇章关系识别又是篇章分析的重要环节。
[0003]篇章关系是指同一篇章内部,相邻片段或跨度在一定范围内的两个片段之间的语义连接关系,如条件关系、转折关系、因果关系等。根据篇章片段内部是否有连接词(例如“如果”、“虽然”及“但是”等),篇章关系可分为显式篇章 ...
【技术保护点】
【技术特征摘要】
1.一种基于对比学习和Adapter网络的隐式篇章关系识别方法,其特征在于,所述方法包括如下步骤:步骤一、获取自然标注的显式篇章关系实例:基于所自定义的模板从自然文本中自动获取与所预设的连接词相关的显式篇章关系实例;步骤二、基于所获取的显式篇章关系实例使用分类代价和对比学习代价联合训练连接词分类模型:所述连接词分类模型包括编码层、池化层和第一分类层;通过给定的显式篇章关系实例构建出所对应的正例和负例,通过编码层对显式篇章关系实例、正例及负例进行计算得到所对应的语义矩阵表示,通过池化层对显式篇章关系实例、正例及负例所对应的语义矩阵表示进行平均池化操作计算得到所对应的语义向量表示,通过第一分类层对显式篇章关系实例的语义向量表示进行计算得到连接词分类结果,并根据交叉熵代价函数对连接词分类结果进行计算得到分类代价;根据对比学习代价函数对显式篇章关系实例、正例及负例的语义向量表示进行计算得到对比学习代价;根据对分类代价和对比学习代价进行线性求和得到连接词分类模型的总代价,以进行连接词分类模型训练;步骤三、基于训练好的连接词分类模型和Adapter网络构建隐式篇章关系识别模型,并基于人工标注的隐式篇章关系实例优化隐式篇章关系识别模型:所述隐式篇章关系识别模型包括取自于连接词分类模型中的编码层,Adapter网络,池化与拼接层,及第二分类层;通过编码层对隐式篇章关系实例进行计算得到所对应的语义矩阵表示,通过Adapter网络对隐式篇章关系实例的语义矩阵表示进行变换得到变换语义矩阵表示,通过池化与拼接层对隐式篇章关系实例的语义矩阵表示及变换语义矩阵表示进行矩阵拼接操作以及平均池化操作计算得到隐式篇章关系实例的语义向量表示,通过第二分类层对隐式篇章关系实例的语义向量表示进行计算得到预测结果;根据交叉熵代价函数对预测结果进行计算得到交叉熵代价,并基于交叉熵代价调整Adapter网络及第二分类层中的参数以调整隐式篇章关系识别模型;步骤四、基于隐式篇章关系识别模型识别隐式篇章关系实例的类别。2.如权利要求1所述的基于对比学习和Adapter网络的隐式篇章关系识别方法,其特征在于,所述通过编码层对显式篇章关系实例、正例及负例进行计算得到所对应的语义矩阵表示的公式表达式为:;;;其中,为的语义矩阵表示,为的语义矩阵表示,为的语义矩阵表
示,为显式篇章关系实例,为显式篇章关系实例的正例,为显式篇章关系实例的负例,为使用预训练好的BERT模型中的参数初始化的编码层;所述通过池化层对显式篇章关系实例、正例及负例所对应的语义矩阵表示进行平均池化操作计算得到所对应的语义向量表示的公式表达式为:;;;其中,为的语义向量表示,为的语义向量表示,为的语义向量表示,为平均池化操作;所述通过第一分类层对显式篇章关系实例的语义向量表示进行计算得到连接词分类结果的公式表达式为: ;其中,第一分类层由一个全连接层和一个softmax函数变换组成,为连接词分类结果,和是全连接层中的参数,为的语义向量表示。3.如权利要求2所述的基于对比学习和Adapter网络的隐式篇章关系识别方法,其特征在于,所述根据交叉熵代价函数对连接词分类结果进行计算得到分类代价的公式表达式为:;其中,为分类代价,为连接词分类模型的参数集,为显式篇章关系实例的真实类别, 为连接词分类结果关于真实类别的期望值,为所给定的所有显式篇章关系实例、所对应的正例和负例、以及显式篇章关系实例的真实类别所组合成的一个显式篇章关系数据集。4.如权利要求3所述的基于对比学习和Adapter网络的隐式篇章关系识别方法,其特征在于,所述根据对比学习代价函数对显式篇章关系实例、正例及负例的语义向量表示进行计算得到对比学习代价的公式表达式为:;
;;其中,为对比学习代价,为的语义向量表示,为的语义向量表示,为的语义向量表示,为度量两个向量间的余弦距离,为向量的2
‑
范数,表示向量的转置。5.如权利要求4所述的基于对比学习和Adapter网络的隐式篇章关系识别方法,其特征在于,所述根据对分类代价和对比学习代价进行线性求和得到连接词分类模型的总代价的公式表达式为:;其中,为总代价,为分类代价,为对比学习代价,为权重系数,用于调节分类代价和对比学习代价的重要程度。6.如权利要求1所述的基于对比学习和Adapter网络的隐式篇章关系识别方法,其特征在于,所述通过编码层对隐式篇章关系实例进行计算得到所对应的语义矩阵表示的公式表达式为:;;其中,为隐式篇章关系实例在第层的语义矩阵表示,为隐式篇章关系实例在第12层的语义矩阵表示,为编码层...
【专利技术属性】
技术研发人员:邬昌兴,熊锦晖,姚浩,谢子若,李雄,
申请(专利权)人:华东交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。