一种基于双向序列生成的汉语篇章连接词识别方法技术

技术编号：41303691 阅读：2 留言：0更新日期：2024-05-13 14:49

本发明专利技术提供一种基于双向序列生成的汉语篇章连接词识别方法，通过句子预处理及编码模块学习候选篇章连接词的初始语义向量表示，基于Longformer的段落编码模块通过全局注意力机制和局部注意力机制引入段落级别的上下文信息，计算候选篇章连接词的最终语义向量表示，基于双向序列生成的预测模块包括正向生成层和反向生成层，分别使用两个长短时记忆网络从左至右和从右至左预测篇章连接词序列，实现篇章连接词的识别，此外，通过后处理模块处理复合连接词的识别问题，并通过互学习代价增强的训练模块使正向生成层和反向生成层能相互学习，提升识别的性能，本发明专利技术能够充分捕获篇章连接词之间双向长距离的依赖关系，显著地提高汉语篇章连接词识别的性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理，特别是涉及一种基于双向序列生成的汉语篇章连接词识别方法。

技术介绍

1、篇章连接词是指在句子或子句之间起连接作用，并能表示它们之间的语义关系的语言单位（例如，“但是”）。准确识别篇章连接词是后续篇章关系分类和篇章结构树构建的前提和基础。现有研究表明，英语篇章连接词识别的准确率可达到95%以上，已经能够满足实用的要求；然而，汉语篇章连接词识别的准确率则低得多，在给定句法树的情况下准确率尚不到90%。在端到端的汉语篇章结构分析系统中，由于汉语篇章连接词识别的准确率不高，导致后续篇章关系分类的性能下降超过10%，目前尚不能满足实际应用的需要。

2、汉语篇章连接词识别准确率不高的原因主要有：1）篇章连接词的数量较多，例如，常用的中文cdtb语料中共标注了274个篇章连接词，而常用的英文pdtb语料中仅有102个篇章连接词；2）复合篇章连接词（例如，“同时……也”）所占比例较高，增加了识别的难度。因此，汉语篇章连接词识别依然是值得研究的基础问题之一。

3、现有的汉语篇章连接词识别方法可以大致分为以下两大类：1）基于分类的方法，其通常基于人工抽取的特征或自动学习的特征对侯选篇章连接词进行分类。这类方法的优点是模型比较简单，时间效率高，缺点是性能相对低。2）基于序列标注的方法，其通常基于条件随机场等模型建模相邻篇章连接词之间的依赖关系，取得了比基于分类的方法稍好的识别性能。然而，不管是基于分类的方法还是基于序列标注的方法，都没有考虑篇章连接词之间的长距离依赖关系。具体地，多个篇章连接词之间可

技术实现思路

1、为此，本专利技术的实施例提出一种基于双向序列生成的汉语篇章连接词识别方法，以充分捕获篇章连接词之间双向长距离的依赖关系，提升识别性能。

2、根据本专利技术一实施例的基于双向序列生成的汉语篇章连接词识别方法，应用于汉语篇章连接词识别模型，所述汉语篇章连接词识别模型包括句子预处理及编码模块、基于longformer的段落编码模块、基于双向序列生成的预测模块、后处理模块和互学习代价增强的训练模块；

3、所述方法包括：

4、通过句子预处理及编码模块对输入段落中的每个句子进行预处理，得到预处理后的句子，预处理过程包括中文分词、标记候选篇章连接词和拼接预定义占位符，然后通过预训练语言模型得到预处理后的句子中所有词条的初始语义向量表示；

5、基于longformer的段落编码模块通过全局注意力机制和局部注意力机制引入段落级别的上下文信息，在所有词条的初始语义向量表示的基础上，计算候选篇章连接词的最终语义向量表示；

6、基于双向序列生成的预测模块包括正向生成层和反向生成层，以候选篇章连接词的最终语义向量表示为输入，正向生成层基于长短时记忆网络从左到右生成篇章连接词序列，以计算正向预测时每个候选篇章连接词为篇章连接词的概率分布，反向生成层基于长短时记忆网络从右到左生成篇章连接词序列，以计算反向预测时每个候选篇章连接词为篇章连接词的概率分布，并通过互学习代价增强的训练模块使正向生成层和反向生成层相互学习，然后对正向生成层和反向生成层计算的概率分布求平均值，将平均值作为每个候选篇章连接词为篇章连接词的最终预测结果，从而识别出篇章连接词；

7、在后处理模块中，以基于双向序列生成的预测模块识别出的篇章连接词为输入，利用预定义的启发式规则对篇章连接词进行配对，以识别出输入段落中的复合篇章连接词。

8、根据本专利技术实施例的基于双向序列生成的汉语篇章连接词识别方法，通过句子预处理及编码模块学习候选篇章连接词的初始语义向量表示，然后基于longformer的段落编码模块引入段落级别的上下文信息，学习候选篇章连接词的最终语义向量表示，基于双向序列生成的预测模块包括正向生成层和反向生成层，分别使用两个长短时记忆网络从左至右和从右至左预测篇章连接词序列，实现篇章连接词的识别，此外，通过后处理模块处理复合连接词的识别问题，并通过互学习代价增强的训练模块使正向生成层和反向生成层能相互学习，提升识别的性能，本专利技术提出的方法能够充分捕获篇章连接词之间双向长距离的依赖关系，显著地提高汉语篇章连接词识别的性能。

本文档来自技高网...

【技术保护点】

1.一种基于双向序列生成的汉语篇章连接词识别方法，其特征在于，应用于汉语篇章连接词识别模型，所述汉语篇章连接词识别模型包括句子预处理及编码模块、基于Longformer的段落编码模块、基于双向序列生成的预测模块、后处理模块和互学习代价增强的训练模块；

2.根据权利要求1所述的基于双向序列生成的汉语篇章连接词识别方法，其特征在于，句子预处理及编码模块满足以下条件式：

3.根据权利要求2所述的基于双向序列生成的汉语篇章连接词识别方法，其特征在于，基于Longformer的段落编码模块满足以下条件式：

4.根据权利要求3所述的基于双向序列生成的汉语篇章连接词识别方法，其特征在于，在基于Longformer的段落编码模块中，将预处理后的每个句子中开头的全局占位符定义为全局词条，并将输入段落中所有的候选篇章连接词定义为全局词条，将输入段落中除全局词条外的其他词条定义为局部词条，其中，全局词条与输入段落中的每个词条进行信息交互，局部词条只与其前后个词条以及全局词条进行信息交互。

5.根据权利要求3所述的基于双向序列生成的汉语篇章连接词识别方法，

6.根据权利要求1所述的基于双向序列生成的汉语篇章连接词识别方法，其特征在于，预定义的启发式规则包括以下三个规则：

7.根据权利要求5所述的基于双向序列生成的汉语篇章连接词识别方法，其特征在于，通过互学习代价增强的训练模块满足以下条件式：

...

【技术特征摘要】

1.一种基于双向序列生成的汉语篇章连接词识别方法，其特征在于，应用于汉语篇章连接词识别模型，所述汉语篇章连接词识别模型包括句子预处理及编码模块、基于longformer的段落编码模块、基于双向序列生成的预测模块、后处理模块和互学习代价增强的训练模块；

2.根据权利要求1所述的基于双向序列生成的汉语篇章连接词识别方法，其特征在于，句子预处理及编码模块满足以下条件式：

3.根据权利要求2所述的基于双向序列生成的汉语篇章连接词识别方法，其特征在于，基于longformer的段落编码模块满足以下条件式：

4.根据权利要求3所述的基于双向序列生成的汉语篇章连接词识别方法，其特征在于，在基于longformer的段落编码模块...

【专利技术属性】
技术研发人员：邬昌兴，揭梦瑶，熊丹，杨亚连，
申请(专利权)人：华东交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人