中文篇章关系的分类方法及装置制造方法及图纸

技术编号：19692148 阅读：29 留言：0更新日期：2018-12-08 11:15

本发明专利技术属于自然语言处理技术领域，具体提供一种中文篇章关系的分类方法及装置。旨在解决传统管道系统方法中错误传递的问题。本发明专利技术的中文篇章关系的分类方法包括将中文篇章中的句子进行句对的分布式表示，得到第一句对分布式表示向量；计算记忆单元与第一句对分布式表示向量的相似度和权重，得到第一句对分布式表示向量的记忆信息；将第一句对分布式表示向量与记忆信息进行线性组合生成第二句对分布式表示向量；对第二句对分布式表示向量进行分类，得到中文篇章的关系分类结果。本发明专利技术的方法通过深度学习网络得到句子内部的语义和结构抽象特征，可以获得优越性能的篇章分类效果。

全部详细技术资料下载

【技术实现步骤摘要】
中文篇章关系的分类方法及装置
本专利技术属于自然语言处理
，具体涉及一种中文篇章关系的分类方法及装置。
技术介绍
在自然语言处理任务中，其基本单位从小到大可以分为词、短语、句子最后形成篇章，篇章是将实体、事件等信息按照一定的结构组织起来传达所要表达的语义，在一篇文章中，相同的信息按照不同的结构组织会表达不同甚至是完全相反的语义，因此，为了理解篇章的语义，不仅需要获取篇章中包含的信息，还需要理解篇章中信息的关系，篇章分析的目的就是要从整体上对句子进行语义级别的分析以及理解，在篇章分析中，篇章关系分类是一个需要机器理解语义并且极具挑战性的任务。中文是世界上使用人数第二大的语言，但是针对中文的篇章分析工作相对英语来说相对滞后，还没有得到充分的讨论和探索，究其原因主要在于：中文篇章关系分析的难度要远远大于英语篇章关系分析的难度，首先，中文存在大量的隐式篇章关系现象，远远超出英语中隐式篇章关系现象的比例；其次，中文的结构指示词更少，分析其中的篇章关系较之英语更具有挑战性；分析篇章关系对其他需要对语义进行理解的自然语言任务具有实际的意义。因此，对中文的篇章关系进行分析具备很强的理论研究价值和实际应用意义。一般来说，中文篇章关系分析系统在结构上与英文篇章关系分系统类似，需要以下步骤：显式连接词判定、基本篇章单元划分、显式篇章关系标注和隐式篇章关系标注。在传统的方法中，篇章分析系统将以上步骤视为不同的子模块，按照级联的形式将各个子模块拼接在一起，形成完整的管道式系统，这种管道系统的弊端在于其存在较大的错误传递问题，连接词识别中的噪声往往会影响连接词识别的准确率，导致...

【技术保护点】
1.一种中文篇章关系的分类方法，其特征在于，所述方法包括：步骤S1：基于预先构建的句对分布式表示模型将中文篇章中的句子进行句对的分布式表示，得到第一句对分布式表示向量；步骤S2：计算预先构建的记忆网络模型的记忆单元与所述第一句对分布式表示向量的相似度和权重，得到所述第一句对分布式表示向量的记忆信息；步骤S3：将所述第一句对分布式表示向量与所述记忆信息进行线性组合生成第二句对分布式表示向量；步骤S4：根据预先构建的分类神经网络模型对所述第二句对分布式表示向量进行分类，得到所述中文篇章的关系分类结果。

【技术特征摘要】
1.一种中文篇章关系的分类方法，其特征在于，所述方法包括：步骤S1：基于预先构建的句对分布式表示模型将中文篇章中的句子进行句对的分布式表示，得到第一句对分布式表示向量；步骤S2：计算预先构建的记忆网络模型的记忆单元与所述第一句对分布式表示向量的相似度和权重，得到所述第一句对分布式表示向量的记忆信息；步骤S3：将所述第一句对分布式表示向量与所述记忆信息进行线性组合生成第二句对分布式表示向量；步骤S4：根据预先构建的分类神经网络模型对所述第二句对分布式表示向量进行分类，得到所述中文篇章的关系分类结果。2.根据权利要求1所述的方法，其特征在于，步骤S1具体包括以下步骤：步骤S11：将所述中文篇章中的句子转换为词向量，将其输入预先构建的句对分布式表示模型，得到所述中文篇章中句子的抽象特征表达；步骤S12：基于预先构建的注意力网络模型对所述中文篇章中句子的抽象特征表达进行打分；步骤S13：计算句子的抽象特征表达的分数的权重，将其进行拼接得到所述第一句对分布式表示向量。3.根据权利要求1所述的方法，其特征在于，步骤S2具体包括以下步骤：步骤S21：将所述记忆网络模型的记忆单元随机初始化，计算初始化后的记忆单元与所述第一句对分布式表示向量的相似度，具体计算方法如下公式所示：其中，u表示记忆单元，v表示句对分布式表示向量；步骤S22：计算初始化后的记忆单元与所述第一句对分布式表示向量的权重，具体计算方法如下公式所示：其中，wi表示相似度，β表示衰减参数，K表示计算相似度的函数，vArgs表示所述第一句对分布式表示向量，mi表示第i个记忆单元的信息，mj表示的是第j个记忆单元的信息，i、j均表示记忆单元的个数；步骤S23：计算所述初始化后的记忆单元与所述权重的加权值，得到所述第一句对分布式表示向量的记忆信息，具体的计算方法如下公式所示：m＝∑iwimi其中，m表示所述第一句对分布式表示向量的记忆信息，wi表示相似度，mi表示第i个记忆单元的信息。4.根据权利要求1所述的方法，其特征在于，步骤S3具体包括以下步骤：基于预先构建的门控神经网络模型计算所述第一句对分布式表示向量与所述记忆信息的线性加权参数，具体的计算方法如下公式所示：α＝δ(Wg[vArgs；m]+bg)其中，α表示线性加权参数，δ表示sigmoid函数，Wg表示门控神经网络模型的权重，bg表示门控神经网络模型的偏值；根据所述线性加权参数，将所述第一句对分布式表示向量与所述记忆信息进行组合，生成所述第二句对分布式表示向量，其组合方法如下公式所示：其中，表示所述第二句对分布式表示向量。5.根据权利要求1所述的方法，其特征在于，“根据预先构建的分类神经网络模型对所述第二句对分布式表示向量进行分类”，其方法如下公式所示：其中，softmax()表示分类函数，Wc表示前向神经网络模型的权重，bc表示前向神经网络模型的偏值，表示所述中文篇章的关系分类结果。6.一种中文篇章关系的分类装置，其特征在于，所述装置包括：第一分布式表示模块，所述分布式表示模块被配置为基于预先构建的句对分布式表示模型将中文篇章中的句子进行句对的分布式表示，得到第一...

【专利技术属性】
技术研发人员：张家俊，刘洋，马宏远，杜翠兰，柳毅，赵媛，宗成庆，
申请(专利权)人：中国科学院自动化研究所，国家计算机网络与信息安全管理中心，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人