一种基于单分类器多任务网络的隐式句间关系分析方法技术

技术编号：22166912 阅读：45 留言：0更新日期：2019-09-21 10:34

本发明专利技术提供了一种基于单分类器多任务网络的隐式句间关系分析方法，包括以下步骤：步骤1，获得待处理的文本，所述文本中包括隐式句间关系和显式句间关系文本；步骤2，对获得的分本进行分词操作，然后送入Glove中，获取词向量和字典；步骤3，将训练样本分为两类，其中单分类器的训练样本只包含隐式句间关系的数据，是根据不同类别的样本大小比例随机抽取得到的四类样本，以便训练单分类器模型中的不同二分类模型；其中多任务的训练样本包含了隐式句间关系和显式句间关系的数据；步骤4，将训练样本通过词典映射转换为id，进而获取对应的向量表示，送入单分类器模型和多任务网络模型；步骤5，在使用时，将测试数据分别送入单分类器模型和多任务网络模型，将各自得到的概率通过集合方式，得到概率最大的类别为最终结果。

An Implicit Inter-Sentence Relation Analysis Method Based on Single Classifier and Multi-Task Network

全部详细技术资料下载

【技术实现步骤摘要】
一种基于单分类器多任务网络的隐式句间关系分析方法
本专利技术涉及计算机
，特别涉及一种基于单分类器多任务网络的隐式句间关系分析方法。
技术介绍
句子是自然语言处理中除字、词、短语外的一个重要的研究层级。句间关系的识别是篇章层级研究中不可或缺的一个环节，这些关系可以使许多下游任务受益，比如问答、文本理解等。句间关系识别的主要任务是研究一段文本中前后相连的两个论元之间的逻辑关系(例如：比较关系、扩展关系、并列关系和因果关系等)，该任务是自然语言理解的基础研究问题。句间关系根据是否存在逻辑连接词划分为两类：存在逻辑连接词(例如：所以、然而等)的显式句间关系识别和不存在逻辑连接词的隐式句间关系识别。隐式句间关系识别的难点就在于不存在明显的连接词，缺乏较好的特征；同时，中文数据集的稀少和样本的分布不均衡也是隐式句间关系识别无法得到很好解决的原因之一。目前，基于神经网络的方法在各种自然语言处理任务上取得了巨大进展，循环神经网络是一种具有循环结构的网络结构，能够针对时间序列进行建模，有效地捕捉时间序列上的信息传递特征。它与自然语言文本中词汇的前后顺序关系非常的契合。因此，在很多自然语言处理任务中，循环神经网络都能取得不错的效果。但是，循环神经网络中的梯度消失和梯度爆炸问题是制约其发展的因素之一。长短时记忆网络引入记忆块的概念，通过遗忘门、输入门和输出门门控制信息的遗忘、输入以及输出，用以保持和更新细胞状态，从而有效的减轻梯度消失和爆炸问题。而门控循环单元则是长短时记忆网络的一个变体，其网络模块结构较简单，只通过更新门和重置门控制信息。
技术实现思路
为解决上述技术问题...

【技术保护点】
1.一种基于单分类器多任务网络的隐式句间关系分析方法，其特征在于，包括以下步骤：步骤1，获得待处理的文本，所述文本中包括隐式句间关系和显式句间关系文本；步骤2，对获得的分本进行分词操作，然后送入Glove中，获取词向量和字典；步骤3，将训练样本分为两类，其中单分类器的训练样本只包含隐式句间关系的数据，是根据不同类别的样本大小比例随机抽取得到的四类样本，以便训练单分类器模型中的不同二分类模型；其中多任务的训练样本包含了隐式句间关系和显式句间关系的数据；步骤4，将训练样本通过词典映射转换为id，进而获取对应的向量表示，送入单分类器模型和多任务网络模型；步骤5，在使用时，将测试数据分别送入单分类器模型和多任务网络模型，将各自得到的概率通过集合方式，得到概率最大的类别为最终结果。

【技术特征摘要】
1.一种基于单分类器多任务网络的隐式句间关系分析方法，其特征在于，包括以下步骤：步骤1，获得待处理的文本，所述文本中包括隐式句间关系和显式句间关系文本；步骤2，对获得的分本进行分词操作，然后送入Glove中，获取词向量和字典；步骤3，将训练样本分为两类，其中单分类器的训练样本只包含隐式句间关系的数据，是根据不同类别的样本大小比例随机抽取得到的四类样本，以便训练单分类器模型中的不同二分类模型；其中多任务的训练样本包含了隐式句间关系和显式句间关系的数据；步骤4，将训练样本通过词典映射转换为id，进而获取对应的向量表示，送入单分类器模型和多任务网络模型；步骤5，在使用时，将测试数据分别送入单分类器模型和多任务网络模型，将各自得到的概率通过集合方式，得到概率最大的类别为最终结果。2.根据权利要求1所述的一种基于单分类器多任务网络的隐式句间关系分析方法，其特征在于，单分类器模型将四分类问题转化为四个二分类问题，即先将因果关系作为正类，其他三类关系作为负类，进行训练，得到一个二分类器；然后将对比关系作为正类，其余作为负类，进行训练，在得到一个新的二分类器；依次类推，最终得到四个二分类器；因为四类关系的数据不均衡，因此在按照四分类进行处理时，很容易导致模型学习不到数...

【专利技术属性】
技术研发人员：田文洪，高印权，黎在万，王鸿，莫中勤，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人