一种基于单分类器多任务网络的隐式句间关系分析方法技术

技术编号:22166912 阅读:45 留言:0更新日期:2019-09-21 10:34
本发明专利技术提供了一种基于单分类器多任务网络的隐式句间关系分析方法,包括以下步骤:步骤1,获得待处理的文本,所述文本中包括隐式句间关系和显式句间关系文本;步骤2,对获得的分本进行分词操作,然后送入Glove中,获取词向量和字典;步骤3,将训练样本分为两类,其中单分类器的训练样本只包含隐式句间关系的数据,是根据不同类别的样本大小比例随机抽取得到的四类样本,以便训练单分类器模型中的不同二分类模型;其中多任务的训练样本包含了隐式句间关系和显式句间关系的数据;步骤4,将训练样本通过词典映射转换为id,进而获取对应的向量表示,送入单分类器模型和多任务网络模型;步骤5,在使用时,将测试数据分别送入单分类器模型和多任务网络模型,将各自得到的概率通过集合方式,得到概率最大的类别为最终结果。

An Implicit Inter-Sentence Relation Analysis Method Based on Single Classifier and Multi-Task Network

【技术实现步骤摘要】
一种基于单分类器多任务网络的隐式句间关系分析方法
本专利技术涉及计算机
,特别涉及一种基于单分类器多任务网络的隐式句间关系分析方法。
技术介绍
句子是自然语言处理中除字、词、短语外的一个重要的研究层级。句间关系的识别是篇章层级研究中不可或缺的一个环节,这些关系可以使许多下游任务受益,比如问答、文本理解等。句间关系识别的主要任务是研究一段文本中前后相连的两个论元之间的逻辑关系(例如:比较关系、扩展关系、并列关系和因果关系等),该任务是自然语言理解的基础研究问题。句间关系根据是否存在逻辑连接词划分为两类:存在逻辑连接词(例如:所以、然而等)的显式句间关系识别和不存在逻辑连接词的隐式句间关系识别。隐式句间关系识别的难点就在于不存在明显的连接词,缺乏较好的特征;同时,中文数据集的稀少和样本的分布不均衡也是隐式句间关系识别无法得到很好解决的原因之一。目前,基于神经网络的方法在各种自然语言处理任务上取得了巨大进展,循环神经网络是一种具有循环结构的网络结构,能够针对时间序列进行建模,有效地捕捉时间序列上的信息传递特征。它与自然语言文本中词汇的前后顺序关系非常的契合。因此,在很多自然语言处理任务中,循环神经网络都能取得不错的效果。但是,循环神经网络中的梯度消失和梯度爆炸问题是制约其发展的因素之一。长短时记忆网络引入记忆块的概念,通过遗忘门、输入门和输出门门控制信息的遗忘、输入以及输出,用以保持和更新细胞状态,从而有效的减轻梯度消失和爆炸问题。而门控循环单元则是长短时记忆网络的一个变体,其网络模块结构较简单,只通过更新门和重置门控制信息。
技术实现思路
为解决上述技术问题,本专利技术提供了一种基于单分类器多任务网络的隐式句间关系分析方法,包括以下步骤:步骤1,获得待处理的文本,所述文本中包括隐式句间关系和显式句间关系文本;步骤2,对获得的分本进行分词操作,然后送入Glove中,获取词向量和字典;步骤3,将训练样本分为两类,其中单分类器的训练样本只包含隐式句间关系的数据,是根据不同类别的样本大小比例随机抽取得到的四类样本,以便训练单分类器模型中的不同二分类模型;其中多任务的训练样本包含了隐式句间关系和显式句间关系的数据;步骤4,将训练样本通过词典映射转换为id,进而获取对应的向量表示,送入单分类器模型和多任务网络模型;步骤5,在使用时,将测试数据分别送入单分类器模型和多任务网络模型,将各自得到的概率通过集合方式,得到概率最大的类别为最终结果。附图说明图1是本专利技术的多任务网络学习结构图;图2是本专利技术的单分类器结构图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,将结合附图对本专利技术作进一步详细描述。这种描述是通过示例而非限制的方式介绍了与本专利技术的原理相一致的具体实施方式,这些实施方式的描述是足够详细的,以使得本领域技术人员能实现该专利技术,在不脱离本专利技术的范围和精神的情况下可以使用其他实施方式并且可以改变和替换各要素的结构。因此,不应当从限制性意义上来理解以下的详细描述。本专利技术提供了一种隐式句间关系识别方法,包括以下步骤:步骤1,本专利技术使用的数据是HIT-CDTB语料,将语料中的句子按照句间关系类型分为两类:显式句间关系和隐式句间关系;按照句子的句间关系分为六个大类:时序关系、因果关系、条件关系、比较关系、扩展关系和并列关系,其中时序关系和条件关系数据较少,不考虑。步骤2,本专利技术对训练样本使用jieba工具进行分词操作,然后将分词后的数据送入Glove中,获取词向量表示,并获得字典。步骤3,本专利技术包含单分类器模型和多任务网络模型,因此需要对训练样本进行不同的处理。其中,单分类器的训练样本只包含隐式句间关系的数据,是根据四种类别的样本大小,进行平衡之后随机抽取得到的四类样本,分别用来训练不同类别的二分类器模型;其中多任务的训练样本包含了隐式句间关系和显式句间关系的数据,不需要进行额外操作。步骤4,本专利技术在模型训练阶段,首先将样本通过字典映射为词id,进行获取词的向量表示;然后将词向量表示送入模型当中进行训练;其中单分类器模型结构如图2所示,是将一个四分类问题转换为四个二分类问题,针对每个二分类问题使用双向门控循环网络单独进行建模训练;而多任务学习模型结构如图1所示,是以隐式句间关系识别任务为主,显示句间关系识别任务为辅,将主任务和辅助任务同时输入到双向长短时记忆网络,多任务模型共有两个双向长短时记忆网络,用于提取各自任务独有的特征,并且为了更好地控制从一个任务流向另一个任务的信息,我们使用全局门控单元,该模块赋予模型以决定它应该接受多少信息的能力。即在计算当前单元状态c~t不仅考虑自己任务的输入输出,还要考虑另一个任务的输出,进而提取任务通用的特征,最后将模型输出到softmax层中,并计算最终的损失值。多任务学习网络结构的设计旨在使用共享结构进行训练,学习到两种任务所共同具有的特征,针对具体任务的网络训练学习到具体的任务的特征。步骤5,本专利技术在模型测试阶段,首先将数据进行分词,然后提供字典映射为词id,进而获取词向量表示;然后将其分别送入到单分类器网络和多任务网络中,提供softmax函数获取四个类别不同的概率;最后通过集成即加的方式将概率进行集成,选择概率最大的类别作为模型最终识别结果。以上所述,仅为本专利技术的具体实施方式,但本专利技术的保护范围并不局限于此,任何熟悉本
的技术人员在本专利技术揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本专利技术的保护范围之内。因此,本专利技术的保护范围应该以权利要求的保护范围为准。本文档来自技高网
...

【技术保护点】
1.一种基于单分类器多任务网络的隐式句间关系分析方法,其特征在于,包括以下步骤:步骤1,获得待处理的文本,所述文本中包括隐式句间关系和显式句间关系文本;步骤2,对获得的分本进行分词操作,然后送入Glove中,获取词向量和字典;步骤3,将训练样本分为两类,其中单分类器的训练样本只包含隐式句间关系的数据,是根据不同类别的样本大小比例随机抽取得到的四类样本,以便训练单分类器模型中的不同二分类模型;其中多任务的训练样本包含了隐式句间关系和显式句间关系的数据;步骤4,将训练样本通过词典映射转换为id,进而获取对应的向量表示,送入单分类器模型和多任务网络模型;步骤5,在使用时,将测试数据分别送入单分类器模型和多任务网络模型,将各自得到的概率通过集合方式,得到概率最大的类别为最终结果。

【技术特征摘要】
1.一种基于单分类器多任务网络的隐式句间关系分析方法,其特征在于,包括以下步骤:步骤1,获得待处理的文本,所述文本中包括隐式句间关系和显式句间关系文本;步骤2,对获得的分本进行分词操作,然后送入Glove中,获取词向量和字典;步骤3,将训练样本分为两类,其中单分类器的训练样本只包含隐式句间关系的数据,是根据不同类别的样本大小比例随机抽取得到的四类样本,以便训练单分类器模型中的不同二分类模型;其中多任务的训练样本包含了隐式句间关系和显式句间关系的数据;步骤4,将训练样本通过词典映射转换为id,进而获取对应的向量表示,送入单分类器模型和多任务网络模型;步骤5,在使用时,将测试数据分别送入单分类器模型和多任务网络模型,将各自得到的概率通过集合方式,得到概率最大的类别为最终结果。2.根据权利要求1所述的一种基于单分类器多任务网络的隐式句间关系分析方法,其特征在于,单分类器模型将四分类问题转化为四个二分类问题,即先将因果关系作为正类,其他三类关系作为负类,进行训练,得到一个二分类器;然后将对比关系作为正类,其余作为负类,进行训练,在得到一个新的二分类器;依次类推,最终得到四个二分类器;因为四类关系的数据不均衡,因此在按照四分类进行处理时,很容易导致模型学习不到数...

【专利技术属性】
技术研发人员:田文洪高印权黎在万王鸿莫中勤
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1