基于多任务学习的问答方法技术

技术编号:21361330 阅读:20 留言:0更新日期:2019-06-15 09:19
本发明专利技术涉及一种基于多任务学习的问答方法,属于人工智能领域,包括步骤:S1:为每个任务配备特定于任务的siamese编码器,将预处理后的句子编码为分布式向量表示;S2:利用一个共享的表示学习层在不同的任务之间共享高级信息;S3:特定于任务的softmax层分类,对于第k个任务中的问答对

Question Answering Method Based on Multitask Learning

The invention relates to a question answering method based on Multi-task learning, which belongs to the field of artificial intelligence, including steps: S1: equipping each task with a task-specific Siamese encoder, encoding pre-processed sentences into distributed vector representations; S2: sharing advanced information among different tasks using a shared representation learning layer; S3: task-specific classification of softmax layer. For Question and Answer Right in Task K

【技术实现步骤摘要】
基于多任务学习的问答方法
本专利技术属于人工智能领域,涉及一种基于多任务学习(multi-tasklearning,MTL)的问答方法,利用从不同角度学习的注意力同时处理答案选择和知识库问答任务。
技术介绍
问答系统是一种重要而又具有挑战性的自然语言处理应用。近年来,深度神经网络在问答任务中的应用取得了许多成功,但是不同的问答任务是单独解决的,为特定任务设计和培训各种模型既费时又费钱。近来,在许多自然语言处理任务中,多任务学习被广泛研究用来同时解决多个相关任务。多任务学习在自然语言处理领域的应用非常广泛,如文本分类、序列标记、文本摘要等。然而,多任务学习在问答系统中的应用却很少受到关注。答案选择和知识库问答是问答系统的两个重要任务。现有的方法分别解决这两个任务,需要大量的重复工作,而忽略任务之间丰富的相关信息。为了实现联合学习这两项任务的目的,本专利提出一种新的多任务学习方案来同时解决答案选择和知识库问答任务,利用从不同角度学习的多视角注意力,使这些任务能够相互交互,学习更全面的句子表示。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种基于多任务学习(multi-tasklearning,MTL)的问答方法,利用从不同角度学习的注意力同时处理答案选择和知识库问答任务。为达到上述目的,本专利技术提供如下技术方案:一种基于多任务学习的问答方法,包括以下步骤:S1:为每个任务配备特定于任务的siamese编码器,将预处理后的句子编码为分布式向量表示;S2:利用一个共享的表示学习层在不同的任务之间共享高级信息;S3:特定于任务的softmax层分类,对于第k个任务中的问答对及其标签最后的特征表示形式被输入特定于任务的softmax层进行二进制分类;S4:多任务学习:训练多任务学习模型,使交叉熵损失函数最小化。进一步,步骤S1中,每个特定于任务的siamese编码器都包含一个单词编码器和一个知识编码器,用于学习完整的句子表示。进一步,所述单词编码器使用双向长短期记忆网络Bi-LSTM捕获上下文信息,所述单词编码器的输入为词向量表示序列Ew={ew1,ew2,…,ewl},第l个词的输出用表示,其中为前向网络的输出,为后向网络的输出,给定问题q和答案a的一对序列,为问题和答案生成基于单词的句子表示即,其中L和dh分别表示句子的长度和隐藏单元的大小。进一步,所述知识编码器的输入为知识向量表示序列Ek={ek1,ek2,…,ekl},所述知识向量表示序列是由一系列符号化的实体或关系名组成的,由于实体长度的不确定性,采用多个不同大小的滤波器得到不同的输出向量{H1,H2,…,Hn},其中Hi为第i个滤波器得到的输出向量,全连接层输入这些向量获得知识的句子表示其中L是句子的长度,df是滤波器的总尺寸,根据问题q和答案a,基于知识的句子表示形式为:进一步,步骤S2中,还包括集成所有任务的编码向量,并通过高级共享SiameseBi-LSTM生成最终的问答表示,即,Sq=Bi-LSTM(Hq);Sa=Bi-LSTM(Ha),其中,Sq表示基于双向长短期记忆模型的共享表示层的问题输出,Hq表示问句向量表示;同理,Sa表示基于双向长短期记忆模型的共享表示层的答案输出,Ha表示答案向量表示。进一步,步骤S2中,还包括应用平均池化,对Bi-LSTM的输出应用平均池化操作,sq=Average(Sq),sa=Average(Sa),最终特征空间表示为x=[sq,sa,xol]。进一步,步骤S3中,所述二进制分类,包括其中pt为预测概率,和为隐层中任务特定权重矩阵和偏置向量。进一步,步骤S4中,所述多任务学习包括其中,L为交叉熵损失函数,λt表示一个决定第t次任务的权重参数,是问题答案对的真实标签,是问题答案对的预测概率λt表示一个决定第t次任务的权重参数,是问题答案对的真实标签。本专利技术的有益效果在于:本专利技术提出的多任务学习方案,利用从不同角度学习到的多视图注意力,使这些任务能够相互作用,学习更全面的句子表示,包括单词视图、知识视图、语义视图、知识语义视图和共注意视图。此外,多视角注意方案还可以有效地从不同的表征视角收集注意信息,提高表征学习的整体水平。本专利技术的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本专利技术的实践中得到教导。本专利技术的目标和其他优点可以通过下面的说明书来实现和获得。附图说明为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作优选的详细描述,其中:图1为本专利技术用于答案选择和知识库问答的基于多任务学习的问答网络的总体架构图;图2为本专利技术基于特定任务的编码模型。具体实施方式以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本专利技术的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本专利技术的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利技术的限制;为了更好地说明本专利技术的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。本专利技术实施例的附图中相同或相似的标号对应相同或相似的部件;在本专利技术的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利技术的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。一种基于多任务学习方法来同时解决答案选择和知识库问答任务,知识层的知识库问答任务可以改进答案选择任务,单词层的答案选择任务也可以提高知识库问答任务。而且,该方案利用多视图注意机制来联合学习不同的任务,将任务特定层的重要信息集成到共享层,使模型能够交互式地学习单词级和知识级表示。图1为本专利技术用于答案选择和知识库问答的基于多任务学习的问答网络的总体架构图,基本的多任务学习模型是一个深度神经网络,它采用分层特定的共享机制,在不同的任务之间共享一些高层信息,剩下的层是并行独立的,可以学习任务特定的低层信息。本专利技术解决上述问题的技术方案包括以下步骤:(1)编码预处理的句子为分布式向量表示。由于不同的问答任务在数据分布和底层表示上的不同,为每个任务配备特定于任务的siamese编码器,每个特定于任务的编码器都包含一个单词编码器和一个知识编码器,用于学习完整的句子表示。(2)利用一个共享的表示学习层在不同的任务之间共享高级信息。在使用特定于任务的编码器将句子编码成向量表示之后,通过一个共享的表示学习层在不同的任务之间共享高级信息。与任务特定编码器层的输入相比,整句表示具有更丰富的语义含义,与其本文档来自技高网...

【技术保护点】
1.一种基于多任务学习的问答方法,其特征在于:包括以下步骤:S1:为每个任务配备特定于任务的siamese编码器,将预处理后的句子编码为分布式向量表示;S2:利用一个共享的表示学习层在不同的任务之间共享高级信息;S3:特定于任务的softmax层分类,对于第k个任务中的问答对

【技术特征摘要】
1.一种基于多任务学习的问答方法,其特征在于:包括以下步骤:S1:为每个任务配备特定于任务的siamese编码器,将预处理后的句子编码为分布式向量表示;S2:利用一个共享的表示学习层在不同的任务之间共享高级信息;S3:特定于任务的softmax层分类,对于第k个任务中的问答对及其标签最后的特征表示形式被输入特定于任务的softmax层进行二进制分类;S4:多任务学习:训练多任务学习模型,使交叉熵损失函数最小化。2.根据权利要求1所述的基于多任务学习的问答方法,其特征在于:步骤S1中,每个特定于任务的siamese编码器都包含一个单词编码器和一个知识编码器,用于学习完整的句子表示。3.根据权利要求2所述的基于多任务学习的问答方法,其特征在于:所述单词编码器使用双向长短期记忆网络Bi-LSTM捕获上下文信息,所述单词编码器的输入为词向量表示序列Ew={ew1,ew2,···,ewl},第l个词的输出用表示,其中为前向网络的输出,为后向网络的输出,给定问题q和答案a的一对序列,为问题和答案生成基于单词的句子表示即,其中L和dh分别表示句子的长度和隐藏单元的大小。4.根据权利要求3所述的基于多任务学习的问答方法,其特征在于:所述知识编码器的输入为知识向量表示序列Ek={ek1,ek2,···,ekl},所述知识向量表示序列是由一系列符号化的实体或关系名组成的,由于实体长度的不确定性,采用多个不同大小...

【专利技术属性】
技术研发人员:李鹏华赵芬朱智勤袁宇鹏李小飞
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1