图像增强的层次化语义表示的自然语言推理方法技术

技术编号:20118117 阅读:43 留言:0更新日期:2019-01-16 12:07
本发明专利技术公开了一种图像增强的层次化语义表示的自然语言推理方法,包括:获取具有异构数据结构的自然语言句子对和对应的图像信息;对所述自然语言句子对分别进行词级别、短语级别与句子级别的不同粒度的语义建模,获得相应的语义表示;利用对应的图像信息,分别对词级别、短语级别与句子级别的语义表示进行增强处理;根据增强处理后的词级别、短语级别与句子级别的语义表示,利用自然语言推理中的匹配方法处理得到的自然语言句子对的表示向量,以此判断自然句子对中两个句子之间的推断关系。该方法实现对句子语义的全面准确理解和表示,进而高效建模两个句子之间的语义交互,最终准确判断两个句子之间的语义推断关系。

Natural Language Reasoning for Hierarchical Semantic Representation of Image Enhancement

The invention discloses a natural language reasoning method for hierarchical semantic representation of image enhancement, which includes: acquiring natural language sentence pairs with heterogeneous data structure and corresponding image information; modeling the semantics of the natural language sentences at different granularity levels of word level, phrase level and sentence level respectively to obtain corresponding semantic representation; and utilizing corresponding image letters. Information is used to enhance the semantic representation of word level, phrase level and sentence level respectively. According to the semantic representation of word level, phrase level and sentence level after enhancement, the expression vectors of natural language sentence pairs are processed by matching method in natural language reasoning to judge the inferential relationship between two sentences in natural sentence pairs. This method can comprehensively and accurately understand and express the semantics of sentences, then efficiently model the semantic interaction between two sentences, and finally accurately judge the semantic inference relationship between two sentences.

【技术实现步骤摘要】
图像增强的层次化语义表示的自然语言推理方法
本专利技术涉及深度学习和自然语言理解
,尤其涉及一种图像增强的层次化语义表示的自然语言推理方法。
技术介绍
自然语言推理(NaturalLanguageInference,NLI)是自然语言理解领域的一个重要组成部分,要解决的主要问题是判断前提句子(PremiseSentence)与假设句子(HypothesisSentence)之间存在的语义推断关系。该关系主要分为三类:1)Entailment:假设句子的语义可以从前提句子的语义中推断出来,2)Contradiction:假设句子的语义无法从前提句子的语义中推断出来;3)Neutral:无法判断假设句子和前提句子之间的语义关系。因此该任务要解决的一个首要问题是自然语言句子的语义表示。自然语言句子的语义表示是自然语言理解甚至人工智能领域一个基础但极其重要的研究内容,无论是基础的信息检索,语义抽取,还是复杂的问答系统,对话系统,都需要对输入句子的语义有一个精准的表示,这样才能保证机器理解人类复杂的语言系统;而自然语言推理相对于这些自然语言理解领域的其他问题,更专注于自然语言句子的语义理解与表示,这不仅保证相关技术的语义理解质量,同时一些成熟的技术可以迅速迁移到自然语言理解的其他领域,为其提供重要的技术支持。因此,自然语言推理一直是自然语言理解领域探索的一个基础但十分重要的研究方向。目前,关于自然语言推理的方法主要有以下方法:1)基于句子表示的方法基于句子表示的方法主要是通过不同的神经网络结构,例如卷积神经网络(ConvolutionalNeuralNetwork,CNN),循环神经网络(RecurrentNeuralNetwork,RNN)等抽取句子的特征信息,然后将这些特征信息映射到低维空间,得到句子表示的向量,最后通过一些分类方法判断两个句子之间的推理关系。2)基于词匹配的方法相对于基于句子表示的方法,词匹配的方法更关于两个句子中的词之间的匹配关系,通过注意力机制(AttentionMechanism)或者门结构(GateUnit)等方法计算不同词之间的相似度或者距离,这些方法可以从更细粒度上建模两个句子之间的交互,利用词之间的匹配信息建模两个句子之间的推理关系。上述自然语言推理工作都假设自然语言句子不依赖任何外部信息,然后通过不同的技术或方法从句子本身进行建模,集中于挖掘句子本身的信息。而在现实生活下,自然语言句子的语义表达是高度依赖其所处的外部情境的,同一个句子可以根据所处外部环境的不同表达不同的意思,因此自然语言句子的语义是具有复杂性,歧义性和模糊性的,而这些方法在建模句子语义时并没有将句子的外部信息考虑进去,因此所得到的句子语义表示更多的是该句子可能的多种语义的融合表示,并没有解决句子的复杂性,歧义性和模糊性问题,也就无法对句子的语义进行精确表示了。同时,自然语言句子可以通过改变一个词实现语义的不同表达,而上述自然语言推理工作并没有考虑自然语言句子在不同粒度上的语义表达,因此,当两个句子的词语重复度很高时,上述方法也就无法区分出两个句子的不同语义表达了。
技术实现思路
本专利技术的目的是提供一种图像增强的层次化语义表示的自然语言推理方法,可以实现对句子语义的多粒度精确表示,进而准确判断出两个句子在语义上存在的推断关系。本专利技术的目的是通过以下技术方案实现的:一种图像增强的层次化语义表示的自然语言推理方法,包括:获取具有异构数据结构的自然语言句子对和对应的图像信息;对所述自然语言句子对分别进行词级别、短语级别与句子级别的不同粒度的语义建模,获得相应的语义表示;利用对应的图像信息,分别对词级别、短语级别与句子级别的语义表示进行增强处理;根据增强处理后的词级别、短语级别与句子级别的语义表示,利用自然语言推理中的匹配方法处理得到的自然语言句子对的表示向量,以此判断自然句子对中两个句子之间的推断关系。由上述本专利技术提供的技术方案可以看出,针对自然语言句子对,充分利用外部信息进行语义的增强表示,同时从不同粒度对句子语义进行精确建模和表示,实现对句子语义的全面准确理解和表示,从而高效建模两个句子之间的语义交互,最终准确判断两个句子之间的语义推断关系。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。图1为本专利技术实施例提供的一种图像增强的层次化语义表示的自然语言推理方法的流程图。具体实施方式下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。本专利技术实施例提供一种图像增强的层次化语义表示的自然语言推理方法,如图1所示,其主要包括如下步骤:步骤11、获取具有异构数据结构的自然语言句子对和对应的图像信息。本专利技术实施例中,每一条样例的异构数据包括:自然语言句子对以及句子发生时对应的图像。所述自然语言句子对包括:前提句子与假设句子;所述前提句子和假设句子的推理关系由专家标注,对应的图像信息由生成文本数据时自动获得。步骤12、对所述自然语言句子对分别进行词级别、短语级别与句子级别的不同粒度的语义建模,获得相应的语义表示。1)使用统一的数学形式表示自然语言句子对:由于输入的是两个句子:前提句子(PremiseSentence)和假设句子(HypothesisSentence),因此,对于自然语言句子对中的前提句子用表示其由m个单词组成的文本;对于自然语言句子对中的假设句子用表示其由n个单词组成的文本;其中,Sa与Sb中的每一元素均表示一个单词。2)Sa与Sb中的所有单词构成一个词典V,其大小用lv表示;Sa和Sb中的每一个元素都用一个独热向量(one-hotvector)表示,向量长度为词典的大小,每个单词的独热向量中只有其在词典中对应的索引位置为1,其他均为0;在此基础上,使用预训练好的词向量矩阵E得到每个单词的低维特征表示,也即词级别的语义表示:其中,和分别表示前提句子Sa中第i个单词和假设句子Sb中第j个单词,对应于前提句子Sa中第i个单词和假设句子Sb中第j个单词的词级别的语义表示;3)使用一维卷积分别处理两个句子的词级别的语义表示,具体的是使用不同的卷积核(unigram,bigram,trigram)对句子进行处理,从而得到两个句子在短语级别的语义表示:其中,Conv1D表示一维卷积操作,Sga和Sgb分别表示前提句子和假设句子在短语级别的语义表示集合,Sga、Sgb中元素数量分别为m、n。4)为了更好的建模句子的序列信息,采用门结构循环网络(GRU)分别对前提句子和假设句子进行建模,得到每个句子中的每个单词的隐含状态序列hi表示,这样可以得到在考虑周围上下文的条件下每个单词的深层语义表示,从而得到更加全面的句子语义理解,对于t时刻的输入xt,GRU的隐含状态ht更新如下:z=σ(xtUz+ht-1Wz)r=σ(xtUr+本文档来自技高网
...

【技术保护点】
1.一种图像增强的层次化语义表示的自然语言推理方法,其特征在于,包括:获取具有异构数据结构的自然语言句子对和对应的图像信息;对所述自然语言句子对分别进行词级别、短语级别与句子级别的不同粒度的语义建模,获得相应的语义表示;利用对应的图像信息,分别对词级别、短语级别与句子级别的语义表示进行增强处理;根据增强处理后的词级别、短语级别与句子级别的语义表示,利用自然语言推理中的匹配方法处理得到的自然语言句子对的表示向量,以此判断自然句子对中两个句子之间的推断关系。

【技术特征摘要】
1.一种图像增强的层次化语义表示的自然语言推理方法,其特征在于,包括:获取具有异构数据结构的自然语言句子对和对应的图像信息;对所述自然语言句子对分别进行词级别、短语级别与句子级别的不同粒度的语义建模,获得相应的语义表示;利用对应的图像信息,分别对词级别、短语级别与句子级别的语义表示进行增强处理;根据增强处理后的词级别、短语级别与句子级别的语义表示,利用自然语言推理中的匹配方法处理得到的自然语言句子对的表示向量,以此判断自然句子对中两个句子之间的推断关系。2.根据权利要求1所述的一种图像增强的层次化语义表示的自然语言推理方法,其特征在于,所述自然语言句子对包括:前提句子与假设句子;所述前提句子和假设句子的推理关系由专家标注,对应的图像信息由生成文本数据时自动获得。3.根据权利要求1所述的一种图像增强的层次化语义表示的自然语言推理方法,其特征在于,所述对所述自然语言句子对分别进行词级别、短语级别与句子级别的不同粒度的语义建模,获得相应的语义表示包括:使用统一的数学形式表示自然语言句子对:对于自然语言句子对中的前提句子用表示其由m个单词组成的文本;对于自然语言句子对中的假设句子用表示其由n个单词组成的文本;其中,Sa与Sb中的每一元素均表示一个单词;Sa与Sb中的所有单词构成一个词典V,其大小用lv表示;Sa和Sb中的每一个元素都用一个独热向量表示,向量长度为词典的大小,每个单词的独热向量中只有其在词典中对应的索引位置为1,其他均为0;在此基础上,使用预训练好的词向量矩阵E得到每个单词的低维特征表示,也即词级别的语义表示:其中,和分别表示前提句子Sa中第i个单词和假设句子Sb中第j个单词,Siwa、对应于前提句子Sa中第i个单词和假设句子Sb中第j个单词的词级别的语义表示;之后,使用一维卷积分别处理两个句子的词级别的语义表示,从而得到两个句子在短语级别的语义表示:其中,Conv1D表示一维卷积操作,Sga和Sgb分别表示前提句子和假设句子在短语级别的语义表示集合;门结构循环网络GRU分别对前提句子和假设句子进行建模,得到每个句子中的每个单词的隐含状态序列hi表示,对于t时刻的输入xt,GRU的隐含状态ht更新如下:z=σ(xtUz+ht-1Wz)r=σ(xtUr+ht-1Wr)其中,z,r,cm分别是GRU的更新门、重置门、记忆单元,Uz与Wz为更新门的参数矩阵,Ur与Wr为重置门的参数矩阵,Uh与Wh为记忆单元的参数矩阵,表示点乘;xt表示前提句子Sa或假设句子Sb中第t个单词的短语级别语义表示或σ表示Sigmoid激活操作;利用GRU编码每个句子中每个单词的短语级别语义表示,得到每个句子中单词之间相互依赖的隐层表示,公式如下:其中,和分别表示前提句Sa中第i个单词和假设句子Sb中第j个单词在句子级别的语义表示;表示前提句子Sa中从第1个短语级别的语义表示到第i'个短语级别的语义表示的集合,表示假设句子Sb中从第1个短语级别的语义表示到第j'个短语级别的语义表示的集合。4.根据权利要求1所述的一种图像增强的层次化语义表示的自然语言推理方法,其特征在于,所述利用对应的图像信息,分别对词级别、短语级别与句子级别的语义表示进行增强处理的过程包括:首先,利用数学形式表示图像信息I,将图像信息输入至神经网络模型,将神经网络模型最后一个卷积层的结果作为图像信息的特征序列表示,表示为C=(c1,c...

【专利技术属性】
技术研发人员:陈恩红刘淇张琨吕广奕吴乐武晗
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1