一种文章语义向量表示方法和系统技术方案

技术编号：21060327 阅读：18 留言：0更新日期：2019-05-08 07:03

本发明专利技术提供一种文章语义向量表示方法和系统，表示方法包括：S1、根据文章中任一句子的所有词向量获取任一句子的句向量；S2、将依据文章的句子正序排列的对应句向量和倒序排列的对应的句向量均输入双向的长短时间记忆网络模型，获取对应于任一句向量的第一输出量和任一句向量对应的关注度句向量的第二输出量；S3、根据第二输出量和对应的关注度句向量对任一句向量的关注度，获取任一句向量对应的句子的语义向量；S4、根据文章中的所有句向量对应的句子的语义向量，获取文章语义向量。本发明专利技术使得在段落语义提取阶段总体的计算量有了大幅度的减少，并且解决了传统基于词向量的语义向量提取无法实现的段落语义表示的功能。

A Semantic Vector Representation Method and System for Articles

全部详细技术资料下载

【技术实现步骤摘要】
一种文章语义向量表示方法和系统
本专利技术涉及文章语义分析领域，更具体地，涉及一种文章语义向量表示方法和系统。
技术介绍
文章语义的向量表示在与自然语言处理相关的诸多领域发挥着重要的作用，例如文本中心思想的提取、文本的语义分析、文本分类、对话系统以及机器翻译等方面的研究。但是现有的技术做文章的语义表示采用的是基于词向量的方法，在词向量的基础上计算段落的语义表示。图1为现有技术中的一种基于词向量的文章语义向量表示方法的示意图，请参阅图1，这种方法是基于词向量的语义表示，这种方法的过程是将词向量通过长短时间记忆网络(LongShort-TermMemory，LSTM)直接输出得到句子或者文章的语义向量。这个方法需要先将文本进行分词，分词后进行词汇向量化，得到词向量，将词向量按照句子的时间顺序输入LSTM模型。模型的最后的输出结果就是这一句文本最终的语义向量。其中，{x1,x2,...,xn}为输入的单词序列，通过Word2vector获取词向量，理论上模型的最后的输出结果将包含本句话中所有应当保留的信息，因此可以将这个输出结果作为本句话的语义向量表示，但是对语义向量提取采取的方式会极大的影响对文本语义表示的效果。对于这种基于词向量的句子语义表示方法，以基于神经网络机器翻译(neuralmachinetranslation，NMT)中的sequencetosequence模型为例，向模型中的Encode中依次输入字向量或者词向量，直到我们输入这个句子的最后一个字向量或者词向量，此时Encode输出整句的语义向量。NMT的特点就是把考虑之前的每一步的输入信息，所以...

【技术保护点】
1.一种文章语义向量表示方法，其特征在于，包括：S1、根据所述文章中任一句子的所有词向量，获取所述任一句子的句向量；S2、将依据所述文章的句子正序排列的对应的句向量和倒序排列的对应的句向量均输入双向的长短时间记忆网络模型，获取对应于任一句向量的第一输出量和所述任一句向量对应的关注度句向量的第二输出量，其中，所述任一句向量对应的关注度句向量为：在所述文章的句向量正序排列下，所述任一句向量和所述任一句向量之前的句向量构成的至少一个句向量；S3、根据所述第二输出量和所述对应的关注度句向量对所述任一句向量的关注度，获取所述任一句向量对应的句子的语义向量；S4、根据所述文章中的所有句向量对应的句子的语义向量，获取所述文章语义向量。

【技术特征摘要】
1.一种文章语义向量表示方法，其特征在于，包括：S1、根据所述文章中任一句子的所有词向量，获取所述任一句子的句向量；S2、将依据所述文章的句子正序排列的对应的句向量和倒序排列的对应的句向量均输入双向的长短时间记忆网络模型，获取对应于任一句向量的第一输出量和所述任一句向量对应的关注度句向量的第二输出量，其中，所述任一句向量对应的关注度句向量为：在所述文章的句向量正序排列下，所述任一句向量和所述任一句向量之前的句向量构成的至少一个句向量；S3、根据所述第二输出量和所述对应的关注度句向量对所述任一句向量的关注度，获取所述任一句向量对应的句子的语义向量；S4、根据所述文章中的所有句向量对应的句子的语义向量，获取所述文章语义向量。2.根据权利要求1所述的表示方法，其特征在于，步骤S1进一步包括：将所述文章中任一句子的所有词向量的同一维度点进行加和，获取所述任一句子的句向量。3.根据权利要求1所述的表示方法，其特征在于，步骤S2进一步包括：将依据所述文章的句子正序排列的对应的句向量输入双向的长短时间记忆网络模型，获取第一个句向量到所述任一句向量的语义信息和所述第一个句向量到所述关注度句向量的语义信息；将依据所述文章的句子倒序排列的对应的句向量输入双向的长短时间记忆网络模型，获取最后一个句向量到所述任一句向量的语义信息和所述最后一个句向量到所述关注度句向量的语义信息；将所述第一个句向量到所述任一句向量的语义信息和所述最后一个句向量到所述任一句向量的语义信息整合，获取对应于任一句向量的第一输出量，并且，将所述第一个句向量到所述关注度句向量的语义信息和所述最后一个句向量到所述关注度句向量的语义信息整合，获取对应于所述关注度句向量的第二输出量。4.根据权利要求1所述的表示方法，其特征在于，步骤S3中所述对应的关注度句向量对所述任一句向量的关注度通过下式获取：其中，aij为第j个句向量对第i个句向量的关注度，eij为双线性函数，Tx为i，exp(eij)为以e为底的eij次方，第j个句向量为第i个句向量的任一关注度句向量，0＜j≤i，0＜i≤b，i,j∈Z，b为文章的句向量个数，Z为整数集。5.根据权利要求4所述的表示方法，其特征在于，步骤S3进一步包括：根据所述第二输出量和所述对应的关注度句向量对所述任一句向量的关注度，通过下式获取所述任一句向量对应的句子的语义向量：其中，ci为第i个句向量对应的句子的语义向量，Ts为b，b为文章的句向量个数，aij为第j个句向量对第i个句向量的关注度，hj为第j个句向量的第一输出量，0＜j≤i，0＜i≤b，i,j∈Z，Z为整数集。6.根据权...

【专利技术属性】
技术研发人员：王宁君，张春荣，赵琦，
申请(专利权)人：普天信息技术有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人