一种文章语义向量表示方法和系统技术方案

技术编号:21060327 阅读:18 留言:0更新日期:2019-05-08 07:03
本发明专利技术提供一种文章语义向量表示方法和系统,表示方法包括:S1、根据文章中任一句子的所有词向量获取任一句子的句向量;S2、将依据文章的句子正序排列的对应句向量和倒序排列的对应的句向量均输入双向的长短时间记忆网络模型,获取对应于任一句向量的第一输出量和任一句向量对应的关注度句向量的第二输出量;S3、根据第二输出量和对应的关注度句向量对任一句向量的关注度,获取任一句向量对应的句子的语义向量;S4、根据文章中的所有句向量对应的句子的语义向量,获取文章语义向量。本发明专利技术使得在段落语义提取阶段总体的计算量有了大幅度的减少,并且解决了传统基于词向量的语义向量提取无法实现的段落语义表示的功能。

A Semantic Vector Representation Method and System for Articles

【技术实现步骤摘要】
一种文章语义向量表示方法和系统
本专利技术涉及文章语义分析领域,更具体地,涉及一种文章语义向量表示方法和系统。
技术介绍
文章语义的向量表示在与自然语言处理相关的诸多领域发挥着重要的作用,例如文本中心思想的提取、文本的语义分析、文本分类、对话系统以及机器翻译等方面的研究。但是现有的技术做文章的语义表示采用的是基于词向量的方法,在词向量的基础上计算段落的语义表示。图1为现有技术中的一种基于词向量的文章语义向量表示方法的示意图,请参阅图1,这种方法是基于词向量的语义表示,这种方法的过程是将词向量通过长短时间记忆网络(LongShort-TermMemory,LSTM)直接输出得到句子或者文章的语义向量。这个方法需要先将文本进行分词,分词后进行词汇向量化,得到词向量,将词向量按照句子的时间顺序输入LSTM模型。模型的最后的输出结果就是这一句文本最终的语义向量。其中,{x1,x2,...,xn}为输入的单词序列,通过Word2vector获取词向量,理论上模型的最后的输出结果将包含本句话中所有应当保留的信息,因此可以将这个输出结果作为本句话的语义向量表示,但是对语义向量提取采取的方式会极大的影响对文本语义表示的效果。对于这种基于词向量的句子语义表示方法,以基于神经网络机器翻译(neuralmachinetranslation,NMT)中的sequencetosequence模型为例,向模型中的Encode中依次输入字向量或者词向量,直到我们输入这个句子的最后一个字向量或者词向量,此时Encode输出整句的语义向量。NMT的特点就是把考虑之前的每一步的输入信息,所以在理论上这个语义向量就能够包含整个句子的信息。但是,实际操作过程中,随着词序列的不断增长,尤其达到段落级别的文本量,发现有如下问题:当序列不断输入时,语义信息无法记忆和表示整个序列的信息;词汇与词汇间的影响因子相似,无法突出文本当中的重点;很难提取段落文本的语义向量表示。在现有的技术当中,另一种也是最具有代表性的语义向量的表示方法是基于词向量的注意力模型获取语义向量表示。注意力的转移是人的大脑在接收或者处理外部信息时通过感官巧妙而合理地改变对外部信息的关注点,选择性地忽视与自身不太相关的内容,并将自身需要的信息放大。通过改变关注点,人脑对所集中注意力部位的信息的接收灵敏度和信息处理速度都大大增强,能有效的过滤不相关的信息,突出密切相关的信息。总而言之,注意力机制的基本思想并不是一次性把整个场景的每个位置平等对待,而是根据需求将重点集中到特定的位置。一旦特定提取的规则确定,再利用机器学习或者深度神经网络学习到未来要观察图像注意力应该集中的位置。文本语义向量表示最开始引入注意力机制是用在了NMT上,神经网络机器翻译是一个典型的sequencetosequence模型,其中包含一个encodertodecoder模型。图2为现有技术中的一种基于词向量注意力模型的文章语义向量表示方法的示意图,如图2所示,现有的基于词向量注意力模型获取语义向量表示是,使用一个循环神经网络(RecurrentneuralNetwork,RNN)对源文本中的单词按照时间序列进行编码,编码之后的每一个输出与相应的关注度相乘,最后求和得到一个固定维度的中间语义向量。具体的语义向量表示为:其中,ci为语义向量,Ts为b,b为文章的句子个数,hj为第j个词向量的通过LSTM的输出量,exp(eij)为以e为底的eij次方,Tx为i,va为词向量通过LSTM的输出量,为Si-1的权重矩阵,Si-1为解码器在第i-1时刻的隐藏状态,Ua为hj的权重矩阵,tanh()为激活函数0<j≤i,0<i≤b,i,j∈Z,Z为整数集。对于基于词向量的注意力模型的语义向量表示方法,由于引入了注意力机制,使得每个词汇都在经过数据学习后提取同步的关注度,每种词汇具有各自对应的关注度,并经过加权获得的句子的语义表示实现了句子间的重点提取。但是,这种方法仅仅是简单的将句子语义表示直接相加,对于文章的翻译、文章摘要提取这类长文本很难进行语义向量表示,基于词向量并且不能很好地表示文章或者段落的整体语义。
技术实现思路
本专利技术提供一种克服上述问题的一种文章语义向量表示方法和系统。根据本专利技术的一个方面,提供一种文章语义向量表示方法,包括:S1、根据所述文章中任一句子的所有词向量,获取所述任一句子的句向量;S2、将依据所述文章的句子正序排列的对应的句向量和倒序排列的对应的句向量均输入双向的长短时间记忆网络模型,获取对应于任一句向量的第一输出量和所述任一句向量对应的关注度句向量的第二输出量,其中,所述任一句向量对应的关注度句向量为:在所述文章的句向量正序排列下,所述任一句向量和所述任一句向量之前的句向量构成的至少一个句向量;S3、根据所述第二输出量和所述对应的关注度句向量对所述任一句向量的关注度,获取所述任一句向量对应的句子的语义向量;S4、根据所述文章中的所有句向量对应的句子的语义向量,获取所述文章语义向量。优选地,步骤S1进一步包括:将所述文章中任一句子的所有词向量的同一维度点进行加和,获取所述任一句子的句向量。优选地,步骤S2进一步包括:将依据所述文章的句子正序排列的对应的句向量输入双向的长短时间记忆网络模型,获取第一个句向量到所述任一句向量的语义信息和所述第一个句向量到所述关注度句向量的语义信息;将依据所述文章的句子倒序排列的对应的句向量输入双向的长短时间记忆网络模型,获取最后一个句向量到所述任一句向量的语义信息和所述最后一个句向量到所述关注度句向量的语义信息;将所述第一个句向量到所述任一句向量的语义信息和所述最后一个句向量到所述任一句向量的语义信息整合,获取对应于任一句向量的第一输出量,并且,将所述第一个句向量到所述关注度句向量的语义信息和所述最后一个句向量到所述关注度句向量的语义信息整合,获取对应于所述关注度句向量的第二输出量。优选地,步骤S3中所述对应的关注度句向量对所述任一句向量的关注度通过下式获取:其中,aij为第j个句向量对第i个句向量的关注度,eij为双线性函数,Tx为i,exp(eij)为以e为底的eij次方,第j个句向量为第i个句向量的任一关注度句向量,0<j≤i,0<i≤b,i,j∈Z,b为文章的句向量个数,Z为整数集。优选地,步骤S3进一步包括:根据所述第二输出量和所述对应的关注度句向量对所述任一句向量的关注度,通过下式获取所述任一句向量对应的句子的语义向量:其中,ci为第i个句向量对应的句子的语义向量,Ts为b,b为文章的句向量个数,aij为第j个句向量对第i个句向量的关注度,hj为第j个句向量的第一输出量,0<j≤i,0<i≤b,i,j∈Z,Z为整数集。优选地,所述双线性函数为:eij=ci-1Whj其中,eij为双线性函数,ci-1为第i-1个句向量对应的句子的语义向量,W为hj的权重矩阵,W∈Rh*h,Rh*h为h乘h的实数域,h∈R,R为实数集,hj为为第j个句向量的第一输出量,0<j≤i,0<i≤b,i,j∈Z,b为文章的句向量个数,Z为整数集。优选地,所述权重矩阵通过反向传播算法获取。根据本专利技术的另一个方面,提供一种文章语义向量表示系统,包括:获取句向量模块,用于根据所述文章本文档来自技高网
...

【技术保护点】
1.一种文章语义向量表示方法,其特征在于,包括:S1、根据所述文章中任一句子的所有词向量,获取所述任一句子的句向量;S2、将依据所述文章的句子正序排列的对应的句向量和倒序排列的对应的句向量均输入双向的长短时间记忆网络模型,获取对应于任一句向量的第一输出量和所述任一句向量对应的关注度句向量的第二输出量,其中,所述任一句向量对应的关注度句向量为:在所述文章的句向量正序排列下,所述任一句向量和所述任一句向量之前的句向量构成的至少一个句向量;S3、根据所述第二输出量和所述对应的关注度句向量对所述任一句向量的关注度,获取所述任一句向量对应的句子的语义向量;S4、根据所述文章中的所有句向量对应的句子的语义向量,获取所述文章语义向量。

【技术特征摘要】
1.一种文章语义向量表示方法,其特征在于,包括:S1、根据所述文章中任一句子的所有词向量,获取所述任一句子的句向量;S2、将依据所述文章的句子正序排列的对应的句向量和倒序排列的对应的句向量均输入双向的长短时间记忆网络模型,获取对应于任一句向量的第一输出量和所述任一句向量对应的关注度句向量的第二输出量,其中,所述任一句向量对应的关注度句向量为:在所述文章的句向量正序排列下,所述任一句向量和所述任一句向量之前的句向量构成的至少一个句向量;S3、根据所述第二输出量和所述对应的关注度句向量对所述任一句向量的关注度,获取所述任一句向量对应的句子的语义向量;S4、根据所述文章中的所有句向量对应的句子的语义向量,获取所述文章语义向量。2.根据权利要求1所述的表示方法,其特征在于,步骤S1进一步包括:将所述文章中任一句子的所有词向量的同一维度点进行加和,获取所述任一句子的句向量。3.根据权利要求1所述的表示方法,其特征在于,步骤S2进一步包括:将依据所述文章的句子正序排列的对应的句向量输入双向的长短时间记忆网络模型,获取第一个句向量到所述任一句向量的语义信息和所述第一个句向量到所述关注度句向量的语义信息;将依据所述文章的句子倒序排列的对应的句向量输入双向的长短时间记忆网络模型,获取最后一个句向量到所述任一句向量的语义信息和所述最后一个句向量到所述关注度句向量的语义信息;将所述第一个句向量到所述任一句向量的语义信息和所述最后一个句向量到所述任一句向量的语义信息整合,获取对应于任一句向量的第一输出量,并且,将所述第一个句向量到所述关注度句向量的语义信息和所述最后一个句向量到所述关注度句向量的语义信息整合,获取对应于所述关注度句向量的第二输出量。4.根据权利要求1所述的表示方法,其特征在于,步骤S3中所述对应的关注度句向量对所述任一句向量的关注度通过下式获取:其中,aij为第j个句向量对第i个句向量的关注度,eij为双线性函数,Tx为i,exp(eij)为以e为底的eij次方,第j个句向量为第i个句向量的任一关注度句向量,0<j≤i,0<i≤b,i,j∈Z,b为文章的句向量个数,Z为整数集。5.根据权利要求4所述的表示方法,其特征在于,步骤S3进一步包括:根据所述第二输出量和所述对应的关注度句向量对所述任一句向量的关注度,通过下式获取所述任一句向量对应的句子的语义向量:其中,ci为第i个句向量对应的句子的语义向量,Ts为b,b为文章的句向量个数,aij为第j个句向量对第i个句向量的关注度,hj为第j个句向量的第一输出量,0<j≤i,0<i≤b,i,j∈Z,Z为整数集。6.根据权...

【专利技术属性】
技术研发人员:王宁君张春荣赵琦
申请(专利权)人:普天信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1