一种基于自注意力网络的文本摘要自动生成方法技术

技术编号:22055266 阅读:91 留言:0更新日期:2019-09-07 15:15
本发明专利技术公开了一种基于自注意力网络的文本摘要自动生成方法,包括步骤:1)将输入文本进行分词,得到词序列;2)将词序列进行词嵌入产生相应的词向量序列;3)使用自注意力网络编码器对词向量序列进行编码;4)使用自注意力网络解码器对输入文本编码向量进行解码,生成文本摘要。本发明专利技术方法具有模型计算速度快,训练效率高,生成摘要质量高,模型的泛化性能好等优点。

An Automatic Text Summary Generation Method Based on Self-Attention Network

【技术实现步骤摘要】
一种基于自注意力网络的文本摘要自动生成方法
本专利技术涉及自然语言处理的
,尤其是指一种基于自注意力网络的文本摘要自动生成方法。
技术介绍
文本摘要是指从源文本中经过提炼总结得到的一个或一段语句,能够充分反映出文本的主旨,并且简练易读。文本摘要自动生成是指使用计算机来自动生成文本摘要的技术,文本摘要自动生成的目标就是:使用计算机科学技术和自然语言处理技术从原始文本中提取出重要内容,然后再将文本重要内容按照用户需求的形式重新呈现给用户。现有的文本摘要自动生成模型有基于循环神经网络的序列到序列模型、循环神经网络与注意力结合网络、基于长短时记忆网络(LSTM)的与的序列到序列模型、长短时记忆网络(LSTM)注意力结合网络、PointerGenerator等。基于循环神经网络的序列到序列模型是指编码器和解码器都是只由一层循环神经网络组成的网络,循环神经网络与注意力结合网络是指编码器和解码器只由循环神经网络组成的网络,不同的是,解码器将使用注意力机制计算输入文本中各个词对解码步骤的输出的关注权重以实现提取深层特征。同样的,基于长短时记忆网络(LSTM)的序列到序列模型是指编码器和解码器都本文档来自技高网...

【技术保护点】
1.一种基于自注意力网络的文本摘要自动生成方法,其特征在于,包括以下步骤:1)将输入文本进行分词,得到词序列;2)将词序列进行词嵌入产生相应的词向量序列;3)使用自注意力网络编码器对词向量序列进行编码;4)使用自注意力网络解码器对输入文本编码向量进行解码,生成文本摘要。

【技术特征摘要】
1.一种基于自注意力网络的文本摘要自动生成方法,其特征在于,包括以下步骤:1)将输入文本进行分词,得到词序列;2)将词序列进行词嵌入产生相应的词向量序列;3)使用自注意力网络编码器对词向量序列进行编码;4)使用自注意力网络解码器对输入文本编码向量进行解码,生成文本摘要。2.根据权利要求1所述的一种基于自注意力网络的文摘要自动生成方法,其特征在于,在步骤1)中,将输入文本进行分词,具体是:英文文本将使用CoreNLP工具进行分词,中文文本将使用结巴分词工具进行分词,在经过分词后,原始文本就转换成为一个由多个词组成的词序列。3.根据权利要求1所述的一种基于自注意力网络的文摘要自动生成方法,其特征在于,在步骤2)中,将词序列进行词嵌入产生相应的词向量序列,具体如下:原始文本经过分词后成为一个词序列,但深度学习神经网络模型无法直接处理词,因此需要将文本中的词向量化;词向量就是用于在深度神经网络中表示词的向量,也能够认为是词的特征向量或表征;采用的词嵌入方法是在模型训练时首先以随机初始化的方式生成词表中的所有词的词向量,然后由模型在训练过程中更新词表的词向量;在验证和测试阶段,模型直接使用由训练得到的词嵌入向量;这种方法的缺点是模型需要学习的参数更多了,但优势是针对特定任务的数据集中时,词的词嵌入表示质量更高,对模型性能表现更好。4.根据权利要求1所述的一种基于自注意力网络的文摘要自动生成方法,其特征在于:在步骤3)中,使用自注意力网络编码器对词向量序列进行编码,具体如下:编码器的输入是输入序列经分词后的词嵌入向量序列;当词嵌入向量序列传入模型中计算时首先进行位置编码;由于自注意力计算中输入的每个词都会和输入序列中其它所有词都计算相关性,自注意力层中不同位置上的相同词计算后得到的将是相同的输出向量;此时即使将输入文本的词的顺序打乱也不会影响注意力层的输出,即纯粹的完全自注意力网络无法对序列元素的顺序特征进行特征表示;因此,在自注意力层计算之前,选择将输入序列中的词的位置信息添加到词的词嵌入向量中,将使用正弦位置编码的计算方法来进行序列元素的位置编码,这种方式的优点是没有需要学习的训练参数,减少模型计算量;当输入词向量与位置编码融合后,传入自注意力层进行计算;编码器的每个自注意力层包含8个注意力头,编码器共包含6个自注意力层;当计算每个注意力头时,首先针对输入向量计算自注意力分布,随后将自注意力层计算得到的自注意力分布和输入向量进行残差连接,再进行Dropout计算,随后进行层归一化计算;残差连接的作用是为了能够帮助构建更深层的网络,并且能够缓解梯度消失/爆炸的问题;Dropout计算是基于Dropout概率来舍弃网络模型的部分参数,是能够有效避免模型过拟合的技术;层归一化是在批归一化的基础上优化而提出来的技术,它通过对模型同一层的数据输入进行汇总,计算平均值和方差,然后对该层的数据进行归一化计算,使得该层的数据分布能够调整到一个大小合适的范围内,以避免数据分布范围过广后导致某些数据对结果影响过大或无法影响结果;前面的输出在进行层归一化计算之后再将输出传入一个前馈神经网络层,该神经网络层中包含有模型需要学习的参数;编码器输入向量...

【专利技术属性】
技术研发人员:张宇郑冬云郭炜强郑波关健创
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1