当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于改进的选择机制和LSTM变体的文本摘要模型及自动文本摘要方法技术

技术编号:21891877 阅读:23 留言:0更新日期:2019-08-17 14:30
本发明专利技术公开了一种基于改进的选择机制和LSTM变体的文本摘要模型及自动文本摘要方法,本发明专利技术在基于注意力机制的编码器‑解码器模型基础上,提出基于信息增益的选择机制和基于拷贝的LSTM变体。一方面,在编码器和解码器之间增加改进的选择机制,判断原文本中的关键信息,并将概要信息提炼出来,提高了自动文本摘要的概括能力;另一方面,以LSTM变体作为解码器端循环神经网络的循环单元,可以优化解码过程,提高解码效率,减少生成摘要中的重复问题从而提高生成摘要的可读性。

A Text Summarization Model and Automatic Text Summarization Method Based on Improved Selection Mechanism and LSTM Variants

【技术实现步骤摘要】
一种基于改进的选择机制和LSTM变体的文本摘要模型及自动文本摘要方法
本专利技术涉及人工智能与自然语言处理的
,具体涉及一种基于改进的选择机制和LSTM变体的文本摘要模型及文本摘要方法。
技术介绍
随着互联网的迅速发展,互联网中的文本数据如新闻、博客、邮件充斥着我们的生活,这些文本数据中往往存在冗余无用的信息。在这个信息爆炸的互联网大数据时代,如何从大量文本数据中检索出有用的信息是一项非常具有挑战性的任务。通过简短的摘要,我们可以高效地检索文本内容,挖掘文本信息。文章的标题可以是哗众取宠、名不副实的,但是文章的摘要一定是符合文章中心思想以及内容的。人工为每篇文章、新闻、博客、邮件撰写摘要,将耗费大量的人力、物力资源。随着计算机技术和人工智能的发展,自然语言处理领域中的自动文本摘要技术可以高效的完成大量文本摘要工作。自动文本摘要技术分为抽取式文本摘要技术和生成式文本摘要技术,生成式文本摘要技术相比抽取式文本摘要技术有更强的概括能力。本专利技术就是一种生成式文本摘要技术。然而传统的生成式文本摘要技术仍然存在以下两个问题:1)如何判断原文本中的重要语句和关键词?2)如何提高生成摘要的可读性?本专利技术在传统基于注意力机制的编码器-解码器模型上,针对原文本表示问题,基于信息论中信息熵和信息增益的思想设计一种可以提炼原文本概要信息的改进的选择机制,解决如何判断原文本中关键信息的问题;针对解码器的解码过程,基于拷贝的思想设计一种可以拷贝信息的LSTM变体作为循环神经网络的循环单元,解决生成摘要中的重复问题从而提高生成摘要的可读性。
技术实现思路
专利技术目的:本专利技术所要解决的技术问题是使用生成式文本摘要技术实现自动文本摘要,针对传统生成式文本摘要技术提炼原文本概要信息困难的问题,提出一种基于信息论中信息熵和信息增益的思想的选择机制对编码后的信息进行提炼;针对生成摘要存在重复单词的问题,提出一种基于拷贝思想的LSTM变体作为解码器端循环神经神经网络的循环单元。技术方案:为实现上述目的,本专利技术采用的技术方案为:一种基于改进的选择机制和LSTM变体的文本摘要模型,包括编码器、选择器和解码器,所述文本摘要模型的输入样本数据格式为:原文本-摘要;编码器对输入的样本数据中的原文本序列x=(x0,x1,x2,...,xn)进行编码,得到编码后对应的隐藏状态序列其中,n为原文本序列的长度;选择器对隐藏状态序列he进行选择,得到筛选后对应的概要状态序列其中s为概要状态序列的长度且s≤n;对隐藏状态序列中的每个元素筛选的具体步骤包括:步骤a,通过下式计算得到原文本表示s:步骤b,通过下式计算元素对摘要的信息增益IGi:其中tanh(·)为激活函数,Wg和Ug为权重矩阵,vg为权重向量,bg为偏置向量;步骤c,根据步骤b得到的信息增益IGi通过下式对元素进行筛选:步骤d,将的概要状态丢弃得到最后的概要状态序列作为选择器的输出;解码器包括词嵌入层和循环神经网络层,循环神经网络层使用LSTM变体网络作为循环单元;词嵌入层将样本中真实摘要序列y*中的每一个元素转化为词嵌入向量wt,循环神经网络层中的每一个LSTM变体网络针对其相应的wt生成隐藏状态生成的步骤为:根据嵌入层输出的wt和LSTM变体上一时间步输出的隐藏状态计算遗忘门拷贝门输出门其中,Wc、Wo、Wc为权重矩阵,bc、bo、bc为偏置向量;计算候选拷贝信息更新拷贝细胞状态计算得到LSTM变体输出的隐藏状态解码器根据和采用注意力机制选择出摘要词yt+1,最终得到预测摘要序列y=(y0,y1,y2,...,yn)。一种基于改进的选择机制和LSTM变体的文本摘要方法,包括步骤:步骤S1,数据预测处理:将采集到的样本数据进行预处理,形成训练样本集,训练样本集中的每个样本格式为:原文本-摘要;步骤S2,文本摘要模型训练:利用训练样本集使用交叉熵训练算法训练文本摘要模型,所述文本摘要模型为权利要求1所述的文本摘要模型;训练的具体步骤包括:步骤S21,编码阶段:使用文本摘要模型中的编码器对样本中的原文本序列x=(x0,x1,x2,...,xn)进行编码,得到编码后对应的隐藏状态序列其中n为原文本序列的长度;步骤S22,选择阶段:使用文本摘要模型中的选择器对步骤S21得到的隐藏状态序列进行选择,得到筛选后对应的概要状态序列其中s为概要状态序列的长度且s≤n;步骤S23,解码阶段:使用文本摘要模型中的解码器将样本中的摘要序列和步骤S22中得到的概要状态序列作为输入,解码预测得到生成摘要序列y=(y0,y1,y2,...,yn),其中m为样本中真实的摘要序列长度;步骤S24,反向传播更新模型参数:计算步骤S23中得到的生成摘要序列y=(y0,y1,y2,...,yn)与参考摘要序列之间的误差,并通过反向传播法更新网络中的参数;步骤S3,对新输入的原文本,利用训练好的文本摘要模型使用集束搜索算法生成摘要。进一步的,所述步骤S21编码阶段在时间步t时刻执行以下步骤:步骤S211,将xt输入到编码器的词嵌入层,得到对应的词嵌入向量wt;步骤S212,将步骤S211得到的词嵌入向量wt和上一时间步编码器输出的隐藏状态输入到编码器的双向循环网络层得到正向隐藏状态和反向隐藏状态步骤S213,将步骤S212得到的正向隐藏状态和反向隐藏状态通过下式得到编码器针对xt最终输出的隐藏状态ht:进一步的,所述编码器的双向循环网络层使用长短期记忆单元作为循环单元。进一步的,所述解码阶段的具体步骤包括:步骤S231,通过下式初始化解码器中循环神经网络层LSTM变体网络的待拷贝细胞状态其中是步骤S21结束后解码器中正向长短期记忆单元的细胞状态,是步骤S21结束后解码器中反向长短期记忆单元的细胞状态,Wc和bc分别为权重矩阵和偏置向量;步骤S232,初始化解码器中循环神经网络层LSTM变体网络的拷贝细胞状态为0;步骤S233,针对样本中真实摘要序列y*中的每一个元素进行以下步骤得到对应预测输出的摘要词yt+1,最终得到生成摘要序列y=(y0,y1,y2,...,yn):步骤S2331,将输入到解码器的词嵌入层得到对应的词嵌入向量wt;步骤S2332,将步骤S2331得到的词嵌入向量wt和上一时间步解码器输出的隐藏状态输入到解码器循环神经网络层得到隐藏状态步骤S2333,针对选择器输出的概要状态序列中的每一个元素通过下式计算其与步骤S2332得到的隐藏状态之间的注意力得分et,i:其中,tanh(·)为激活函数,Wa和Ua为权重矩阵,va为权重向量,ba为偏置向量;步骤S2334,根据步骤S2333得到的注意力得分,通过下式计算概要状态序列上的注意力分布αt:步骤S2335,根据步骤S2334得到的注意力分布,通过下式计算上下文向量ct:步骤S2336,根据步骤S2335得到的上下文向量,通过下式计算对应的词汇表分布Pvocab,t:其中,softmax(·)为归一化指数函数,Wh和Wh为权重矩阵,bz和bh为偏置向量;步骤S2337,根据步骤S2336得到的词汇表分布Pvocab,t通过指针-生成网络计算得到虚拟词汇表分布步骤S2338,根据步骤S2337得到的虚拟词汇表分布选择概率最大的单词作为解码器预测输出的摘要词yt+1。本文档来自技高网...

【技术保护点】
1.一种基于改进的选择机制和LSTM变体的文本摘要模型,其特征在于,包括编码器、选择器和解码器,所述文本摘要模型的输入样本数据格式为:原文本‑摘要;编码器对输入的样本数据中的原文本序列x=(x0,x1,x2,...,xn)进行编码,得到编码后对应的隐藏状态序列

【技术特征摘要】
1.一种基于改进的选择机制和LSTM变体的文本摘要模型,其特征在于,包括编码器、选择器和解码器,所述文本摘要模型的输入样本数据格式为:原文本-摘要;编码器对输入的样本数据中的原文本序列x=(x0,x1,x2,...,xn)进行编码,得到编码后对应的隐藏状态序列其中,n为原文本序列的长度;选择器对隐藏状态序列he进行选择,得到筛选后对应的概要状态序列其中s为概要状态序列的长度且s≤n;对隐藏状态序列中的每个元素筛选的具体步骤包括:步骤a,通过下式计算得到原文本表示s:步骤b,通过下式计算元素对摘要的信息增益IGi:其中tanh(·)为激活函数,Wg和Ug为权重矩阵,vg为权重向量,bg为偏置向量;步骤c,根据步骤b得到的信息增益IGi通过下式对元素进行筛选:步骤d,将的概要状态丢弃得到最后的概要状态序列作为选择器的输出;解码器包括词嵌入层和循环神经网络层,循环神经网络层使用LSTM变体网络作为循环单元;词嵌入层将样本中真实摘要序列y*中的每一个元素转化为词嵌入向量wt,循环神经网络层中的每一个LSTM变体网络针对其相应的wt生成隐藏状态生成的步骤为:根据嵌入层输出的wt和LSTM变体网络上一时间步输出的隐藏状态计算遗忘门拷贝门输出门其中,Wc、Wo、Wc为权重矩阵,bc、bo、bc为偏置向量;计算候选拷贝信息更新拷贝细胞状态计算得到LSTM变体网络输出的隐藏状态解码器根据和采用注意力机制选择出摘要词yt+1,最终得到预测摘要序列y=(y0,y1,y2,...,yn)。2.一种基于改进的选择机制和LSTM变体的文本摘要方法,其特征在于,包括步骤:步骤S1,数据预测处理:将采集到的样本数据进行预处理,形成训练样本集,训练样本集中的每个样本格式为:原文本-摘要;步骤S2,文本摘要模型训练:利用训练样本集使用交叉熵训练算法训练文本摘要模型,所述文本摘要模型为权利要求1所述的文本摘要模型;训练的具体步骤包括:步骤S21,编码阶段:使用文本摘要模型中的编码器对样本中的原文本序列x=(x0,x1,x2,...,xn)进行编码,得到编码后对应的隐藏状态序列其中n为原文本序列的长度;步骤S22,选择阶段:使用文本摘要模型中的选择器对步骤S21得到的隐藏状态序列进行选择,得到筛选后对应的概要状态序列其中s为概要状态序列的长度且s≤n;步骤S23,解码阶段:使用文本摘要模型中的解码器将样本中的摘要序列和步骤S22中得到的概要状态序列作为输入,解码预测得到生成摘要序列y=(y0,y1,y2,...,yn),其中m为样本中真实的摘要序列长度;步骤S24,反向传播更新模型参数:计算步骤S23中得到的生成摘要序列y=(y0,y1,y2,...,yn)与参考摘要序列之间的误差,并通过反向传播法更新网络中的参数;步骤S3,对新输入的原文本,利用训练好的文本摘要模型使用集束搜索算法生成摘要。3.根据权利要求2所述的一种基于改进的选择机制和LSTM变体的文本摘要方法,其特征在于,所述步骤S21编码阶段在时间步t时刻执行以下步骤:步骤S211,将xt输入到编码器的词嵌入层,得到对应的词嵌入向量wt;步骤S212,将步骤S211得到的词嵌入向量wt和上一时间步编码器输出的隐藏状态输入到编码器的双向循环网络层得到正向隐藏状态和反向隐藏状态步骤S213,将步骤S212得到的正向隐藏状态和反向隐藏状态通过下式得到编码器针对xt最终输出的隐藏状态ht:4.根据权利要求3所述的一种基于改...

【专利技术属性】
技术研发人员:吴骏葛高坚王崇骏
申请(专利权)人:南京大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1