基于二级注意力的深度学习文本摘要生成方法技术

技术编号:24574565 阅读:68 留言:0更新日期:2020-06-21 00:11
本发明专利技术公开了一种基于二级注意力的深度学习文本摘要生成方法,该方法主要构建一个文本摘要生成模型,该文本摘要生成模型由编码结构和解码结构组成,通过数据集(基于数据集构建数据字典,根据数据统计结果选择训练文本长度和训练摘要长度,对数据集中的每个文本构建相对应的小型字典,根据训练文本长度、训练摘要长度、文本对应的小型字典及数据字典对数据进行预处理,并得到带未登录词和不带未登录词的文本索引序列和摘要索引序列)训练该模型,利用训练好的文本摘要生成模型进行文本摘要生成,输入文本,进行编码、解码后直接输出摘要。本发明专利技术方法不需要依赖特定环境下的文本类型,不限特定领域,具有较强的通用性和可扩展性。

A method of generating deep learning text Abstract Based on second level attention

【技术实现步骤摘要】
基于二级注意力的深度学习文本摘要生成方法
本专利技术涉及深度学习、自然语言处理的
,尤其是指一种基于二级注意力的深度学习文本摘要生成方法。
技术介绍
目前主流的两种文本摘要算法为抽取式文本摘要和生成式文本摘要。抽取式文本摘要是从文本中抽取一些关键的句子或者词语组成文本摘要,该方法是目前较为主流和成熟的方法,抽取式文本摘要的主要方法有基于图的方法和基于特征的方法。基于图的方法是构建基于文本节点的关系图模型,文本摘要从文本的关系模型中的关系程度排序中产生,最经典的基于图的方法是TextRank,TextRank是基于PageRank上改进的方法,PageRank最开始是谷歌用于对网页进行搜索排序的方法,TextRank算法仿照PageRank,将句子作为节点,使用句子间相似度,构造无向有权边,使用边上的权值迭代更新节点值,最后选取N个得分最高的节点,作为摘要。基于特征的方法是提取句子的特征,利用此特征来评价句子的重要程度,因此也可以称为表征研究,该方法在深度学习或之前是在特定领域效果表现不错,这里的特征包括:(1)句子长度,长度为某个长度的句子为最理想的长度,依照距离这个长度的远近来打分。(2)句子位置,根据句子在全文中的位置,给出分数。(比如每段的第一句是核心句的比例大概是70%)(3)句子是否包含标题词,根据句子中包含标题词的多少来打分。(4)句子关键词打分,文本进行预处理之后,按照词频统计出排名前10的关键词,通过比较句子中包含关键词的情况,以及关键词分布的情况来打分。代表算法是TextTeaser。抽取式文本摘要从文本中抽取关键词关键句组成摘要,这种方法保证了内容的一致性,语法句法的错误率也低下,保证了一定的效果。但是也面临了一定的问题,例如:内容选择错误、连贯性差、灵活性差等问题。生成式文本摘要则要求程序读懂文本的内容,并用自己的理解将原文的主要内容简短的表达出来。生成式文本摘要允许摘要出现新的词语句子,有明显的灵活性,近几年随着神经网络的发展,基于序列到序列的模型广泛用于生成式文本摘要,也取得了一定的效果.普通的序列到序列的方法是基于RNN实现的,由于文本是长文本,模型存在长依赖问题,当文本过长时容易造成信息的遗忘,加上RNN在训练过程中容易产生梯度消失和梯度爆炸等问题,因此后期用LSTM或者GRU代替RNN,但是在此情况下还存在生成过程中仅使用最后的状态信息容易造成生成偏离的问题,因此Bahdanau在14年提出了注意力机制,在生成过程中可以对重点词汇进行关注,保持生成过程对于前期生成和文本的一致性,从而形成基于注意力机制的序列到序列的模型,但是此模型还存在一些问题:(1)未登录词问题,即文本中中存在不在字典中但很重要的词,生产摘要时无法生存该词。(2)生产重复问题,生产的摘要整体性不强,存在同一个词重复的问题。(3)对文本中的词关注度和匹配度不够高。(4)简单的基于LSTM的编码对信息的编码不够充分。See等人利用copy机制和converage机制缓解了上述前两个问题。2017年谷歌发布的transformer使得NLP领域有了新的突破,该模型是基于注意力机制的序列到序列的模型,没有使用神经网络结构,随后2018发布的Bert更是在NLP各大任务中有了出色的表现。但文本摘要还是有很大的进步空间,在解决长文本的信息丢失问题,增强生成摘要流畅度,增加可读性等还需要进一步的研究。
技术实现思路
本专利技术的目的在于克服现有技术的缺点与不足,提出了一种基于二级注意力的深度学习文本摘要生成方法,结合了抽取式文本摘要和生成式文本摘要的优势,能更加有效的对长文本进行编码,在解码过程使用多层注意力机制更加注重生成连续性和可读性,同时使用copy机制解决未登录词问题。该方法能够提高模型准确率,实现了端到端的训练方式具有通用性和可移植性。为实现上述目的,本专利技术所提供的技术方案为:基于二级注意力的深度学习文本摘要生成方法,包括以下步骤:1)选择数据集,基于数据集构建数据字典,根据数据统计结果选择训练文本长度和训练摘要长度;2)对数据集中的每个文本构建相对应的小型字典,根据训练文本长度、训练摘要长度、文本对应的小型字典及数据字典对数据进行预处理,并得到带未登录词和不带未登录词的文本索引序列和摘要索引序列;3)构建一个文本摘要生成模型,该文本摘要生成模型由编码结构和解码结构组成;所述编码结构是在双向LSTM基础上增加平行卷积和GLU结构,将不带登陆词的文本索引序列通过该结构进行编码,得到编码后的文本特征表示序列;所述解码结构由LSTM和二级注意力机制组成,将不带未登录词的摘要索引序列输入解码结构,进行循环解码输出,得到解码的预测概率序列和注意力关系度矩阵;4)通过copy机制,利用带未登录词的文本索引序列、解码得到的预测概率序列和注意力关系度矩阵,计算最终预测的概率分布;5)利用最终的概率分布和带未登录词的摘要索引序列计算该文本摘要生成模型的交叉熵损失,通过损失更新模型参数,得到训练好的模型;6)利用训练好的文本摘要生成模型进行文本摘要生成,输入文本,进行编码、解码后直接输出摘要。在步骤1)中,选择数据集是选择公共数据集;所述构建数据字典是统计数据集中文本内的从词语的词频,根据词频对词语进行排序,然后建立所需大小的词到序号的数据字典;所述通过统计得到训练文本长度和训练摘要长度,即对数据集中的文本长度和摘要长度进行统计,得到文本和摘要长度的平均值、中位数和最大值,训练中文本的长度初始化为平均值,然后依次往最大值递增,直至最大值,训练中摘要的长度初始化为平均值和中位数的最大值,然后依次往最大值递增,直至最大值,在文本长度和摘要长度变化中选择模型最优时的长度参数。在步骤2)中,对数据集中的每个文本构建相对应的小型字典,即词到索引的小型字典,每个词对应一个索引号,文本对应的小型字典互不干扰,根据训练文本长度、训练摘要长度、文本对应的小型字典及数据字典对数据进行预处理,并得到带未登录词和不带未登录词的文本索引序列和摘要索引序列;未登录词表示那些在原始文本中出现的词,即集外词,但是在数据集中总体词频不高,不在数据字典内,无法获取相应索引号和表示,因此,解码时无法生成该词;式中:Xa,Xb分别为不带未登录词和带未登录词的文本索引序列;Ya,Yb分别为不带未登录词和带未登陆词的摘要索引序列;分别为文本中第一个词、第二个词、第i个词的索引,索引为文本中词对应在字典中的序号,带未登录词表示在对词到索引的映射过程中不仅使用了数据字典,还是用了该文本对应的小型字典,上面的索引在构建过程中没有使用文本对应的小型字典,属于不带未登录词的索引;表示文本中的第一个词、第二个词、第j个词的索引,该索引号在从文本词到索引的映射过程中使用了数据字典和文本对应的小型字典;为第一个摘要词、第二个摘要词、第i个摘要词对应的索引,该词到索引的映射只是用了数据字典;为第一个摘要词、第二个摘要词、第i个本文档来自技高网
...

【技术保护点】
1.基于二级注意力的深度学习文本摘要生成方法,其特征在于,包括以下步骤:/n1)选择数据集,基于数据集构建数据字典,根据数据统计结果选择训练文本长度和训练摘要长度;/n2)对数据集中的每个文本构建相对应的小型字典,根据训练文本长度、训练摘要长度、文本对应的小型字典及数据字典对数据进行预处理,并得到带未登录词和不带未登录词的文本索引序列和摘要索引序列;/n3)构建一个文本摘要生成模型,该文本摘要生成模型由编码结构和解码结构组成;所述编码结构是在双向LSTM基础上增加平行卷积和GLU结构,将不带登陆词的文本索引序列通过该结构进行编码,得到编码后的文本特征表示序列;所述解码结构由LSTM和二级注意力机制组成,将不带未登录词的摘要索引序列输入解码结构,进行循环解码输出,得到解码的预测概率序列和注意力关系度矩阵;/n4)通过copy机制,利用带未登录词的文本索引序列、解码得到的预测概率序列和注意力关系度矩阵,计算最终预测的概率分布;/n5)利用最终的概率分布和带未登录词的摘要索引序列计算该文本摘要生成模型的交叉熵损失,通过损失更新模型参数,得到训练好的模型;/n6)利用训练好的文本摘要生成模型进行文本摘要生成,输入文本,进行编码、解码后直接输出摘要。/n...

【技术特征摘要】
1.基于二级注意力的深度学习文本摘要生成方法,其特征在于,包括以下步骤:
1)选择数据集,基于数据集构建数据字典,根据数据统计结果选择训练文本长度和训练摘要长度;
2)对数据集中的每个文本构建相对应的小型字典,根据训练文本长度、训练摘要长度、文本对应的小型字典及数据字典对数据进行预处理,并得到带未登录词和不带未登录词的文本索引序列和摘要索引序列;
3)构建一个文本摘要生成模型,该文本摘要生成模型由编码结构和解码结构组成;所述编码结构是在双向LSTM基础上增加平行卷积和GLU结构,将不带登陆词的文本索引序列通过该结构进行编码,得到编码后的文本特征表示序列;所述解码结构由LSTM和二级注意力机制组成,将不带未登录词的摘要索引序列输入解码结构,进行循环解码输出,得到解码的预测概率序列和注意力关系度矩阵;
4)通过copy机制,利用带未登录词的文本索引序列、解码得到的预测概率序列和注意力关系度矩阵,计算最终预测的概率分布;
5)利用最终的概率分布和带未登录词的摘要索引序列计算该文本摘要生成模型的交叉熵损失,通过损失更新模型参数,得到训练好的模型;
6)利用训练好的文本摘要生成模型进行文本摘要生成,输入文本,进行编码、解码后直接输出摘要。


2.根据权利要求1所述的基于二级注意力的深度学习文本摘要生成方法,其特征在于:在步骤1)中,选择数据集是选择公共数据集;所述构建数据字典是统计数据集中文本内的从词语的词频,根据词频对词语进行排序,然后建立所需大小的词到序号的数据字典;所述通过统计得到训练文本长度和训练摘要长度,即对数据集中的文本长度和摘要长度进行统计,得到文本和摘要长度的平均值、中位数和最大值,训练中文本的长度初始化为平均值,然后依次往最大值递增,直至最大值,训练中摘要的长度初始化为平均值和中位数的最大值,然后依次往最大值递增,直至最大值,在文本长度和摘要长度变化中选择模型最优时的长度参数。


3.根据权利要求1所述的基于二级注意力的深度学习文本摘要生成方法,其特征在于:在步骤2)中,对数据集中的每个文本构建相对应的小型字典,即词到索引的小型字典,每个词对应一个索引号,文本对应的小型字典互不干扰,根据训练文本长度、训练摘要长度、文本对应的小型字典及数据字典对数据进行预处理,并得到带未登录词和不带未登录词的文本索引序列和摘要索引序列;未登录词表示那些在原始文本中出现的词,即集外词,但是在数据集中总体词频不高,不在数据字典内,无法获取相应索引号和表示,因此,解码时无法生成该词;












式中:Xa,Xb分别为不带未登录词和带未登录词的文本索引序列;Ya,Yb分别为不带未登录词和带未登陆词的摘要索引序列;分别为文本中第一个词、第二个词、第i个词的索引,索引为文本中词对应在字典中的序号,带未登录词表示在对词到索引的映射过程中不仅使用了数据字典,还是用了该文本对应的小型字典,上面的索引在构建过程中没有使用文本对应的小型字典,属于不带未登录词的索引;表示文本中的第一个词、第二个词、第j个词的索引,该索引号在从文本词到索引的映射过程中使用了数据字典和文本对应的小型字典;为第一个摘要词、第二个摘要词、第i个摘要词对应的索引,该词到索引的映射只是用了数据字典;为第一个摘要词、第二个摘要词、第i个摘要词对应的索引号,该词到索引的映射用了数据字典和小型字典。


4.根据权利要求1所述的基于二级注意力的深度学习文本摘要生成方法,其特征在于:在步骤3)中,所述编码结构是在双向LSTM基础上增加平行卷积和GLU结构,为一种新的编码结构,将不带登陆词的文本索引序列通过该结构进行编码,得到编码后的文本特征表示序列,包括以下步骤:
3.1.1)先将不带未登录词的文本索引序列通过词嵌入转换,然后输入到双向LSTM中,得到一级文本表示序列:
Hf=LSTMf(Xa)
Hb=LSTMb(Xb)
Hbf=[Hf,Hb]
式中:Hf为前向LSTM即LSTMf生成的前向文本表示序列,Xa为不带未登录词的文本索引序;Hb为后向LSTM即LSTMb生成的后向文本表示序列,Xb为带未登录词的文本索引序列;Hbf是将前向后向拼接起来形成的一级文本表示序列;
3.1.2)将一级文本表示序列输入到平行卷积中,再输入到GLU结构中,得...

【专利技术属性】
技术研发人员:陈莹邓辉舫
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1