基于二级注意力的深度学习文本摘要生成方法技术

技术编号：24574565 阅读：68 留言：0更新日期：2020-06-21 00:11

本发明专利技术公开了一种基于二级注意力的深度学习文本摘要生成方法，该方法主要构建一个文本摘要生成模型，该文本摘要生成模型由编码结构和解码结构组成，通过数据集(基于数据集构建数据字典，根据数据统计结果选择训练文本长度和训练摘要长度，对数据集中的每个文本构建相对应的小型字典，根据训练文本长度、训练摘要长度、文本对应的小型字典及数据字典对数据进行预处理，并得到带未登录词和不带未登录词的文本索引序列和摘要索引序列)训练该模型，利用训练好的文本摘要生成模型进行文本摘要生成，输入文本，进行编码、解码后直接输出摘要。本发明专利技术方法不需要依赖特定环境下的文本类型，不限特定领域，具有较强的通用性和可扩展性。

A method of generating deep learning text Abstract Based on second level attention

全部详细技术资料下载

【技术实现步骤摘要】
基于二级注意力的深度学习文本摘要生成方法
本专利技术涉及深度学习、自然语言处理的
，尤其是指一种基于二级注意力的深度学习文本摘要生成方法。
技术介绍
目前主流的两种文本摘要算法为抽取式文本摘要和生成式文本摘要。抽取式文本摘要是从文本中抽取一些关键的句子或者词语组成文本摘要，该方法是目前较为主流和成熟的方法，抽取式文本摘要的主要方法有基于图的方法和基于特征的方法。基于图的方法是构建基于文本节点的关系图模型，文本摘要从文本的关系模型中的关系程度排序中产生，最经典的基于图的方法是TextRank，TextRank是基于PageRank上改进的方法，PageRank最开始是谷歌用于对网页进行搜索排序的方法，TextRank算法仿照PageRank，将句子作为节点，使用句子间相似度，构造无向有权边，使用边上的权值迭代更新节点值，最后选取N个得分最高的节点，作为摘要。基于特征的方法是提取句子的特征，利用此特征来评价句子的重要程度，因此也可以称为表征研究，该方法在深度学习或之前是在特定领域效果表现不错，这里的特征包括：(1)句子长度，长度为某个长度的句子为最理想的长度，依照距离这个长度的远近来打分。(2)句子位置，根据句子在全文中的位置，给出分数。(比如每段的第一句是核心句的比例大概是70％)(3)句子是否包含标题词，根据句子中包含标题词的多少来打分。(4)句子关键词打分，文本进行预处理之后，按照词频统计出排名前10的关键词，通过比较句子中包含关键词的情况，以及关键词分布的情况来打分。...

【技术保护点】
1.基于二级注意力的深度学习文本摘要生成方法，其特征在于，包括以下步骤：/n1)选择数据集，基于数据集构建数据字典，根据数据统计结果选择训练文本长度和训练摘要长度；/n2)对数据集中的每个文本构建相对应的小型字典，根据训练文本长度、训练摘要长度、文本对应的小型字典及数据字典对数据进行预处理，并得到带未登录词和不带未登录词的文本索引序列和摘要索引序列；/n3)构建一个文本摘要生成模型，该文本摘要生成模型由编码结构和解码结构组成；所述编码结构是在双向LSTM基础上增加平行卷积和GLU结构，将不带登陆词的文本索引序列通过该结构进行编码，得到编码后的文本特征表示序列；所述解码结构由LSTM和二级注意力机制组成，将不带未登录词的摘要索引序列输入解码结构，进行循环解码输出，得到解码的预测概率序列和注意力关系度矩阵；/n4)通过copy机制，利用带未登录词的文本索引序列、解码得到的预测概率序列和注意力关系度矩阵，计算最终预测的概率分布；/n5)利用最终的概率分布和带未登录词的摘要索引序列计算该文本摘要生成模型的交叉熵损失，通过损失更新模型参数，得到训练好的模型；/n6)利用训练好的文本摘要生成模型进...

【技术特征摘要】
1.基于二级注意力的深度学习文本摘要生成方法，其特征在于，包括以下步骤：
1)选择数据集，基于数据集构建数据字典，根据数据统计结果选择训练文本长度和训练摘要长度；
2)对数据集中的每个文本构建相对应的小型字典，根据训练文本长度、训练摘要长度、文本对应的小型字典及数据字典对数据进行预处理，并得到带未登录词和不带未登录词的文本索引序列和摘要索引序列；
3)构建一个文本摘要生成模型，该文本摘要生成模型由编码结构和解码结构组成；所述编码结构是在双向LSTM基础上增加平行卷积和GLU结构，将不带登陆词的文本索引序列通过该结构进行编码，得到编码后的文本特征表示序列；所述解码结构由LSTM和二级注意力机制组成，将不带未登录词的摘要索引序列输入解码结构，进行循环解码输出，得到解码的预测概率序列和注意力关系度矩阵；
4)通过copy机制，利用带未登录词的文本索引序列、解码得到的预测概率序列和注意力关系度矩阵，计算最终预测的概率分布；
5)利用最终的概率分布和带未登录词的摘要索引序列计算该文本摘要生成模型的交叉熵损失，通过损失更新模型参数，得到训练好的模型；
6)利用训练好的文本摘要生成模型进行文本摘要生成，输入文本，进行编码、解码后直接输出摘要。

2.根据权利要求1所述的基于二级注意力的深度学习文本摘要生成方法，其特征在于：在步骤1)中，选择数据集是选择公共数据集；所述构建数据字典是统计数据集中文本内的从词语的词频，根据词频对词语进行排序，然后建立所需大小的词到序号的数据字典；所述通过统计得到训练文本长度和训练摘要长度，即对数据集中的文本长度和摘要长度进行统计，得到文本和摘要长度的平均值、中位数和最大值，训练中文本的长度初始化为平均值，然后依次往最大值递增，直至最大值，训练中摘要的长度初始化为平均值和中位数的最大值，然后依次往最大值递增，直至最大值，在文本长度和摘要长度变化中选择模型最优时的长度参数。

3.根据权利要求1所述的基于二级注意力的深度学习文本摘要生成方法，其特征在于：在步骤2)中，对数据集中的每个文本构建相对应的小型字典，即词到索引的小型字典，每个词对应一个索引号，文本对应的小型字典互不干扰，根据训练文本长度、训练摘要长度、文本对应的小型字典及数据字典对数据进行预处理，并得到带未登录词和不带未登录词的文本索引序列和摘要索引序列；未登录词表示那些在原始文本中出现的词，即集外词，但是在数据集中总体词频不高，不在数据字典内，无法获取相应索引号和表示，因此，解码时无法生成该词；

式中：Xa,Xb分别为不带未登录词和带未登录词的文本索引序列；Ya,Yb分别为不带未登录词和带未登陆词的摘要索引序列；分别为文本中第一个词、第二个词、第i个词的索引，索引为文本中词对应在字典中的序号，带未登录词表示在对词到索引的映射过程中不仅使用了数据字典，还是用了该文本对应的小型字典，上面的索引在构建过程中没有使用文本对应的小型字典，属于不带未登录词的索引；表示文本中的第一个词、第二个词、第j个词的索引，该索引号在从文本词到索引的映射过程中使用了数据字典和文本对应的小型字典；为第一个摘要词、第二个摘要词、第i个摘要词对应的索引，该词到索引的映射只是用了数据字典；为第一个摘要词、第二个摘要词、第i个摘要词对应的索引号，该词到索引的映射用了数据字典和小型字典。

4.根据权利要求1所述的基于二级注意力的深度学习文本摘要生成方法，其特征在于：在步骤3)中，所述编码结构是在双向LSTM基础上增加平行卷积和GLU结构，为一种新的编码结构，将不带登陆词的文本索引序列通过该结构进行编码，得到编码后的文本特征表示序列，包括以下步骤：
3.1.1)先将不带未登录词的文本索引序列通过词嵌入转换，然后输入到双向LSTM中，得到一级文本表示序列：
Hf＝LSTMf(Xa)
Hb＝LSTMb(Xb)
Hbf＝[Hf,Hb]
式中：Hf为前向LSTM即LSTMf生成的前向文本表示序列，Xa为不带未登录词的文本索引序；Hb为后向LSTM即LSTMb生成的后向文本表示序列，Xb为带未登录词的文本索引序列；Hbf是将前向后向拼接起来形成的一级文本表示序列；
3.1.2)将一级文本表示序列输入到平行卷积中，再输入到GLU结构中，得...

【专利技术属性】
技术研发人员：陈莹，邓辉舫，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人