基于多文本利用分阶层Transformer生成摘要的方法及系统技术方案

技术编号：25890861 阅读：25 留言：0更新日期：2020-10-09 23:32

本发明专利技术提供一种一种基于多文本利用分阶层Transformer生成摘要的方法，所述方法包括如下步骤：步骤S1，对多文本按段落进行划分、排序，选取部分重要的段落作为后续编码器的输入；步骤S2，将所述部分重要的段落逐个输入编码器，生成词向量集合和段落向量；步骤S3，将所述词向量集合和段落向量输入解码器，生成摘要。本发明专利技术所述基于多文本利用分阶层Transformer生成摘要的方法，会先学习每个文本中的依存关系，再对文本间的关系建模，这样做不仅大大缩短了单次输入的序列长度，而且可以很方便地学习跨文本关联，使得生成摘要既快速又精确。

全部详细技术资料下载

【技术实现步骤摘要】
基于多文本利用分阶层Transformer生成摘要的方法及系统
本专利技术涉及人工智能
，特别涉及一种基于多文本利用分阶层Transformer生成摘要的方法。
技术介绍
Transformer(Vaswani,2017)是一个序列神经网络模型，最早被用于机器翻译模型中，它由编码器和解码器组成，编码器可以将输入的文本信息压缩至一个连续的向量中，解码器接受这个向量，然后逐字的生成摘要。传统的Transformer是为单文本设计的，在进行多文本生成摘要时面临了两个问题，首先是多文本摘要通常有大量的文本数据，如果将这些文本拼接成一个序列，那么这个序列会非常长，但普通的Transformer无法学习长期依存关系，也就无法对长序列建模，其次多文本之间存在依存关系，因此需要摘要模型去学习这些跨文本的关系来使生成的摘要更加精确，但是普通的无法捕获多文本间的依赖关系。
技术实现思路
鉴于目前现有技术的不足，本专利技术的目的在于提供一种基于多文本利用分阶层Transformer生成摘要的方法，能够快速、精确的生成摘要。为达到上述目的，本专利技术的实施例采用如下技术方案：一种基于多文本利用分阶层Transformer生成摘要的方法，所述方法包括如下步骤：步骤S1，对多文本按段落进行划分、排序，选取部分重要的段落作为后续编码器的输入；步骤S2，将所述部分重要的段落逐个输入编码器，生成词向量集合和段落向量；步骤S3，将所述词向量集合和段落向量输入解码器，生成摘要。进一

【技术保护点】
1.一种基于多文本利用分阶层Transformer生成摘要的方法，其特征在于，所述方法包括如下步骤：/n步骤S1，对多文本按段落进行划分、排序，选取部分重要的段落作为后续编码器的输入；/n步骤S2，将所述部分重要的段落逐个输入编码器，生成词向量集合和段落向量；/n步骤S3，将所述词向量集合和段落向量输入解码器，生成摘要。/n

【技术特征摘要】
1.一种基于多文本利用分阶层Transformer生成摘要的方法，其特征在于，所述方法包括如下步骤：
步骤S1，对多文本按段落进行划分、排序，选取部分重要的段落作为后续编码器的输入；
步骤S2，将所述部分重要的段落逐个输入编码器，生成词向量集合和段落向量；
步骤S3，将所述词向量集合和段落向量输入解码器，生成摘要。

2.根据权利要求1所述的方法，其特征在于，其中所述步骤S1中，所述对多文本按段落进行划分、排序，是利用TextRank算法进行。

3.根据权利要求1所述的方法，其特征在于，其中所述步骤S2中，所述编码器包括Transformer的编码器，针对每一个段落中的每一个单词，采用Transformer中的位置编码器生成位置向量，并将位置向量与单词向量相加得到包含词序信息的单词向量，每一个段落中的所有包含词序信息的单词向量形成一个包含上下文信息的上下文已知的词向量集合。

4.根据权利要求3所述的方法，其特征在于，其中所述步骤S2中，所述编码器还包括段落向量编码器，将所述词向量集合输入所述段落向量编码器，生成所述段落向量。

5.根据权利要求4所述的方法，其特征在于，其中所述段落向量编码器为多头的注意力池化模型，多头的注意力池化模型将词向量集合以加权求和的形式转化成一个段落向量，计算过程如下：

首先将词向量集合经过线性转化后截断成多个子向量，其中，为子向量，Cp为词向量集合，W1为第一可训练的线性转换矩阵。

然后对这些子向量计算注意力后，加权求和得到子段落向量，其中，为子段落向量，W2为第二可训练的线性转换矩阵，T为转秩符号。

再将得到的所有子段落向量拼接后得到最终的段落向量，其中，为段落向量，W3为第三可训练的线性转换矩阵。

6.根据权利要求1所述的方法，其特征在于，其中所述步骤S3中，所述解码器包括第一部分，为一个正向的多头注意力模块，根据输入的首字符参数，生成上文已知的词向量X1。

7.根据...

【专利技术属性】
技术研发人员：马晔，宗璐，
申请(专利权)人：西交利物浦大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人