基于多文本利用分阶层Transformer生成摘要的方法及系统技术方案

技术编号:25890861 阅读:25 留言:0更新日期:2020-10-09 23:32
本发明专利技术提供一种一种基于多文本利用分阶层Transformer生成摘要的方法,所述方法包括如下步骤:步骤S1,对多文本按段落进行划分、排序,选取部分重要的段落作为后续编码器的输入;步骤S2,将所述部分重要的段落逐个输入编码器,生成词向量集合和段落向量;步骤S3,将所述词向量集合和段落向量输入解码器,生成摘要。本发明专利技术所述基于多文本利用分阶层Transformer生成摘要的方法,会先学习每个文本中的依存关系,再对文本间的关系建模,这样做不仅大大缩短了单次输入的序列长度,而且可以很方便地学习跨文本关联,使得生成摘要既快速又精确。

【技术实现步骤摘要】
基于多文本利用分阶层Transformer生成摘要的方法及系统
本专利技术涉及人工智能
,特别涉及一种基于多文本利用分阶层Transformer生成摘要的方法。
技术介绍
Transformer(Vaswani,2017)是一个序列神经网络模型,最早被用于机器翻译模型中,它由编码器和解码器组成,编码器可以将输入的文本信息压缩至一个连续的向量中,解码器接受这个向量,然后逐字的生成摘要。传统的Transformer是为单文本设计的,在进行多文本生成摘要时面临了两个问题,首先是多文本摘要通常有大量的文本数据,如果将这些文本拼接成一个序列,那么这个序列会非常长,但普通的Transformer无法学习长期依存关系,也就无法对长序列建模,其次多文本之间存在依存关系,因此需要摘要模型去学习这些跨文本的关系来使生成的摘要更加精确,但是普通的无法捕获多文本间的依赖关系。
技术实现思路
鉴于目前现有技术的不足,本专利技术的目的在于提供一种基于多文本利用分阶层Transformer生成摘要的方法,能够快速、精确的生成摘要。为达到上述目的,本专利技术的实施例采用如下技术方案:一种基于多文本利用分阶层Transformer生成摘要的方法,所述方法包括如下步骤:步骤S1,对多文本按段落进行划分、排序,选取部分重要的段落作为后续编码器的输入;步骤S2,将所述部分重要的段落逐个输入编码器,生成词向量集合和段落向量;步骤S3,将所述词向量集合和段落向量输入解码器,生成摘要。进一步,其中所述步骤S1中,所述对多文本按段落进行划分、排序,是利用TextRank算法进行。进一步,其中所述步骤S2中,所述编码器包括Transformer的编码器,针对每一个段落中的每一个单词,采用Transformer中的位置编码器生成位置向量,并将位置向量与单词向量相加得到包含词序信息的单词向量,每一个段落中的所有包含词序信息的单词向量形成一个包含上下文信息的上下文已知的词向量集合。进一步,其中所述步骤S2中,所述编码器还包括段落向量编码器,将所述词向量集合输入所述段落向量编码器,生成所述段落向量。进一步,其中所述段落向量编码器为多头的注意力池化模型,多头的注意力池化模型将词向量集合以加权求和的形式转化成一个段落向量,计算过程如下:首先将词向量集合经过线性转化后截断成多个子向量,其中,为子向量,Cp为词向量集合,W1为第一可训练的线性转换矩阵。然后对这些子向量计算注意力后,加权求和得到子段落向量,其中,为子段落向量,W2为第二可训练的线性转换矩阵,T为转秩符号。再将得到的所有子段落向量拼接后得到最终的段落向量,其中,为段落向量,W3为第三可训练的线性转换矩阵。进一步,为一个正向的多头注意力模块,根据输入的首字符参数,生成上文已知的词向量X1。进一步,其中所述步骤S3中,所述解码器还包括第二部分,所述第二部分包括段落层级多头注意力模块,运用Transformer中的位置编码器生成段落间的位置向量,将所有段落向量组成了一个段落矩阵,根据下述公式计算,得到表征了所有段落信息的文本向量以及段落的注意力分布:Xpara,Apara=MultiHead(X1,Φ,Φ)其中,Xpara为文本向量,Apara为段落的注意力分布,X1为解码器的第一部分输出的上文已知的词向量,作为段落层级多头注意力模块的query值,Φ为段落矩阵,由所有的段落向量组成,作为段落层级多头注意力模块的key值和value值。进一步,所述第二部分还包括词层级多头注意力模块,根据下述公式计算词层级上下文向量,其中,为词层级上下文向量,X1为解码器的第一部分输出的上文已知的词向量,作为词层级多头注意力模块的query值,Cp为词向量集合,作为司层级多头注意力模块的key值和value值;每个段落的单词向量都计算一次,得到了一个一个词层级的上下文向量,再利用之前得到的段落的注意力分布,给予每个段落的词层级的上下文向量相应的注意力权重,最后相加得到一个整合了所有段落单词间上下文信息的段落注意力优化文本向量:Xint=XwordApara其中,Xint为段落注意力优化文本向量最后按下述公式计算作为第二部分的输出:X2=LayerNorm(X1+Xpara+Xint)其中,X2为表征了多种信息的归一化向量,包括了解码器的第一部分的输入信息、段落间的关联信息以及每个段落内单词间的关联信息。进一步,所述步骤S3中,所述解码器还包括第三部分,所述第三部分包括一个双层的前馈神经网络FFN,将所述第二部分的输出归一化向量X2,再经过一个softmax算法,得到最终概率分布。进一步,所述步骤S3中,还包括采用beamsearch算法逐字生成摘要。本专利技术所述基于多文本利用分阶层Transformer生成摘要的方法,会先学习每个文本中的依存关系,再对文本间的关系建模,这样做不仅大大缩短了单次输入的序列长度,而且可以很方便地学习跨文本关联,使得生成摘要既快速又精确。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一实施方式一种基于多文本利用分阶层Transformer生成摘要的方法的流程示意图;图2为本专利技术一种基于多文本利用分阶层Transformer生成摘要的方法的一具体实施例的流程示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请首先参见图1所示,本专利技术一实施方式一种基于多文本利用分阶层Transformer生成摘要的方法,所述方法包括如下步骤:步骤S1,对多文本按段落进行划分、排序,选取部分重要的段落作为后续编码器的输入;步骤S2,将所述部分重要的段落逐个输入编码器,生成词向量集合和段落向量;步骤S3,将所述词向量集合和段落向量输入解码器,生成摘要。其中,所述步骤S1中,所述对多文本按段落进行划分、排序,是利用TextRank算法进行。由于多文本常常会有大量的源文本,如果将他们全部投入运算的话,会给运算带来很大压力。因此需要先将这些多文本以段落的形式分隔开。TextRank(Mihalcea,2004)算法能够将多文本按段落分隔开,并给这些段落排序,重要的段落排在前面,不重要的段落排在后面。所以,可以选取前面重要的一批段落作为后续编码器的输入,以进一步降低后续运算的压力,提高运算的速度。...

【技术保护点】
1.一种基于多文本利用分阶层Transformer生成摘要的方法,其特征在于,所述方法包括如下步骤:/n步骤S1,对多文本按段落进行划分、排序,选取部分重要的段落作为后续编码器的输入;/n步骤S2,将所述部分重要的段落逐个输入编码器,生成词向量集合和段落向量;/n步骤S3,将所述词向量集合和段落向量输入解码器,生成摘要。/n

【技术特征摘要】
1.一种基于多文本利用分阶层Transformer生成摘要的方法,其特征在于,所述方法包括如下步骤:
步骤S1,对多文本按段落进行划分、排序,选取部分重要的段落作为后续编码器的输入;
步骤S2,将所述部分重要的段落逐个输入编码器,生成词向量集合和段落向量;
步骤S3,将所述词向量集合和段落向量输入解码器,生成摘要。


2.根据权利要求1所述的方法,其特征在于,其中所述步骤S1中,所述对多文本按段落进行划分、排序,是利用TextRank算法进行。


3.根据权利要求1所述的方法,其特征在于,其中所述步骤S2中,所述编码器包括Transformer的编码器,针对每一个段落中的每一个单词,采用Transformer中的位置编码器生成位置向量,并将位置向量与单词向量相加得到包含词序信息的单词向量,每一个段落中的所有包含词序信息的单词向量形成一个包含上下文信息的上下文已知的词向量集合。


4.根据权利要求3所述的方法,其特征在于,其中所述步骤S2中,所述编码器还包括段落向量编码器,将所述词向量集合输入所述段落向量编码器,生成所述段落向量。


5.根据权利要求4所述的方法,其特征在于,其中所述段落向量编码器为多头的注意力池化模型,多头的注意力池化模型将词向量集合以加权求和的形式转化成一个段落向量,计算过程如下:



首先将词向量集合经过线性转化后截断成多个子向量,其中,为子向量,Cp为词向量集合,W1为第一可训练的线性转换矩阵。



然后对这些子向量计算注意力后,加权求和得到子段落向量,其中,为子段落向量,W2为第二可训练的线性转换矩阵,T为转秩符号。



再将得到的所有子段落向量拼接后得到最终的段落向量,其中,为段落向量,W3为第三可训练的线性转换矩阵。


6.根据权利要求1所述的方法,其特征在于,其中所述步骤S3中,所述解码器包括第一部分,为一个正向的多头注意力模块,根据输入的首字符参数,生成上文已知的词向量X1。


7.根据...

【专利技术属性】
技术研发人员:马晔宗璐
申请(专利权)人:西交利物浦大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1