基于RNN与稀疏自注意力机制的长文档摘要生成方法技术

技术编号:37440394 阅读:9 留言:0更新日期:2023-05-06 09:12
本发明专利技术涉及自然语言处理、深度学习、文本摘要生成领域,特别涉及一种基于RNN与稀疏自注意力机制的长文档摘要生成方法,包括将文本数据进行数据切段或者padding的方式将数据填充到固定长度L,分别对L长度的片段进行词嵌入转换为词向量表示;将词向量片段作为编码器的输入,编码器编码得到词向量片段对应的上下文表示;解码阶段将词向量表示以及对应的上下文表示输入解码器得到最终的隐藏特征;隐藏特征经过一层Softmax层得到预测输出;本发明专利技术有效地利用层次框架模型对文本摘要相关因素进行建模,从而提升了模型生成摘要的可读性、相关性与准确性。性与准确性。性与准确性。

【技术实现步骤摘要】
基于RNN与稀疏自注意力机制的长文档摘要生成方法


[0001]本专利技术涉及自然语言处理、深度学习、文本摘要生成领域,特别涉及一种基于RNN与稀疏自注意力机制的长文档摘要生成方法。

技术介绍

[0002]文本是信息的重要载体之一,文本信息的主题与规模多种多样,且存在很大的差异,如何对文本信息进行高效处理是一个具有重大研究意义的问题,推动了自动文本分类技术的快速发展。近年来,互联网技术的蓬勃发展极大地便利了人类的日常生活,不可避免的是互联网中的信息呈井喷式爆发,如何从中快速有效地获取所需信息显得极为重要.自动文本摘要技术的出现可以有效缓解该问题,其作为自然语言处理和人工智能领域的重要研究内容之一,利用计算机自动地从长文本或文本集合中提炼出一段能准确反映源文中心内容的简洁连贯的短文,大大缩短了人工筛选所需花费的时间.这个技术最早是在气象领域中应用起来的,就是用一个固定的格式,把预测出来的数据套进去,后来在金融领域,医疗领域等,这样的工具可以很好的帮助从业人员节省一部分时间。
[0003]文本摘要方法主要有两大类:抽取式文本摘要和生成式文本摘要。第一种抽取式文本摘要是直接从原文中选择若干条重要的句子,并对它们进行排序和重组而形成摘要的方法;第二种生成式文本摘要基于NLG(自然语言生成),由模型自己生成句子。目前生成式文本摘要主要使用基于深度学习的编码器

解码器模型为主,大多长文档摘要都属于生成式文本摘要,普遍基于Transformer、BART模型进行改进,对于长文档摘要方法的研究层出不穷,但仍然存在几个问题:
[0004]一:通常transformer模型训练期间,对每个片段单独处理,所以不同的token之间,最长的依赖关系,就取决于片段的长度;出于效率的考虑,在划分片段的时候,不考虑句子的自然边界,而是根据固定的长度来划分序列,导致分割出来的片段在语义上是不完整的。
[0005]二:由于位置嵌入在词嵌入维度显著提高后,会有极大可能词序信息丢失,因而虽然多头注意力机制能够保证远距离信息不丢失,可是对于某个词来说,它在这个句子中的位置信息可能没有那么明确。
[0006]三:生成模型大多用到注意力机制,但是其点积操作使每层的时间复杂度和内存使用量为O(n^2),同时多个编码器

解码器堆叠起来就会形成复杂的空间复杂度,这会限制模型接受较长的序列输入。

技术实现思路

[0007]为解决以上现有技术问题,本专利技术提出了一种基于RNN与稀疏自注意力机制的长文档摘要生成方法,构建基于RNN与稀疏自注意力机制的预测模型,该模型预测具体包括以下步骤:
[0008]S1、将文本数据进行数据切段或者padding的方式将数据填充到固定长度L,分别
对L长度的片段进行词嵌入转换为词向量表示;
[0009]S2、将词向量片段作为编码器的输入,编码器编码得到词向量片段对应的上下文表示;
[0010]S3、解码阶段将词向量表示以及对应的上下文表示输入解码器得到最终的隐藏特征;
[0011]S4、隐藏特征经过一层Softmax层得到预测输出。
[0012]进一步的,在编码过程中,编码器包括N层级联结构,每一层包括级联的局部递归神经网络、多头稀疏自注意力以前馈网络,词向量片段为多头稀疏自注意力的输出,在N层级联结构中,当前层的输出缓存前一个片段的隐藏状态后进行注意力蒸馏后在作为下一层的输入;多头稀疏自注意力对局部递归神经网络输出的处理包括以下步骤:
[0013]101、利用局部递归神经网络的输出构建注意力机制中的查询向量、键向量以及值向量;
[0014]102、利用稀疏性度量筛选出u个重要的查询向量;
[0015]103、将u个重要的查询向量与值向量进行关注,并与L

u个平均值向量进行拼接后计算自注意力;
[0016]104、利用多头的稀疏注意力机制计算多头注意力,经过FFN层,得到隐藏状态表示。
[0017]进一步的,利用稀疏性度量筛选出u个重要的查询向量的过程表示为:
[0018][0019][0020][0021]其中,Q、K、V为分别为利用局部递归神经网络的输出构建注意力机制中的查询向量、键向量以及值向量;W
q
、W
k
、W
v
分别是Q、K、V对应的可训练参数;M(q
i
,K)表示为第i个查询的稀疏性评估分数;q
i
为查询向量Q中第i个元素;为键向量K中第j个元素的转置;d为值向量的维度;为u个重要查询构成的向量集合;Choice()[0:u

1]表示选择值最大的u个参数;V为值向量;L
K
表示键向量的长度。
[0022]进一步的,步骤103中计算自注意力的过程包括:
[0023][0024][0025]其中,concat()为拼接函数;Attention()表示根据输入的查询向量、键向量以及值向量求解得到的注意力值;mean(V)表示对值向量在q_length维度上取平均,值向量的维度为[batch_size,q_length,d_model],batch_size为批大小,即一次训练所抓取的数据样本数量,q_length为片段长度,d_model为词向量维度;[u:L

1]表示取索引u到L

1的向量。
[0026]进一步的,步骤104重要利用多头的稀疏注意力机制计算多头注意力,经过FFN层,得到隐藏状态表示的过程包括:
[0027][0028][0029][0030][0031][0032][0033]其中,LayerNorm(x)表示对样本x进行层归一化处理;表示编码器N层级联结构中第i层中局部递归神经网络的第T个元素对应的隐藏状态表示;表示对归一化的结果;表示编码器N层级联结构中第i层中多头稀疏自注意力的第T个元素的输出;表示对归一化的结果;head
h
为多头稀疏自注意力中第h个头的输出,H为多头稀疏自注意力中头的数量,W
O
为多头稀疏自注意力中的可学习参数;Attention()表示根据输入的查询向量、键向量以及值向量求解得到的注意力值;为第h个头计算注意力时的可学习参数。
[0034]进一步的,当前层的输出缓存前一个片段的隐藏状态后进行注意力蒸馏后在作为下一层的输入,包括:
[0035][0036][0037][0038][0039]其中,表示N层级联结构的编码器中第i层中第m+1个片段对应的隐藏状态表示;表示N层级联结构的编码器中第i层中第m+1个片段对应的键向量,表示N层级联结构的编码器中第i层中第m+1个片段对应的键向量,表示N层级联结构的编码器中第i层中第m+1个片段对应的值向量,表示对缓存上一片段的隐藏状态;W
q
、W
k
、W
v
分别是对应的可训练参数;表示的梯本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于RNN与稀疏自注意力机制的长文档摘要生成方法,其特征在于,构建基于RNN与稀疏自注意力机制的预测模型,该模型预测具体包括以下步骤:S1、将文本数据进行数据切段或者padding的方式将数据填充到固定长度L,分别对L长度的片段进行词嵌入转换为词向量表示;S2、将词向量片段作为编码器的输入,编码器编码得到词向量片段对应的上下文表示;S3、解码阶段将词向量表示以及对应的上下文表示输入解码器得到最终的隐藏特征;S4、隐藏特征经过一层Softmax层得到预测输出。2.根据权利要求1所述的基于RNN与稀疏自注意力机制的长文档摘要生成方法,其特征在于,在编码过程中,编码器包括N层级联结构,每一层包括级联的局部递归神经网络、多头稀疏自注意力以前馈网络,词向量片段为多头稀疏自注意力的输出,在N层级联结构中,当前层的输出缓存前一个片段的隐藏状态后进行注意力蒸馏后在作为下一层的输入;多头稀疏自注意力对局部递归神经网络输出的处理包括以下步骤:101、利用局部递归神经网络的输出构建注意力机制中的查询向量、键向量以及值向量;102、利用稀疏性度量筛选出u个重要的查询向量;103、将u个重要的查询向量与值向量进行关注,并与L

u个平均值向量进行拼接后计算自注意力;104、利用多头的稀疏注意力机制计算多头注意力,经过FFN层,得到隐藏状态表示。3.根据权利要求2所述的基于RNN与稀疏自注意力机制的长文档摘要生成方法,其特征在于,利用稀疏性度量筛选出u个重要的查询向量的过程表示为:在于,利用稀疏性度量筛选出u个重要的查询向量的过程表示为:在于,利用稀疏性度量筛选出u个重要的查询向量的过程表示为:其中,Q、K、V为分别为利用局部递归神经网络的输出构建注意力机制中的查询向量、键向量以及值向量;W
q
、W
k
、W
v
分别是Q、K、V对应的可训练参数;M(q
i
,K)表示为第i个查询的稀疏性评估分数;q
i
为查询向量Q中第i个元素;为键向量K中第j个元素的转置;d为值向量的维度;为u个重要查询构成的向量集合;Choice()[0:u

1]表示选择值最大的u个参数;V为值向量;L
K
表示键向量的长度。4.根据权利要求2或3所述的基于RNN与稀疏自注意力机制的长文档摘要生成方法,其特征在于,步骤103中计算自注意力的过程包括:特征在于,步骤103中计算自注意力的过程包括:其中,concat()为拼接函数;Attention()表示根据输入的查询向量、键向量以及值向量求解得到的注意力值;mean(V)表示对值向量在q_length维度上取平均,值向量的维度为[batch_size,q_length,d_model],batch_size为批大小,即一次训练所抓取的数据样本数
量,q_length为片段长度,d_model为词向量维度;[u:L

1]表示取索引u到L

1的向量。5.根据权利要求2或3所述的基于RNN与稀疏自注意力机制的长文档摘要生成方法,其特征在于,步骤104重要利用多头的稀疏注意力机制计算多头注意力,经过FFN层,得到隐藏状态表示的过程包括:状态表示的过程包括:状态表示的过程包括:状态表示的过程包括:状态表示的过程包括:状态表示的过程包括:其中,LayerNo...

【专利技术属性】
技术研发人员:唐宏刘钟杨浩澜王宁喆朱传润
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1