基于RNN与稀疏自注意力机制的长文档摘要生成方法技术

技术编号：37440394 阅读：9 留言：0更新日期：2023-05-06 09:12

本发明专利技术涉及自然语言处理、深度学习、文本摘要生成领域，特别涉及一种基于RNN与稀疏自注意力机制的长文档摘要生成方法，包括将文本数据进行数据切段或者padding的方式将数据填充到固定长度L，分别对L长度的片段进行词嵌入转换为词向量表示；将词向量片段作为编码器的输入，编码器编码得到词向量片段对应的上下文表示；解码阶段将词向量表示以及对应的上下文表示输入解码器得到最终的隐藏特征；隐藏特征经过一层Softmax层得到预测输出；本发明专利技术有效地利用层次框架模型对文本摘要相关因素进行建模，从而提升了模型生成摘要的可读性、相关性与准确性。性与准确性。性与准确性。

全部详细技术资料下载

【技术实现步骤摘要】
基于RNN与稀疏自注意力机制的长文档摘要生成方法

[0001]本专利技术涉及自然语言处理、深度学习、文本摘要生成领域，特别涉及一种基于RNN与稀疏自注意力机制的长文档摘要生成方法。

技术介绍

[0002]文本是信息的重要载体之一，文本信息的主题与规模多种多样，且存在很大的差异，如何对文本信息进行高效处理是一个具有重大研究意义的问题，推动了自动文本分类技术的快速发展。近年来，互联网技术的蓬勃发展极大地便利了人类的日常生活，不可避免的是互联网中的信息呈井喷式爆发，如何从中快速有效地获取所需信息显得极为重要.自动文本摘要技术的出现可以有效缓解该问题，其作为自然语言处理和人工智能领域的重要研究内容之一，利用计算机自动地从长文本或文本集合中提炼出一段能准确反映源文中心内容的简洁连贯的短文，大大缩短了人工筛选所需花费的时间.这个技术最早是在气象领域中应用起来的，就是用一个固定的格式，把预测出来的数据套进去，后来在金融领域，医疗领域等，这样的工具可以很好的帮助从业人员节省一部分时间。
[0003]文本摘要方法主要有两大类：抽取式文本摘要和生成式文本摘要。第一种抽取式文本摘要是直接从原文中选择若干条重要的句子，并对它们进行排序和重组而形成摘要的方法；第二种生成式文本摘要基于NLG(自然语言生成)，由模型自己生成句子。目前生成式文本摘要主要使用基于深度学习的编码器
‑
解码器模型为主，大多长文档摘要都属于生成式文本摘要，普遍基于Transformer、BART模型进行改进，对于长文档摘要方法的研究层出不穷，但仍...

【技术保护点】

【技术特征摘要】
1.基于RNN与稀疏自注意力机制的长文档摘要生成方法，其特征在于，构建基于RNN与稀疏自注意力机制的预测模型，该模型预测具体包括以下步骤：S1、将文本数据进行数据切段或者padding的方式将数据填充到固定长度L，分别对L长度的片段进行词嵌入转换为词向量表示；S2、将词向量片段作为编码器的输入，编码器编码得到词向量片段对应的上下文表示；S3、解码阶段将词向量表示以及对应的上下文表示输入解码器得到最终的隐藏特征；S4、隐藏特征经过一层Softmax层得到预测输出。2.根据权利要求1所述的基于RNN与稀疏自注意力机制的长文档摘要生成方法，其特征在于，在编码过程中，编码器包括N层级联结构，每一层包括级联的局部递归神经网络、多头稀疏自注意力以前馈网络，词向量片段为多头稀疏自注意力的输出，在N层级联结构中，当前层的输出缓存前一个片段的隐藏状态后进行注意力蒸馏后在作为下一层的输入；多头稀疏自注意力对局部递归神经网络输出的处理包括以下步骤：101、利用局部递归神经网络的输出构建注意力机制中的查询向量、键向量以及值向量；102、利用稀疏性度量筛选出u个重要的查询向量；103、将u个重要的查询向量与值向量进行关注，并与L
‑
u个平均值向量进行拼接后计算自注意力；104、利用多头的稀疏注意力机制计算多头注意力，经过FFN层，得到隐藏状态表示。3.根据权利要求2所述的基于RNN与稀疏自注意力机制的长文档摘要生成方法，其特征在于，利用稀疏性度量筛选出u个重要的查询向量的过程表示为：在于，利用稀疏性度量筛选出u个重要的查询向量的过程表示为：在于，利用稀疏性度量筛选出u个重要的查询向量的过程表示为：其中，Q、K、V为分别为利用局部递归神经网络的输出构建注意力机制中的查询向量、键向量以及值向量；W
q
、W
k
、W
v
分别是Q、K、V对应的可训练参数；M(q
i
,K)表示为第i个查询的稀疏性评估分数；q
i
为查询向量Q中第i个元素；为键向量K中第j个元素的转置；d为值向量的维度；为u个重要查询构成的向量集合；Choice()[0:u
‑
1]表示选择值最大的u个参数；V为值向量；L
K
表示键向量的长度。4.根据权利要求2或3所述的基于RNN与稀疏自注意力机制的长文档摘要生成方法，其特征在于，步骤103中计算自注意力的过程包括：特征在于，步骤103中计算自注意力的过程包括：其中，concat()为拼接函数；Attention()表示根据输入的查询向量、键向量以及值向量求解得到的注意力值；mean(V)表示对值向量在q_length维度上取平均，值向量的维度为[batch_size,q_length,d_model]，batch_size为批大小，即一次训练所抓取的数据样本数
量，q_length为片段长度，d_model为词向量维度；[u:L
‑
1]表示取索引u到L
‑
1的向量。5.根据权利要求2或3所述的基于RNN与稀疏自注意力机制的长文档摘要生成方法，其特征在于，步骤104重要利用多头的稀疏注意力机制计算多头注意力，经过FFN层，得到隐藏状态表示的过程包括：状态表示的过程包括：状态表示的过程包括：状态表示的过程包括：状态表示的过程包括：状态表示的过程包括：其中，LayerNo...

【专利技术属性】
技术研发人员：唐宏，刘钟，杨浩澜，王宁喆，朱传润，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人