文本摘要生成系统技术方案

技术编号：30651569 阅读：13 留言：0更新日期：2021-11-04 01:12

本发明专利技术涉及一种文本摘要生成系统，涉及互联网技术领域，包括文本编码器，利用一种层次化多尺度抽象建模方法从原始文本中捕获多层次、多尺度的语义信息；动态记忆增强注意力网络，用于动态追踪注意力历史与提取文本中重要信息，提升解码器生成精炼、准确摘要的能力；摘要解码器，利用单向长短期记忆网络逐词生成完整的文本摘要，克服无法有效地定位当前解码时刻所对应的合理原始文本上下文信息，导致生成的文本摘要通常包含重复信息或者缺少关键信息。息。息。

全部详细技术资料下载

【技术实现步骤摘要】
文本摘要生成系统

[0001]本专利技术涉及互联网
，尤其涉及文本摘要生成系统。

技术介绍

[0002]自动文本摘要是近年来学术界和工业界的研究热点之一，因其广阔的应用场景以及巨大的商业价值而备受瞩目。现有文本摘要技术大致可以分为抽取式文本摘要和生成式文本摘要：(1)抽取式文本摘要方法从原始文本或者是文档集合中直接选取若干包含关键信息的语句直接构成摘要总结。抽取式文本摘要的优点在于生成的摘要文本合理可控、通顺度较好且不容易生成完全偏离原始文本主题的摘要。但是抽取式文本摘要技术也有其固有弊端，即容易引入冗余信息，且句子之间的连贯性差；(2)生成式文本摘要方法则使用阅读理解、自然语言生成等技术，生成更加简明凝练的文本摘要。与抽取式文本摘要相比，生成式文本摘要涉及对原始文档的理解和重构，更符合人类撰写摘要的习惯，有着简洁、灵活、多样性等特点。
[0003]基于注意力机制的指针生成网络模型(Pointer Generator network)是当前应用最广泛的生成式摘要模型，也是与本专利技术最相近似的技术方案。指针生成网络模型在编码端(Encoder)引入长短期记忆神经网络(Long short
‑
term memory,LSTM)将原始文本编码成固定长度的特征表示向量，并在解码器端(Decoder)利用另一个长短期记忆神经网络将编码器输出的文本特征向量解码成文本摘要。同时，指针生成网络模型的解码器部分通过引入对编码文本的注意力机制(Attention Mechanism)，计算输入文本的上下...

【技术保护点】

【技术特征摘要】
1.一种文本摘要生成系统，其特征在于：包括文本编码器，利用一种层次化多尺度抽象建模方法从原始文本中捕获多层次、多尺度的语义信息；动态记忆增强注意力网络，用于动态追踪注意力历史与提取文本中重要信息，提升解码器生成精炼、准确摘要的能力；摘要解码器，利用单向长短期记忆网络逐词生成完整的文本摘要。2.根据权利要求1所述的文本摘要生成系统，其特征在于，所述文本编码器包括词嵌入层，将原始文档中的每个单词转化成词向量序列；双向LSTM网络，获取输入的词向量序列，用来计算输入文本序列的正向隐藏层状态序列和反向隐藏层状态序列，根据输入文本序列的正向隐藏层状态序列和反向隐藏层状态序列生成整个输入本文序列的隐藏层向量；层次化多尺度特征挖掘模块，利用不同的更新频率来对原始文本进行分层级建模，以捕获原始文本信息的多层次、多尺度的信息；第一前馈神经网络，融合双向LSTM编码层与层次化多尺度特征挖掘模块的输出结果，得到最终文本向量。3.根据权利要求1所述的文本摘要生成系统，其特征在于：所述文本编码器还包括设置在双向LSTM网络和层次化多尺度特征挖掘模块之间的第二前馈神经网络，通过可训练的权重矩阵与偏置参数对双向LSTM网络输出的特征向量序列进行计算，用来学习与生成用来输入到特征挖掘模块合理的特征序列。4.根据权利要求1所述的文本摘要生成系统，其特征在于：所述层次化多尺度特征挖掘模块包括高层的粗粒度编码层和低层的细粒度编码层；所述高层的粗粒度编码层更新频率较低，用以捕获较长跨度的文本上下文依赖；所述低层的细粒度编码层则以较高的更新频率学习文本的邻近语义特征。5.根据权利要求4所述的文本摘要生成系统，其特征在于：所述层次化多尺...

【专利技术属性】
技术研发人员：王李翰，杨敏，李成明，姜青山，
申请(专利权)人：中国科学院深圳先进技术研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人