一种文本摘要生成方法和装置制造方法及图纸

技术编号:25989148 阅读:24 留言:0更新日期:2020-10-20 18:57
本发明专利技术公开了一种文本摘要生成方法和装置,涉及自然语言文本的自动摘要技术;在获取输入文本之后,通过采用编码器对文本进行处理得到编码器的环境向量;然后再根据根据编码器的环境向量采用解码器解码生成摘要。在编码器对整个文本信息编码过程中加入具有感知关键词注意力机制网络的合并层,调整最终得到的编码器的环境向量。使编码器的环境向量既考虑文本的整体性,又关注文本中的关键词。最终通过解码器解码后得到的摘要更加精确,更加符合输入文本。

【技术实现步骤摘要】
一种文本摘要生成方法和装置
本专利技术涉及自然语言文本的自动摘要技术,特别地,涉及一种文本摘要生成方法和装置。
技术介绍
文本摘要是一项具有挑战性的任务,旨在产生包含有益信息和却又不致冗余的摘要。相关技术主要可以分为抽取方法和抽象方法。抽取摘要方法从原始文本中识别并连接相关词,而抽象方法尝试以简洁的方式表达主要内容,可能使用原始文本中没有的单词。但是这两种方式都存在一定的局限性,抽取方法只关注关键词容易忽视文本的整体性;而抽象方法虽然基于全文,但是使用的新词可能无法替代原来的词,不能体现原始文本的关键点。
技术实现思路
为了克服现有技术的不足,本专利技术提供一种既基于文本整体又基于文本关键词的文本摘要生成方法和装置。本专利技术解决其技术问题所采用的技术方案是:一方面,一种文本摘要生成方法,包括:获取输入文本;采用编码器对所述文本进行处理得到编码器的环境向量,所述编码器包括具有感知关键词注意力机制网络的合并层;根据所述编码器的环境向量采用解码器解码生成摘要。进一步地,所述获取输入文本还包括:将所述文本进行分词;通过预训练的词向量矩阵将分词后的文本转换为低维实值向量形式的第一文本序列。进一步地,编码器对所述文本进行处理得到编码器的环境向量包括:将所述第一文本序列进行编码得到编码器隐向量;通过具有感知关键词注意力机制网络的合并层对所述编码器隐向量进行权重调整得到第二文本序列;再次通过两层的双向长短时记忆循环神经网络对所述第二文本序列进行调整,得到所述编码器的环境向量。进一步地,述将所述第一文本序列进行编码得到编码器隐向量包括:将所述第一文本序列输入到两层的双向长短时记忆循环神经网络;在所述两层的双向长短时记忆循环神经网络中,获取所述第一文本序列中词语的两侧的词的信息;将所述两侧的词的信息与所述词语本身信息进行计算;根据计算结果对所述词语信息进行操作,所述操作包括保留、记忆以及删除;对所述第一文本序列中的所有词语进行操作后得到编码器隐向量。进一步地,所述通过具有感知关键词注意力机制网络的合并层对所述编码器隐向量进行权重调整得到第二文本序列包括:获取所述文本的关键词向量;根据所述编码器隐向量与所述关键词向量生成每个编码器隐向量对应的关键词环境向量;根据所述编码器隐向量和所述关键词环境向量计算得到第二文本序列。进一步地,所述获取所述文本的关键词向量包括:对所述文本进行分词;通过TF-IDF技术对分词后的文本进行排序;选取排序在预设数值内的词语作为所述文本的关键词;将所述关键词按照在所述文本中出现的先后顺序组成第一关键词序列;将所述第一关键词序列通过预设的词向量矩阵转换为低维实值向量形式的第二关键词序列;将所述第二关键词序列通过两层的双向长短时记忆循环神经网络得到所述文本的关键词向量。进一步地,所述根据所述编码器隐向量与所述关键词向量生成每个编码器隐向量对应的关键词环境向量包括:根据注意力机制计算所述编码器隐向量与所述关键词向量的关联性;将计算出的所述关联性作为权重得到每个编码器隐向量对应的关键词环境向量。进一步地,所述根据所述编码器隐向量和所述关键词环境向量计算得到第二文本序列包括:根据所述编码器隐向量计算得到合并参数和选择参数;通过合并参数合并所述编码器隐向量和所述关键词环境向量;将合并后的向量乘以选择参数得到第二文本序列。进一步地,所述根据所述编码器的环境向量采用解码器解码生成摘要包括:当不是初次解码时,通过一个两层的单向长短时记忆网络生成解码向量;当初次解码时,根据所述编码器环境向量计算得到解码向量;根据所述解码向量和所述编码器的环境向量基于注意力机制计算得到解码器环境向量;根据所述解码器环境向量与所述解码向量生成解码平均向量;根据所述解码平均向量生成输出每个词的概率;根据所述概率通过BeamSearch算法得到解码的词;将得到的所述解码的词、解码向量以及解码平均向量作为输入数据输入到所述两层的单向长短时记忆网络中,重复上述步骤直至解码完成;将每次得到的解码的词按顺序生成摘要。另一方面,一种文本摘要生成装置,包括:文本获取模块,用于获取输入文本;编码模块,用于采用编码器对所述文本进行处理得到编码器的环境向量,所述编码器包括具有感知关键词注意力机制网络的合并层;解码模块,用于根据所述编码器的环境向量采用解码器解码生成摘要。本申请采用以上技术方案,至少具备以下有益效果:本专利技术技术方案提供了一种文本摘要生成方法和装置,在获取输入文本之后,通过采用编码器对文本进行处理得到编码器的环境向量;然后再根据根据编码器的环境向量采用解码器解码生成摘要。在编码器对整个文本信息编码过程中加入具有感知关键词注意力机制网络的合并层,调整最终得到的编码器的环境向量。使编码器的环境向量既考虑文本的整体性,又关注文本中的关键词。最终通过解码器解码后得到的摘要更加精确,更加符合输入文本。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的一种文本摘要生成方法的流程图;图2是本专利技术实施例提供的一种文本摘要生成方法的详细流程图;图3是本专利技术实施例提供的一种文本摘要生成装置的结构示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面结合附图和实施例对本专利技术的技术方案进行详细的描述说明。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本申请所保护的范围。一个实施例中,本专利技术提供了一种文本摘要生成方法,包括:获取输入文本;采用编码器对文本进行处理得到编码器的环境向量,编码器包括具有感知关键词注意力机制网络的合并层;根据编码器的环境向量采用解码器解码生成摘要。本专利技术实施例提供的一种文本摘要生成方法,在获取输入文本之后,通过采用编码器对文本进行处理得到编码器的环境向量;然后再根据根据编码器的环境向量采用解码器解码生成摘要。在编码器对整个文本信息编码过程中加入具有感知关键词注意力机制网络的合并层,调整最终得到的编码器的环境向量。使编码器的环境向量既考虑文本的整体性,又关注文本中的关键词。最终通过解码器解码后得到的摘要更加精确,更加符合输入文本。作为对上述实施例的一种补充,本专利技术实施例还提供了一种更详细的文本摘要本文档来自技高网...

【技术保护点】
1.一种文本摘要生成方法,其特征在于,包括:/n获取输入文本;/n采用编码器对所述文本进行处理得到编码器的环境向量,所述编码器包括具有感知关键词注意力机制网络的合并层;/n根据所述编码器的环境向量采用解码器解码生成摘要。/n

【技术特征摘要】
1.一种文本摘要生成方法,其特征在于,包括:
获取输入文本;
采用编码器对所述文本进行处理得到编码器的环境向量,所述编码器包括具有感知关键词注意力机制网络的合并层;
根据所述编码器的环境向量采用解码器解码生成摘要。


2.根据权利要求1所述的方法,其特征在于:所述获取输入文本还包括:
将所述文本进行分词;
通过预训练的词向量矩阵将分词后的文本转换为低维实值向量形式的第一文本序列。


3.根据权利要求2所述的方法,其特征在于:编码器对所述文本进行处理得到编码器的环境向量包括:
将所述第一文本序列进行编码得到编码器隐向量;
通过具有感知关键词注意力机制网络的合并层对所述编码器隐向量进行权重调整得到第二文本序列;
再次通过两层的双向长短时记忆循环神经网络对所述第二文本序列进行调整,得到所述编码器的环境向量。


4.根据权利要求3所述的方法,其特征在于:所述将所述第一文本序列进行编码得到编码器隐向量包括:
将所述第一文本序列输入到两层的双向长短时记忆循环神经网络;
在所述两层的双向长短时记忆循环神经网络中,获取所述第一文本序列中词语的两侧的词的信息;
将所述两侧的词的信息与所述词语本身信息进行计算;
根据计算结果对所述词语信息进行操作,所述操作包括保留、记忆以及删除;
对所述第一文本序列中的所有词语进行操作后得到编码器隐向量。


5.根据权利要求3所述的方法,其特征在于:所述通过具有感知关键词注意力机制网络的合并层对所述编码器隐向量进行权重调整得到第二文本序列包括:
获取所述文本的关键词向量;
根据所述编码器隐向量与所述关键词向量生成每个编码器隐向量对应的关键词环境向量;
根据所述编码器隐向量和所述关键词环境向量计算得到第二文本序列。


6.根据权利要求5所述的方法,其特征在于:所述获取所述文本的关键词向量包括:
对所述文本进行分词;
通过TF-IDF技术对分词后的文本进行排序;
选取排序在预设数值内的词语作为所述文本...

【专利技术属性】
技术研发人员:叶蔚张世琨刘学洋胡天翔张君福
申请(专利权)人:北京北大软件工程股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1