一种文本摘要生成方法、智能终端及存储介质技术

技术编号:21060137 阅读:25 留言:0更新日期:2019-05-08 06:56
本发明专利技术公开了一种文本摘要生成方法、智能终端及存储介质,所述方法包括:获取待生成摘要的输入信息,并将所述输入信息转换为数字向量数据;通过编码器将数字向量数据输入到双向循环神经网络进行运算,输出句子到选择门网络生成新的门状态序列;通过注意力层将选择门网络中输出的门状态序列加一个高斯窗,进行计算后得到当前时刻包含上下文信息的向量输出到解码器;通过解码器通过解码生成对应于真实训练结果的预测概率最高的输出结果,并将所述输出结果作为所述输入信息的摘要。本发明专利技术根据用户的需求快速、准确生成文本摘要,可以准确表达文章的主旨,更加符合用户的阅读习惯,使得用户可以根据文本摘要迅速获取文章的主要信息。

A Method of Text Summary Generation, Intelligent Terminal and Storage Media

【技术实现步骤摘要】
一种文本摘要生成方法、智能终端及存储介质
本专利技术涉及计算机应用
,尤其涉及一种文本摘要生成方法、智能终端及存储介质。
技术介绍
随着科技的飞速发展,网络上的各种各样的文章资料让人眼花缭乱,这些杂乱的文章很多时候利用价值并不大,而且很多吸引人的标题并不符实,导致容易被“标题党”欺骗,尤其是对一些资料投入精力进行阅读后才发现并不是自己想要的,既浪费了大量的时间,又大大的降低了工作效率,为了确定当前所掌握的资料是否是自己真正想要的,更快捷的找到自己满意的内容,需要对未知的资料进行快速的浏览对其进行甄别,从而得到自己真正需要的有价值的资料。现有相对成熟的摘要生成方法一般都采用的是抽取式的方式,其核心思想就是在原文中寻找一些关键词、句来组成一篇摘要,这种方式有很大的局限性,关键词、句的产生一般都是通过对文章进行分词处理后寻找那些出现频率较高的标签来确定,生成的摘要很难准确的捕捉到文章的所有信息。导致摘要效果差强人意,无法满足用户的需要。也就是说,传统方式的核心思路是在原文中抽取出现频率高的关键句子或者词语,将这些词语或者句子拼接在一起生成一个摘要,由于关键词前后之间并无关联,使得生成的摘要往往词不达意,晦涩难懂,并不能清晰的表达原文的核心思想,需要用户“半读半猜”,并不能达到摘要的真正目的。因此,现有技术还有待于改进和发展。
技术实现思路
本专利技术要解决的技术问题在于,针对现有技术缺陷,本专利技术提供一种文本摘要生成方法、智能终端及存储介质,根据用户的需求快速、准确生成文本摘要,可以准确表达文章的主旨,更加符合用户的阅读习惯,使得用户可以根据文本摘要迅速获取文章的主要信息。本专利技术解决技术问题所采用的技术方案如下:一种文本摘要生成方法,其中,所述文本摘要生成方法包括:获取待生成摘要的输入信息,并将所述输入信息转换为数字向量数据;将所述数字向量数据输入至摘要生成模型中,其中,所述摘要生成模型包括编码器、选择门网络、注意力层和解码器;通过所述编码器将数字向量数据输入到双向循环神经网络进行运算,输出句子到所述选择门网络生成新的门状态序列;通过所述注意力层将所述选择门网络中输出的门状态序列加一个高斯窗,进行计算后得到当前时刻包含上下文信息的向量输出到所述解码器;通过所述解码器解码生成对应于真实训练结果的预测概率最高的输出结果,并将所述输出结果作为所述输入信息的摘要。所述的文本摘要生成方法,其中,所述获取待生成摘要的输入信息,并将所述输入信息转换为数字向量数据具体包括:将用户搜集的多种需要筛选或者辅助阅读的数据进行预处理,筛选出包含直接输入的文本、存储文本信息的多种格式的文档以及包含文本信息的可识别文件;将输入信息进行文本化处理,输出为可识别和可处理的纯文本数据;将纯文本数据的文本进行分词处理,转换为一定长度的句子;通过嵌入层将分词处理后的数据变为可识别的数字向量数据。所述的文本摘要生成方法,其中,所述文本化处理用于将带有图片的文档和PDF数据转化为只包含文字和符号的文本数据。所述的文本摘要生成方法,其中,所述编码器将数字向量数据输入到双向循环神经网络进行运算具体包括:通过所述编码器将数字向量数据输入到双向循环神经网络进行运算;通过双向循环神经网络全面提取数字向量数据中的所有信息;自左向右计算输入向量的信息,并生成正向隐藏层状态序列;将输入序列反向进行计算,并生成反向隐藏层状态序列;将正向隐藏层状态序列和反向隐藏层状态序列结合,生成一个基本的句子表示作为输出。所述的文本摘要生成方法,其中,所述输出句子到所述选择门网络生成新的门状态序列具体包括:将输入的句子处理为句子字向量和句子表示向量;通过所述选择门网络调用sigmod函数进行计算得到一个新的门状态序列,输入到所述注意力层中进行进一步处理;其中,所述句子字向量为所述编码器输出的包含上下文的所有隐藏层状态序列;所述句子表示向量则由所述编码器中双向循环神经网络的最后一个正向隐藏层状态序列和反向隐藏层状态序列结合而成,用于表示句子的意思。所述的文本摘要生成方法,其中,所述通过所述注意力层将所述选择门网络中输出的门状态序列加一个高斯窗,进行计算后得到当前时刻包含上下文信息的向量输出到所述解码器具体包括:通过所述注意力层获取门状态序列的注意力中心点,以注意力中心点为中心对所述选择门网络中输出的门状态序列加一个高斯窗;将窗口内的值与门状态序列的值进行计算后得到当前时刻包含上下文信息的向量作为输出。所述的文本摘要生成方法,其中,所述通过解码器解码生成对应于真实训练结果的预测概率最高的输出结果,并将所述输出结果作为所述输入信息的摘要具体包括:通过所述解码器使用多层循环神经网络将上一时刻所述注意力层生成的上下文信息的向量、上一时刻的输出以及中间的隐藏层状态序列进行解码;与当前上下文向量一起输入全连接层,得到对应于真实训练结果的预测概率最高的输出结果,并将所述输出结果作为所述输入信息的摘要。所述的文本摘要生成方法,其中,所述通过所述解码器解码生成对应于真实训练结果的预测概率最高的输出结果,并将所述输出结果作为所述输入信息的摘要之后还包括:接收用户选择需要的文本数据后修改生成的摘要的内容,并将修改后的摘要和对应的文本数据反馈回神经网络进行进一步训练。一种智能终端,其中,所述智能终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本摘要生成程序,所述文本摘要生成程序被所述处理器执行时实现如上所述的文本摘要生成方法的步骤。一种存储介质,其中,所述存储介质存储有文本摘要生成程序,所述文本摘要生成程序被处理器执行时实现如上所述的文本摘要生成方法的步骤。本专利技术公开了一种文本摘要生成方法、智能终端及存储介质,所述方法包括:获取待生成摘要的输入信息,并将所述输入信息转换为数字向量数据;将所述数字向量数据输入至摘要生成模型中,其中,所述摘要生成模型包括编码器、选择门网络、注意力层和解码器;通过所述编码器将数字向量数据输入到双向循环神经网络进行运算,输出句子到所述选择门网络生成新的门状态序列;通过所述注意力层将所述选择门网络中输出的门状态序列加一个高斯窗,进行计算后得到当前时刻包含上下文信息的向量输出到所述解码器;通过所述解码器解码生成对应于真实训练结果的预测概率最高的输出结果,并将所述输出结果作为所述输入信息的摘要。本专利技术根据用户的需求快速、准确生成文本摘要,可以准确表达文章的主旨,更加符合用户的阅读习惯,使得用户可以根据文本摘要迅速获取文章的主要信息。附图说明图1是本专利技术文本摘要生成方法的较佳实施例的流程图;图2是本专利技术文本摘要生成方法的较佳实施例中步骤S10的流程图;图3是本专利技术文本摘要生成方法的较佳实施例中步骤S30的流程图;图4是本专利技术文本摘要生成方法的较佳实施例中步骤S40的流程图;图5是本专利技术文本摘要生成方法的较佳实施例中步骤S50的流程图;图6为本专利技术智能终端的较佳实施例的运行环境示意图。具体实施方式为使本专利技术的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本专利技术进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术较佳实施例所述的文本摘要生成方法,如图1所示,所述文本摘要生成方法包括以下步骤:步骤S10、获取待生本文档来自技高网...

【技术保护点】
1.一种文本摘要生成方法,其特征在于,所述文本摘要生成方法包括:获取待生成摘要的输入信息,并将所述输入信息转换为数字向量数据 ;将所述数字向量数据输入至摘要生成模型中,其中,所述摘要生成模型包括编码器、选择门网络、注意力层和解码器;通过所述编码器将数字向量数据输入到双向循环神经网络进行运算,输出句子到所述选择门网络生成新的门状态序列;通过所述注意力层将所述选择门网络中输出的门状态序列加一个高斯窗,进行计算后得到当前时刻包含上下文信息的向量输出到所述解码器;通过所述解码器解码生成对应于真实训练结果的预测概率最高的输出结果,并将所述输出结果作为所述输入信息的摘要。

【技术特征摘要】
1.一种文本摘要生成方法,其特征在于,所述文本摘要生成方法包括:获取待生成摘要的输入信息,并将所述输入信息转换为数字向量数据;将所述数字向量数据输入至摘要生成模型中,其中,所述摘要生成模型包括编码器、选择门网络、注意力层和解码器;通过所述编码器将数字向量数据输入到双向循环神经网络进行运算,输出句子到所述选择门网络生成新的门状态序列;通过所述注意力层将所述选择门网络中输出的门状态序列加一个高斯窗,进行计算后得到当前时刻包含上下文信息的向量输出到所述解码器;通过所述解码器解码生成对应于真实训练结果的预测概率最高的输出结果,并将所述输出结果作为所述输入信息的摘要。2.根据权利要求1所述的文本摘要生成方法,其特征在于,所述获取待生成摘要的输入信息,并将所述输入信息转换为数字向量数据具体包括:将用户搜集的多种需要筛选或者辅助阅读的数据进行预处理,筛选出包含直接输入的文本、存储文本信息的多种格式的文档以及包含文本信息的可识别文件;将输入信息进行文本化处理,输出为可识别和可处理的纯文本数据;将纯文本数据的文本进行分词处理,转换为一定长度的句子;通过嵌入层将分词处理后的数据变为可识别的数字向量数据。3.根据权利要求2所述的文本摘要生成方法,其特征在于,所述文本化处理用于将带有图片的文档和PDF数据转化为只包含文字和符号的文本数据。4.根据权利要求2所述的文本摘要生成方法,其特征在于,所述编码器将数字向量数据输入到双向循环神经网络进行运算具体包括:通过所述编码器将数字向量数据输入到双向循环神经网络进行运算;通过双向循环神经网络全面提取数字向量数据中的所有信息;自左向右计算输入向量的信息,并生成正向隐藏层状态序列;将输入序列反向进行计算,并生成反向隐藏层状态序列;将正向隐藏层状态序列和反向隐藏层状态序列结合,生成一个基本的句子表示作为输出。5.根据权利要求4所述的文本摘要生成方法,其特征在于,所述输出句子到所述选择门网络生成新的门状态序列具体包括:将输入的句子处理为句子字向量和句子表示向量;通过所述选择门网络调用sigmo...

【专利技术属性】
技术研发人员:苏建蔡云龙
申请(专利权)人:TCL集团股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1