基于神经网络生成文本摘要的方法技术

技术编号:18204278 阅读:33 留言:0更新日期:2018-06-13 06:20
本发明专利技术提供一种基于神经网络生成文本摘要的方法,包括对输入文档进行分词并进行向量化表示得到词向量;将得到的每个句子的全部词向量按顺序输入第一循环神经网络的第一层,得到该句子输入当前词向量后句子的状态向量,其中,每个句子输入最后一个词向量后对应句子的状态向量代表该句子的句向量;将全部句向量按顺序输入到第一循环神经网络的第二层,得到文档中输入每个句子后对应的文档状态向量,其中,输入最后一个句子后对应的文档状态向量为整篇文档的状态向量;利用第二循环神经网络对输入文档的表示进行解码,生成摘要。本方法避免了人工生成摘要的成本问题,同时又避免了句子抽取式方法导致的信息片段化、歧义化的问题。

【技术实现步骤摘要】
基于神经网络生成文本摘要的方法
本专利技术涉及自然语言处理
,尤其涉及一种基于神经网络生成文本摘要的方法。
技术介绍
我们正在处于信息爆炸的时代,在享受多样信息所带来的各种便利的同时,人们越来越迫切地希望能够对信息进行提炼与浓缩,以较少的文字表达主要内容和中心思想,从而减少信息获取的时间。尽管大多数科技论文都附有作者自己撰写的摘要,但是社会科学领域的许多文章、新闻报道以及其它文字资料都没有手工文摘。然而,手工编写摘要需要对原文内容进行全面的了解,因此摘要的手工撰写过程相当花费时间。对于某些专业领域的文献,摘要的手工编写还需要一定的专业知识和丰富的行业经验,而能够达到这种要求的人还很少。互联网的迅速崛起使得文本信息呈爆炸性增长,这就导致手工编写摘要需要越来越多的人力,而这显然是不现实的。现有技术中自动生成文档摘要的方法有很多,但基本上都集中在抽取式方法中,其基本流程通常分为两步,首先,通过语言学知识或统计分析抽取文档中的段落、句子、短语或关键词;然后将抽取的文本进行重组得到文本摘要。虽然采用抽取式方法来提取摘要在一定程度上避免了人们必须通读全文以了解重要信息的问题,但是在内容和语言质量方面都不能令人满意。因为通过抽取式方法得到摘要中的句子仅仅是原文档中一些重要句子的简单拼凑,没有关联性,导致信息片段化、有歧义,最终导致用户不能准确理解。因此,有必要专利技术一种新的自动生成文档摘要的方法。
技术实现思路
本专利技术之目的是提供一种基于神经网络生成文本摘要的方法,其能够自动生成文本摘要,并且生成的文本摘要内容通顺流畅,句子之间具有高度的关联性。本专利技术提供一种基于神经网络生成文本摘要的方法,其中,该方法包括如下步骤:S100、将原始文本进行分词处理,对经过分词处理后的单词进行向量化表示得到词向量;S200、将步骤S100中得到的每个句子的全部词向量按顺序输入第一循环神经网络的第一层,得到输入每个词后的句子状态向量,其中,每个句子的最后一个状态向量代表该句子的句向量;S300、将每个句子的句向量按顺序输入到第一循环神经网络的第二层,得到输入每个句子后对应的文档状态向量,其中,输入最后一个句子得到的文档状态向量为摘要的初始结构;S400、将所述摘要的初始结构输入到第二循环神经网络进行解码;S500、将解码获取的每个单词对应的向量和所述摘要的初始结构输入到所述第二循环神经网络,得到摘要的第一个单词和摘要文档的第一个状态向量;然后将得到的所述第一个单词和得到所述第一个摘要文档的状态向量输入到所述第二循环神经网络中,得到摘要的第二个单词和摘要文档的第二个状态向量;将得到的新单词和得到该新的摘要文档的状态向量循环输入到所述第二循环神经系统中,直到摘要生成完毕。作为优选方式,所述第一神经网络包括多个层级结构,用于生成表示句子级别和文档级别的文本状态向量。作为优选方式,所述第一循环神经网络为多层双向GRU神经网络,每个所述层级结构包括多个相连的GRU网络模块,并且,不同所述层级结构的所述GRU网络模块的参数不同,以便处理不同级别的文本。作为优选方式,所述GRU神经网络包括两个层级结构,所述第一循环神经网络的第一层用于生成表示句子级别的文本状态向量;所述第一循环神经网络的第二层用于生成表示文档级别的文本状态向量。作为优选方式,所述第一循环神经网络的第一层包括多个相连的GRU1网络模块,用于得到每个句子的状态向量;所述第一循环神经网络的第二层包括多个相连的GRU2网络模块,用于得到所述文档状态向量。作为优选方式,所述第二循环神经网络为GRU解码神经网络,包括多个相连的GRU3网络模块。作为优选方式,所述GRU1网络模块、所述GRU2网络模块和所述GRU3网络模块的结构相同,参数不同。作为优选方式,步骤S200中将步骤S100中得到的每个句子的全部词向量按顺序输入第一循环神经网络的第一层,得到输入每个词后的句子状态向量包括:将第i个所述词向量和第i-1所述词向量对应句子的状态向量输入到第i个所述GRU1网络模块中,经过第i个所述GRU1网络模块处理得到输入第i个词向量后句子的状态向量。作为优选方式,步骤S300中将每个句子的句向量按顺序输入到第一循环神经网络的第二层,得到输入每个句子后对应的文档状态向量包括:将第i个所述句向量和第i-1个所述句向量对应的文档状态向量输入到第i个所述GRU2网络模块中,经过第i个所述GRU2网络模块处理得到输入第i个所述句向量后对应的文档状态向量。作为优选方式,其中,步骤S100中采用Word2Vec中基于层次化soft-max的CBOW模型对所述经过分词处理后的单词进行向量化表示。作为解释说明:Word2Vec是一种预测模型,可以高效地学习嵌入字,Word2Vec的基本思想是把自然语言中的每一个词,表示成一个统一意义统一维度的短向量,具体的有CBOW(连续词袋模型)和skip-gram模型。其中,CBOW适合小型数据集,并且是使用上下文预测目标词;skip-gram适合大规模数据集,并且是使用目标词预测上下文。本专利技术具有以下优点和有益效果:1、本专利技术的基于神经网络生成文本摘要的方法,无需依赖人工的经验知识,例如词性标注,句法分析,篇章结构分析等,通过循环神经网络能够自动生成文本摘要,并且利用该方法生成的文本摘要的句子之间关联性强、没有歧义,能够帮助用户准确理解文档。2、本专利技术采用的为CBOW模型,根据上下文预测目标词,从而有效的根据输入文档得到文档的摘要,并且利用CBOW模型可以有效控制词向量的维度,并且可以表示词与词之间的关系,进而降低编码的难度。3、本专利技术的基于神经网络生成文本摘要的方法,利用CBOW模型对词汇进行向量表示,可以有效控制词向量的维度,降低编码难度,提高编码效率,并且能够有效避免传统方法中得到的摘要中含有字面不相似而词义相似的词语的问题,比如“计算机”和“电脑”按照传统方法是没有相似性的,但是按照词向量的表示则能够体现这种字面不匹配而语义匹配的相似性,进而避免相同词义的词重复出现。4、本专利技术的基于神经网络生成文本摘要的方法,能够有效提高生成文本摘要的效率和准确率,并且可以降低人工撰写摘要的成本。附图说明下面将简要说明本申请所使用的附图,显而易见地,这些附图仅用于解释本专利技术的构思。图1是本专利技术的基于神经网络生成文本摘要的方法的流程图;图2是本专利技术的基于神经网络生成文本摘要的方法中GRU网络模块的结构图;图3是本专利技术的基于神经网络生成文本摘要的方法的循环神经网络结构图。附图标记汇总:1、第一循环神经网络的第一层2、第一循环神经网络的第二层3、第二循环神经网络具体实施方式在下文中,将参照附图描述本专利技术基于神经网络生成文本摘要的方法的实施例。在此记载的实施例为本专利技术的特定的具体实施方式,用于说明本专利技术的构思,均是解释性和示例性的,不应解释为对本专利技术实施方式及本专利技术范围的限制。除在此记载的实施例外,本领域技术人员还能够基于本申请权利要求书和说明书所公开的内容采用显而易见的其它技术方案,这些技术方案包括对在此记载的实施例做出任何显而易见的替换和修改的技术方案。本说明书的附图为示意图,辅助说明本专利技术的构思,示意性地表示各部分的形状及其相互关系。请注意,为了便于清楚地表现出本专利技术实施例的各部本文档来自技高网...
基于神经网络生成文本摘要的方法

【技术保护点】
一种基于神经网络生成文本摘要的方法,其中,该方法包括如下步骤:S100、将原始文本进行分词处理,对经过分词处理后的单词进行向量化表示得到词向量;S200、将步骤S100中得到的每个句子的全部词向量按顺序输入第一循环神经网络的第一层,得到输入每个词后的句子状态向量,其中,每个句子的最后一个状态向量代表该句子的句向量;S300、将每个句子的句向量按顺序输入到第一循环神经网络的第二层,得到输入每个句子后对应的文档状态向量,其中,输入最后一个句子得到的文档状态向量为摘要的初始结构;S400、将所述摘要的初始结构输入到第二循环神经网络进行解码;S500、将解码获取的每个单词对应的向量和所述摘要的初始结构输入到所述第二循环神经网络,得到摘要的第一个单词和摘要文档的第一个状态向量;然后将得到的所述第一个单词和得到所述第一个摘要文档的状态向量输入到所述第二循环神经网络中,得到摘要的第二个单词和摘要文档的第二个状态向量;将得到的新单词和得到该新的摘要文档的状态向量循环输入到所述第二循环神经系统中,直到摘要生成完毕。

【技术特征摘要】
1.一种基于神经网络生成文本摘要的方法,其中,该方法包括如下步骤:S100、将原始文本进行分词处理,对经过分词处理后的单词进行向量化表示得到词向量;S200、将步骤S100中得到的每个句子的全部词向量按顺序输入第一循环神经网络的第一层,得到输入每个词后的句子状态向量,其中,每个句子的最后一个状态向量代表该句子的句向量;S300、将每个句子的句向量按顺序输入到第一循环神经网络的第二层,得到输入每个句子后对应的文档状态向量,其中,输入最后一个句子得到的文档状态向量为摘要的初始结构;S400、将所述摘要的初始结构输入到第二循环神经网络进行解码;S500、将解码获取的每个单词对应的向量和所述摘要的初始结构输入到所述第二循环神经网络,得到摘要的第一个单词和摘要文档的第一个状态向量;然后将得到的所述第一个单词和得到所述第一个摘要文档的状态向量输入到所述第二循环神经网络中,得到摘要的第二个单词和摘要文档的第二个状态向量;将得到的新单词和得到该新的摘要文档的状态向量循环输入到所述第二循环神经系统中,直到摘要生成完毕。2.如权利要求1所述的基于神经网络生成文本摘要的方法,其中,所述第一神经网络包括多个层级结构,用于生成表示句子级别和文档级别的文本状态向量。3.如权利要求2所述的游戏的基于神经网络生成文本摘要的方法,其中,所述第一循环神经网络为多层双向GRU神经网络,每个所述层级结构包括多个相连的GRU网络模块,并且,不同所述层级结构的所述GRU网络模块的参数不同,以便处理不同级别的文本。4.如权利要求3所述的基于神经网络生成文本摘要的方法,其中,所述GRU神经网络包括两个层级结构,所述第一循环神经网络的第一层用于生成表示句子级别的文本状态向量;所...

【专利技术属性】
技术研发人员:王家彬谢冬冬
申请(专利权)人:北京牡丹电子集团有限责任公司数字电视技术中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1