当前位置: 首页 > 专利查询>北京牡丹电子集团有限责任公司数字电视技术中心专利>正文

基于神经网络生成文本摘要的方法技术

技术编号：18204278 阅读：33 留言：0更新日期：2018-06-13 06:20

本发明专利技术提供一种基于神经网络生成文本摘要的方法，包括对输入文档进行分词并进行向量化表示得到词向量；将得到的每个句子的全部词向量按顺序输入第一循环神经网络的第一层，得到该句子输入当前词向量后句子的状态向量，其中，每个句子输入最后一个词向量后对应句子的状态向量代表该句子的句向量；将全部句向量按顺序输入到第一循环神经网络的第二层，得到文档中输入每个句子后对应的文档状态向量，其中，输入最后一个句子后对应的文档状态向量为整篇文档的状态向量；利用第二循环神经网络对输入文档的表示进行解码，生成摘要。本方法避免了人工生成摘要的成本问题，同时又避免了句子抽取式方法导致的信息片段化、歧义化的问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于神经网络生成文本摘要的方法
本专利技术涉及自然语言处理
，尤其涉及一种基于神经网络生成文本摘要的方法。
技术介绍
我们正在处于信息爆炸的时代，在享受多样信息所带来的各种便利的同时，人们越来越迫切地希望能够对信息进行提炼与浓缩，以较少的文字表达主要内容和中心思想，从而减少信息获取的时间。尽管大多数科技论文都附有作者自己撰写的摘要，但是社会科学领域的许多文章、新闻报道以及其它文字资料都没有手工文摘。然而，手工编写摘要需要对原文内容进行全面的了解，因此摘要的手工撰写过程相当花费时间。对于某些专业领域的文献，摘要的手工编写还需要一定的专业知识和丰富的行业经验，而能够达到这种要求的人还很少。互联网的迅速崛起使得文本信息呈爆炸性增长，这就导致手工编写摘要需要越来越多的人力，而这显然是不现实的。现有技术中自动生成文档摘要的方法有很多，但基本上都集中在抽取式方法中，其基本流程通常分为两步，首先，通过语言学知识或统计分析抽取文档中的段落、句子、短语或关键词；然后将抽取的文本进行重组得到文本摘要。虽然采用抽取式方法来提取摘要在一定程度上避免了人们必须通读全文以了解重要信息的问题，但是在内容和语言质量方面都不能令人满意。因为通过抽取式方法得到摘要中的句子仅仅是原文档中一些重要句子的简单拼凑，没有关联性，导致信息片段化、有歧义，最终导致用户不能准确理解。因此，有必要专利技术一种新的自动生成文档摘要的方法。
技术实现思路
本专利技术之目的是提供一种基于神经网络生成文本摘要的方法，其能够自动生成文本摘要，并且生成的文本摘要内容通顺流畅，句子之间具有高度的关联性。本专利技术提供一...

【技术保护点】
一种基于神经网络生成文本摘要的方法，其中，该方法包括如下步骤：S100、将原始文本进行分词处理，对经过分词处理后的单词进行向量化表示得到词向量；S200、将步骤S100中得到的每个句子的全部词向量按顺序输入第一循环神经网络的第一层，得到输入每个词后的句子状态向量，其中，每个句子的最后一个状态向量代表该句子的句向量；S300、将每个句子的句向量按顺序输入到第一循环神经网络的第二层，得到输入每个句子后对应的文档状态向量，其中，输入最后一个句子得到的文档状态向量为摘要的初始结构；S400、将所述摘要的初始结构输入到第二循环神经网络进行解码；S500、将解码获取的每个单词对应的向量和所述摘要的初始结构输入到所述第二循环神经网络，得到摘要的第一个单词和摘要文档的第一个状态向量；然后将得到的所述第一个单词和得到所述第一个摘要文档的状态向量输入到所述第二循环神经网络中，得到摘要的第二个单词和摘要文档的第二个状态向量；将得到的新单词和得到该新的摘要文档的状态向量循环输入到所述第二循环神经系统中，直到摘要生成完毕。

【技术特征摘要】
1.一种基于神经网络生成文本摘要的方法，其中，该方法包括如下步骤：S100、将原始文本进行分词处理，对经过分词处理后的单词进行向量化表示得到词向量；S200、将步骤S100中得到的每个句子的全部词向量按顺序输入第一循环神经网络的第一层，得到输入每个词后的句子状态向量，其中，每个句子的最后一个状态向量代表该句子的句向量；S300、将每个句子的句向量按顺序输入到第一循环神经网络的第二层，得到输入每个句子后对应的文档状态向量，其中，输入最后一个句子得到的文档状态向量为摘要的初始结构；S400、将所述摘要的初始结构输入到第二循环神经网络进行解码；S500、将解码获取的每个单词对应的向量和所述摘要的初始结构输入到所述第二循环神经网络，得到摘要的第一个单词和摘要文档的第一个状态向量；然后将得到的所述第一个单词和得到所述第一个摘要文档的状态向量输入到所述第二循环神经网络中，得到摘要的第二个单词和摘要文档的第二个状态向量；将得到的新单词和得到该新的摘要文档的状态向量循环输入到所述第二循环神经系统中，直到摘要生成完毕。2.如权利要求1所述的基于神经网络生成文本摘要的方法，其中，所述第一神经网络包括多个层级结构，用于生成表示句子级别和文档级别的文本状态向量。3.如权利要求2所述的游戏的基于神经网络生成文本摘要的方法，其中，所述第一循环神经网络为多层双向GRU神经网络，每个所述层级结构包括多个相连的GRU网络模块，并且，不同所述层级结构的所述GRU网络模块的参数不同，以便处理不同级别的文本。4.如权利要求3所述的基于神经网络生成文本摘要的方法，其中，所述GRU神经网络包括两个层级结构，所述第一循环神经网络的第一层用于生成表示句子级别的文本状态向量；所...

【专利技术属性】
技术研发人员：王家彬，谢冬冬，
申请(专利权)人：北京牡丹电子集团有限责任公司数字电视技术中心，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人