中文文本摘要生成系统及方法技术方案

技术编号:15763182 阅读:32 留言:0更新日期:2017-07-06 00:18
本发明专利技术公开了一种中文文本摘要生成系统,包括预处理模块、词汇理解模块、句子理解模块、段落理解模块和摘要自动生成模块,其中,预处理模块用于进行分词和原始词向量的形成,词汇理解模块、句子理解模块和段落理解模块分别用于采用双向长短记忆神经网络来对词汇、句子和段落进行深度理解,摘要自动生成模块用于根据词汇理解模块、句子理解模块、段落理解模块理解后的词向量、句子向量和段落向量采用seg2seq生成摘要。本发明专利技术还公开了一种中文文本摘要生成方法。本发明专利技术利用神经网络让机器真正的去阅读全文,并将理解后的文本表示在神经网络内,再序列化的输出简短摘要,系统在理解文章时,除了语义外,还结合文章的结构表示,更加精细的理解了全文。

Chinese text Abstract generating system and method

The invention discloses a Chinese text summarization system, including preprocessing module, vocabulary comprehension module, sentence comprehension module, paragraph comprehension module and automatic generation module, the pretreatment module is used for the formation of word segmentation and original word vector, vocabulary comprehension module, sentence comprehension module and paragraph comprehension modules are used to using two-way the length of memory neural network to carry out in-depth understanding of vocabulary, sentences and paragraphs, the automatic generation module according to the vocabulary comprehension module, sentence comprehension module, paragraph comprehension module after understanding word vector, sentence and paragraph vector generated by the vector seg2seq. The invention also discloses a method for generating Chinese text summarization. The invention uses neural network to make the machine really to read the text and text comprehension after expressed in neural network, and then output a short abstract serialization of the system in understanding a text, in addition to the semantic, combining with the structure of the article said, more precise understanding of the full text.

【技术实现步骤摘要】
中文文本摘要生成系统及方法
本专利技术涉及文本数据处理
,尤其涉及一种中文文本摘要生成系统及方法。
技术介绍
文本摘要生成和总结是一个最近随着大数据而出现的科研技术难题。因为随着数据的爆炸性产生,特别是文本数据,人们已经无法及时浏览和理解所有感兴趣的相关文本,但遗漏某些重要的文本信息又会造成很多组织和应用的损失。因此文本摘要自动归纳总结是实际应用中非常需要的应用面非常广的一项技术。比如,用户对商家的评论总结,自动新闻摘要的产生。目前大部分中文文章摘要自动产生工具的工作方式是进行关键字式的片段提取形成文章总结或摘要。它们主要的方法是寻找文章中的关键字。然后选取含有关键字较多的句子形成摘要。这些方法的主要缺点是不能概括全文,摘要中的句子直接没有很好的自然衔接。最重要的是这些方法都没有真正的理解文章用自己理解后的语言组织成摘要。具体来说,目前主流技术的步骤如下:1、将原文本拆分为句子,在每个句子中过滤掉停用词(可选),并只保留指定词性的单词(可选)。由此可以得到句子的集合和单词的集合。每个单词作为关联图中的一个节点。设定窗口大小为k,假设一个句子依次由下面的单词组成:w1,w2,w3,w4,w5,...,wn,其中{w1,w2,...,wk},{w2,w3,...,wk+1},{w3,w4,...,wk+2}等都是一个窗口。在一个窗口中的任两个单词对应的节点之间存在一个无向无权的边。基于上面构成图,可以计算出每个单词节点的重要性。最重要的若干单词可以作为关键词。2、接着是关键短语提取。若原文本中存在若干个关键词相邻的情况,那么这些关键词可以构成一个关键词组。例如,在一篇介绍支持向量机的文章中,可以找到关键词支持、向量、机,通过关键词组提取,可以得到支持向量机。3、最后是摘要的生成。将每个句子看成图中的一个节点,若两个句子之间有相似性,认为对应的两个节点之间有一个无向有权边,权值是相似度。通过某种算法计算得到的重要性最高的若干句子可以当作摘要。另外有些方法针对部分特别的结构化的文本,比如网页,XML等。这些技术利用这些结构信息,去估计某些关键位置或关键标签下的句子。最后将这些系统认为重要的句子组合成摘要。其主要缺点是不能概括全文,没有真正的理解文章用自己理解后的语言组织成摘要。除以上缺点之外,目前主流的文本摘要方法都有人为特征定制和提取的工作。本专利技术是基于深度学习的Seq2Seq技术,全称SequencetoSequence。该技术突破了传统的固定大小输入问题框架,开通了将经典深度神经网络模型(DNNs)运用于翻译与智能问答这一类序列型(SequenceBased,项目间有固定的先后关系)任务的先河,并被证实在翻译以及人机短问快答的应用中有着不俗的表现。首先简单介绍下Seq2Seq模型。Seq2Seq被提出于2014年,最早由两篇文章独立地阐述了它主要思想,分别是GoogleBrain团队的《SequencetoSequenceLearningwithNeuralNetworks》和YoshuaBengio团队的《LearningPhraseRepresentationusingRNNEncoder-DecoderforStatisticalMachineTranslation》。这两篇文章针对机器翻译的问题不谋而合地提出了相似的解决思路,Seq2Seq由此产生。Seq2Seq解决问题的主要思路是通过深度神经网络模型(常用的是LSTM,长短记忆网络,一种循环神经网络)将一个作为输入的序列映射为一个作为输出的序列,这一过程由编码输入与解码输出两个环节组成。seq2seq基础模型当应用于文档归纳时,它需要有独特的创新的变化,才能更好的解决特定问题。那么在文档归纳时,除了通常的seq2seq模型需要处理的问题以外,还需要以下注意几个关键特点:1、文章中句子的主题连续性;2、文章中句子之间的含义跳转;3、文章中段落之间的核心关系。这些现有技术中都没有得以解决。
技术实现思路
专利技术目的:本专利技术针对现有技术存在的问题,提供一种中文文本摘要生成系统及方法。技术方案:本专利技术所述的中文文本摘要生成系统包括预处理模块、词汇理解模块、句子理解模块、段落理解模块和摘要自动生成模块,其中:所述预处理模块,用于将原始文本进行分词,并对每个词都形成对应的原始词向量;所述词汇理解模块,用于按将原始词向量集合作为输入,采用双向长短期记忆神经网络进行处理,得到对应词汇的具有上下文背景信息的词向量;所述句子理解模块,用于将具有上下文背景信息的词向量转换为句子向量,并将句子向量集合作为输入,采用双向长短期记忆神经网络进行处理,得到对应句子的具有上下文背景信息的句子向量;所述段落理解模块,用于将句子向量转换为段落向量,并将段落向量集合作为输入,采用双向长短期记忆神经网络按顺序进行处理,得到对应段落的具有上下文背景信息的段落向量;所述摘要自动生成模块,用于将词汇理解模块生成的词向量、句子理解模块生成的句子向量和段落理解模块生成的段落向量连接成一个总向量,并作为seq2seq模型中解码序列RNN的原始状态,采用seq2seq模型进行逐字逐句的输出,得到文章摘要。进一步的,所述预处理模块具体用于将原始文本进行分词,并将分词后得到的每个词汇都形成一个原始词向量,并按顺序排列得到原始词向量集合W={wiw|iw=1,2,…,nw},。进一步的,所述词汇理解模块具体用于按将原始词向量集合W={wiw|iw=1,2,…,nw}作为输入,采用双向长短期记忆神经网络按顺序进行正向和反向处理,将最终神经网络中各神经单元的记忆状态作为对应词汇的具有上下文背景信息的词向量wbiw,,形成词向量集合Wb={wbiw|iw=1,2,…,nw},wiw表示第i个词向量,nw表示词向量总个数。进一步的,所述句子理解模块具体用于按照原始文本中句子的词汇组成方式,将词向量集合Wb转换为句子向量集合S={sis|is=1,2,…,ns},并将句子向量集合S作为输入,采用双向长短期记忆神经网络按顺序进行正向和反向处理,将最终神经网络中各神经单元的记忆状态作为对应句子的具有上下文背景信息的句子向量sbis,,形成句子向量集合Sb={sbis|is=1,2,…,ns},其中,ns表示句子向量总个数。进一步的,所述段落理解模块具体用于按照原始文本中段落的句子组成方式,将句子向量集合Sb转换为段落向量集合P={pip|ip=1,2,…,np},并将段落向量集合P作为输入,采用双向长短期记忆神经网络按顺序进行正向和反向处理,将最终神经网络中各神经单元的记忆状态作为对应段落的具有上下文背景信息的段落向量pbip,,形成段落向量集合Pb={pbip|ip=1,2,…,np},np表示段落向量总个数。本专利技术所述的中文文本摘要生成方法包括以下步骤:(1)将原始文本进行分词,并对每个词都形成对应的原始词向量;(2)按将原始词向量集合作为输入,采用双向长短期记忆神经网络进行处理,得到对应词汇的具有上下文背景信息的词向量;(3)将具有上下文背景信息的词向量转换为句子向量,并将句子向量集合作为输入,采用双向长短期记忆神经网络进行处理,得到对应句子的具有上下文背景信息的句子向量;(4)将句子向量转换为段落本文档来自技高网
...
中文文本摘要生成系统及方法

【技术保护点】
一种中文文本摘要生成系统,其特征在于:该系统包括预处理模块、词汇理解模块、句子理解模块、段落理解模块和摘要自动生成模块,其中:所述预处理模块,用于将原始文本进行分词,并对每个词都形成对应的原始词向量;所述词汇理解模块,用于按将原始词向量集合作为输入,采用双向长短期记忆神经网络进行处理,得到对应词汇的具有上下文背景信息的词向量;所述句子理解模块,用于将具有上下文背景信息的词向量转换为句子向量,并将句子向量集合作为输入,采用双向长短期记忆神经网络进行处理,得到对应句子的具有上下文背景信息的句子向量;所述段落理解模块,用于将句子向量转换为段落向量,并将段落向量集合作为输入,采用双向长短期记忆神经网络按顺序进行处理,得到对应段落的具有上下文背景信息的段落向量;所述摘要自动生成模块,用于将词汇理解模块生成的词向量、句子理解模块生成的句子向量和段落理解模块生成的段落向量连接成一个总向量,并作为seq2seq模型中解码序列RNN的原始状态,采用seq2seq模型进行逐字逐句的输出,得到文章摘要。

【技术特征摘要】
1.一种中文文本摘要生成系统,其特征在于:该系统包括预处理模块、词汇理解模块、句子理解模块、段落理解模块和摘要自动生成模块,其中:所述预处理模块,用于将原始文本进行分词,并对每个词都形成对应的原始词向量;所述词汇理解模块,用于按将原始词向量集合作为输入,采用双向长短期记忆神经网络进行处理,得到对应词汇的具有上下文背景信息的词向量;所述句子理解模块,用于将具有上下文背景信息的词向量转换为句子向量,并将句子向量集合作为输入,采用双向长短期记忆神经网络进行处理,得到对应句子的具有上下文背景信息的句子向量;所述段落理解模块,用于将句子向量转换为段落向量,并将段落向量集合作为输入,采用双向长短期记忆神经网络按顺序进行处理,得到对应段落的具有上下文背景信息的段落向量;所述摘要自动生成模块,用于将词汇理解模块生成的词向量、句子理解模块生成的句子向量和段落理解模块生成的段落向量连接成一个总向量,并作为seq2seq模型中解码序列RNN的原始状态,采用seq2seq模型进行逐字逐句的输出,得到文章摘要。2.根据权利要求1所述的中文文本摘要生成系统,其特征在于:所述预处理模块具体用于将原始文本进行分词,并将分词后得到的每个词汇都形成一个原始词向量,并按顺序排列得到原始词向量集合W={wiw|iw=1,2,…,nw},。3.根据权利要求2所述的中文文本摘要生成系统,其特征在于:所述词汇理解模块具体用于按将原始词向量集合W={wiw|iw=1,2,…,nw}作为输入,采用双向长短期记忆神经网络按顺序进行正向和反向处理,将最终神经网络中各神经单元的记忆状态作为对应词汇的具有上下文背景信息的词向量wbiw,,形成词向量集合Wb={wbiw|iw=1,2,…,nw},wiw表示第i个词向量,nw表示词向量总个数。4.根据权利要求3所述的中文文本摘要生成系统,其特征在于:所述句子理解模块具体用于按照原始文本中句子的词汇组成方式,将词向量集合Wb转换为句子向量集合S={sis|is=1,2,…,ns},并将句子向量集合S作为输入,采用双向长短期记忆神经网络按顺序进行正向和反向处理,将最终神经网络中各神经单元的记忆状态作为对应句子的具有上下文背景信息的句子向量sbis,,形成句子向量集合Sb={sbis|is=1,2,…,ns},其中,ns表示句子向量总个数。5.根据权利要求4所述的中文文本摘要生成系统,其特征在于:所述段落理解模块具体用于按照原始文本中段落的句子组成方式,将句子向量集合Sb转换为段落向量集合P={pip|ip=1,2,…,np},并将段落向量集合P作为输入,采用双向长短期记忆神经网络按顺序进行正向和反向处理,将最终神经网络中各神经单元的记忆状态作为对应段落的具有上下文背景信息...

【专利技术属性】
技术研发人员:俞旸凌志辉
申请(专利权)人:南京云思创智信息科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1