The invention discloses a Chinese text summarization system, including preprocessing module, vocabulary comprehension module, sentence comprehension module, paragraph comprehension module and automatic generation module, the pretreatment module is used for the formation of word segmentation and original word vector, vocabulary comprehension module, sentence comprehension module and paragraph comprehension modules are used to using two-way the length of memory neural network to carry out in-depth understanding of vocabulary, sentences and paragraphs, the automatic generation module according to the vocabulary comprehension module, sentence comprehension module, paragraph comprehension module after understanding word vector, sentence and paragraph vector generated by the vector seg2seq. The invention also discloses a method for generating Chinese text summarization. The invention uses neural network to make the machine really to read the text and text comprehension after expressed in neural network, and then output a short abstract serialization of the system in understanding a text, in addition to the semantic, combining with the structure of the article said, more precise understanding of the full text.
【技术实现步骤摘要】
中文文本摘要生成系统及方法
本专利技术涉及文本数据处理
,尤其涉及一种中文文本摘要生成系统及方法。
技术介绍
文本摘要生成和总结是一个最近随着大数据而出现的科研技术难题。因为随着数据的爆炸性产生,特别是文本数据,人们已经无法及时浏览和理解所有感兴趣的相关文本,但遗漏某些重要的文本信息又会造成很多组织和应用的损失。因此文本摘要自动归纳总结是实际应用中非常需要的应用面非常广的一项技术。比如,用户对商家的评论总结,自动新闻摘要的产生。目前大部分中文文章摘要自动产生工具的工作方式是进行关键字式的片段提取形成文章总结或摘要。它们主要的方法是寻找文章中的关键字。然后选取含有关键字较多的句子形成摘要。这些方法的主要缺点是不能概括全文,摘要中的句子直接没有很好的自然衔接。最重要的是这些方法都没有真正的理解文章用自己理解后的语言组织成摘要。具体来说,目前主流技术的步骤如下:1、将原文本拆分为句子,在每个句子中过滤掉停用词(可选),并只保留指定词性的单词(可选)。由此可以得到句子的集合和单词的集合。每个单词作为关联图中的一个节点。设定窗口大小为k,假设一个句子依次由下面的单词组成:w1,w2,w3,w4,w5,...,wn,其中{w1,w2,...,wk},{w2,w3,...,wk+1},{w3,w4,...,wk+2}等都是一个窗口。在一个窗口中的任两个单词对应的节点之间存在一个无向无权的边。基于上面构成图,可以计算出每个单词节点的重要性。最重要的若干单词可以作为关键词。2、接着是关键短语提取。若原文本中存在若干个关键词相邻的情况,那么这些关键词可以构成一个关键词组 ...
【技术保护点】
一种中文文本摘要生成系统,其特征在于:该系统包括预处理模块、词汇理解模块、句子理解模块、段落理解模块和摘要自动生成模块,其中:所述预处理模块,用于将原始文本进行分词,并对每个词都形成对应的原始词向量;所述词汇理解模块,用于按将原始词向量集合作为输入,采用双向长短期记忆神经网络进行处理,得到对应词汇的具有上下文背景信息的词向量;所述句子理解模块,用于将具有上下文背景信息的词向量转换为句子向量,并将句子向量集合作为输入,采用双向长短期记忆神经网络进行处理,得到对应句子的具有上下文背景信息的句子向量;所述段落理解模块,用于将句子向量转换为段落向量,并将段落向量集合作为输入,采用双向长短期记忆神经网络按顺序进行处理,得到对应段落的具有上下文背景信息的段落向量;所述摘要自动生成模块,用于将词汇理解模块生成的词向量、句子理解模块生成的句子向量和段落理解模块生成的段落向量连接成一个总向量,并作为seq2seq模型中解码序列RNN的原始状态,采用seq2seq模型进行逐字逐句的输出,得到文章摘要。
【技术特征摘要】
1.一种中文文本摘要生成系统,其特征在于:该系统包括预处理模块、词汇理解模块、句子理解模块、段落理解模块和摘要自动生成模块,其中:所述预处理模块,用于将原始文本进行分词,并对每个词都形成对应的原始词向量;所述词汇理解模块,用于按将原始词向量集合作为输入,采用双向长短期记忆神经网络进行处理,得到对应词汇的具有上下文背景信息的词向量;所述句子理解模块,用于将具有上下文背景信息的词向量转换为句子向量,并将句子向量集合作为输入,采用双向长短期记忆神经网络进行处理,得到对应句子的具有上下文背景信息的句子向量;所述段落理解模块,用于将句子向量转换为段落向量,并将段落向量集合作为输入,采用双向长短期记忆神经网络按顺序进行处理,得到对应段落的具有上下文背景信息的段落向量;所述摘要自动生成模块,用于将词汇理解模块生成的词向量、句子理解模块生成的句子向量和段落理解模块生成的段落向量连接成一个总向量,并作为seq2seq模型中解码序列RNN的原始状态,采用seq2seq模型进行逐字逐句的输出,得到文章摘要。2.根据权利要求1所述的中文文本摘要生成系统,其特征在于:所述预处理模块具体用于将原始文本进行分词,并将分词后得到的每个词汇都形成一个原始词向量,并按顺序排列得到原始词向量集合W={wiw|iw=1,2,…,nw},。3.根据权利要求2所述的中文文本摘要生成系统,其特征在于:所述词汇理解模块具体用于按将原始词向量集合W={wiw|iw=1,2,…,nw}作为输入,采用双向长短期记忆神经网络按顺序进行正向和反向处理,将最终神经网络中各神经单元的记忆状态作为对应词汇的具有上下文背景信息的词向量wbiw,,形成词向量集合Wb={wbiw|iw=1,2,…,nw},wiw表示第i个词向量,nw表示词向量总个数。4.根据权利要求3所述的中文文本摘要生成系统,其特征在于:所述句子理解模块具体用于按照原始文本中句子的词汇组成方式,将词向量集合Wb转换为句子向量集合S={sis|is=1,2,…,ns},并将句子向量集合S作为输入,采用双向长短期记忆神经网络按顺序进行正向和反向处理,将最终神经网络中各神经单元的记忆状态作为对应句子的具有上下文背景信息的句子向量sbis,,形成句子向量集合Sb={sbis|is=1,2,…,ns},其中,ns表示句子向量总个数。5.根据权利要求4所述的中文文本摘要生成系统,其特征在于:所述段落理解模块具体用于按照原始文本中段落的句子组成方式,将句子向量集合Sb转换为段落向量集合P={pip|ip=1,2,…,np},并将段落向量集合P作为输入,采用双向长短期记忆神经网络按顺序进行正向和反向处理,将最终神经网络中各神经单元的记忆状态作为对应段落的具有上下文背景信息...
【专利技术属性】
技术研发人员:俞旸,凌志辉,
申请(专利权)人:南京云思创智信息科技有限公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。