一种基于序列到序列模型的中文文本摘要生成方法技术

技术编号：23983700 阅读：63 留言：0更新日期：2020-04-29 12:31

本发明专利技术公开了一种基于序列到序列模型的中文文本摘要生成方法，首先对文本进行按字切分并填充到固定长度，对字向量进行高斯随机初始化；将文本编码后输入双向长短期记忆网络(LSTM)，最后的输出状态作为预编码；对字向量按照不同的窗口大小做卷积神经网络(CNN)，输出作为窗口词向量；构建编码器，构造一个双向LSTM，预编码作为其初始化参数，上一步的窗口词向量作为输入；构建解码器，使用单向LSTM并结合注意力机制生成文本。本发明专利技术改进了传统的序列到序列模型中的编码器，使模型在编码阶段能够获得更多的原文本的信息，最终解码出更好的文本摘要，并使用了更小细粒度的字向量，更适合中文文本。

A method of Chinese Text Summarization Based on sequence to sequence model

全部详细技术资料下载

【技术实现步骤摘要】
一种基于序列到序列模型的中文文本摘要生成方法
本专利技术涉及深度学习、自然语言处理的
，尤其是指一种基于序列到序列模型的中文文本摘要生成方法。
技术介绍
文本自动生成摘要技术，其任务的主要内容为：对一个较长文本，通过模型最终生成一个较短文本，并能概括源文本的主要内容。目前主流的文本摘要方式分为两种，抽取式和生成式。抽取式指利用算法从原文中寻找跟主要思想最接近的一条或几条句子，是一种比较成熟的方案，但由于抽取式摘要的所有内容均由原文本中提取拼凑，生成的摘要可读性和流畅性差强人意，距离实际应用还有不小的距离。生成式的摘要生成模型利用深度学习，通过大规模文本数据的训练，编码获取文本的主要信息，并能解码生成较为流畅的摘要。但在训练中会出现过拟合的情况，对于一些重要的词汇，会在生成的摘要中重复出现，且词汇表是有限的，对于不在词汇表中生僻词汇，只能用“未知”代替，使得摘要的可读性不高。传统的抽取式摘要方法大致分为贪心算法，基于图的方法,和基于约束优化方法。其中Textrank排序算法以其简洁、高效的特点被工业界广泛运用。大体思想是先去除文章中的一些停用词，之后对句子的相似度进行度量，计算每一句相对另一句的相似度得分，迭代传播，直到误差小于0.0001。再对上述得到的关键语句进行排序，便能得到想要的摘要。抽取式摘要主要考虑单词词频，并没有过多的语义信息，无法建立文本段落中的完整语义信息。生成式摘要方法则主要依靠深度神经网络结构实现，2014年由GoogleBrain团队提出的序列到序列模型(S...

【技术保护点】
1.一种基于序列到序列模型的中文文本摘要生成方法，其特征在于，包括以下步骤：/n1)对原始微博数据进行处理生成训练数据和字表，利用字表初始化字向量；/n2)将原文本通过字向量转为向量表示，输入基于双向LSTM的预编码器，输出最后的隐藏向量；/n3)构建序列到序列模型的主要结构编码器，将原文本通过字向量转为向量表示，输入基于CNN和双向LSTM的编码器，双向LSTM使用预编码器的隐藏向量进行初始化，然后输出每一步的输出向量和最后的隐藏向量；/n4)构建序列到序列模型的主要结构解码器，其基于单向LSTM，对编码器的隐藏向量进行解码，再对编码器的每一步输出利用注意力机制计算，最后输出每一步摘要字符的概率向量；/n5)在训练阶段，通过损失函数计算损失并通过深度学习算法优化；/n6)在测试阶段，利用解码器输出的概率向量，生成最后的摘要文本。/n

【技术特征摘要】
1.一种基于序列到序列模型的中文文本摘要生成方法，其特征在于，包括以下步骤：
1)对原始微博数据进行处理生成训练数据和字表，利用字表初始化字向量；
2)将原文本通过字向量转为向量表示，输入基于双向LSTM的预编码器，输出最后的隐藏向量；
3)构建序列到序列模型的主要结构编码器，将原文本通过字向量转为向量表示，输入基于CNN和双向LSTM的编码器，双向LSTM使用预编码器的隐藏向量进行初始化，然后输出每一步的输出向量和最后的隐藏向量；
4)构建序列到序列模型的主要结构解码器，其基于单向LSTM，对编码器的隐藏向量进行解码，再对编码器的每一步输出利用注意力机制计算，最后输出每一步摘要字符的概率向量；
5)在训练阶段，通过损失函数计算损失并通过深度学习算法优化；
6)在测试阶段，利用解码器输出的概率向量，生成最后的摘要文本。

2.根据权利要求1所述的一种基于序列到序列模型的中文文本摘要生成方法，其特征在于：在步骤1)中，将原始微博数据的原文本和摘要文本分别进行按字切分处理，其中英文单词和数字不做切分，并将其分别填充到固定长度，且使其一一对应作为一个训练样本；从处理后的数据中构造一个字表，利用字表构造字向量，首先确定其维度，然后利用高斯分布随机初始化，并设置为能够训练，对摘要文本按照字表做one-hot向量表示作为标签。

3.根据权利要求1所述的一种基于序列到序列模型的中文文本摘要生成方法，其特征在于：在步骤2)中，将原文本通过字表的字向量转为向量表示，输入基于双向LSTM的预编码器，获取原文本的语义信息，输出网络的隐藏状态。

4.根据权利要求1所述的一种基于序列到序列模型的中文文本摘要生成方法，其特征在于：在步骤3)中，将原文本通过字表的字向量转为向量表示，输入基于CNN和双向LSTM的编码器；其中，编码器的结构首先是一个CNN，会有多个不同大小的卷积核，即滑动窗口卷积；然后将该多个不同卷积核的输出向量拼接起来，输入双向LSTM结构中，这里的双向LSTM的初始隐藏状态使用预编码器最后的隐藏状态作为初始化参数；最后在LSTM网络输出每一步的输出和最后的隐藏状态。

5.根据权利要求1所述的一种基于序列到序列模型的中文文本摘要生...

【专利技术属性】
技术研发人员：尹叶龙，邓辉舫，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人