基于动态词向量的自动文本摘要生成方法技术

技术编号:22944507 阅读:21 留言:0更新日期:2019-12-27 17:09
本发明专利技术公开的一种基于动态词向量的自动文本摘要生成方法,旨在提供一种准确性和流畅度更高的文本摘要自动生成方法。本发明专利技术通过下述技术方案予以实现:首先通过文本预处理模块对文本进行预处理,预处理包括分词操作、高频词过滤与词性标注,将处理后的文本生成初始词向量;紧接着将初始词向量输入ELMo模型模块,生成初步动态词向量;同时将文本输入Doc2Vec句向量模块得到每个句子的句向量,句向量输入自注意力机制模块计算出相对摘要结果的重要性权重以生成加权句向量,将加权句向量作为各个词的环境特征向量,环境特征向量与初始动态词向量相加得到最终的动态词向量,动态词向量输入Transformer神经网络模型生成高质量的文本摘要。

【技术实现步骤摘要】
基于动态词向量的自动文本摘要生成方法
本专利技术属于自然语言处理
,具体涉及自动生成文本摘要的深度神经网络算法。
技术介绍
随着近年来互联网的飞速发展与广泛普及,信息数据量呈指数级爆发式增长,信息过载问题日益显现。人们每天需要面对并处理海量的文本信息,如何高效地从大量文本信息中获取重要关键内容,文本摘要自动生成已成为迫切的需求。文本摘要充斥着我们生活的方方面面,新闻关键词的提炼是文本摘要,谷歌、百度等搜索引擎的结果优化也要用到文本摘要。文本摘要自动生成是目前提取文本主旨信息的一个较为高效的方法。该方法通过机器自动输出简洁、流畅、保留原文本关键信息的摘要。目前主流的文本摘要自动生成有两种方式,一种是抽取式,另一种是生成式。顾名思义,抽取式摘要是寻找原文中最接近中心思想的几个句子,通过提取文本中已存在的关键词与短语,重新拼接成一小段摘要,而不对原本的内容做创造性的修改。而生成式摘要则运用自然语言处理的算法,在理解整篇文章意思的基础上,通过转述、同义替换、语句缩写等方法,按自己的话生成简明扼要且流畅的翻译。抽取式摘要目前已相对成熟,但抽取质量及内容流畅度均差强人意。近几年来快速发展的深度神经网络因其强大的表征能力,为构建优秀的生成式摘要模型提供了可能性,不少生成式神经网络模型在公开测试集上已经超越了最好的抽取式模型,但目前也受文本长度过长、抽取内容不佳等问题的限制。传统的循环神经网络(RNN)非常适用于文本序列建模,但由于不能并行计算而使得训练非常耗时,同时多步骤的循环递归存在梯度消失、爆炸、语义丢失等长期依赖问题,导致文本摘要的生成质量和效率不高;针对此缺陷,FacebookAI实验室基于卷积神经网络(CNN)提出了更为高效的ConvS2S模型,但CNN存在不能直接处理变长文本序列的问题;谷歌团队则彻底抛弃传统的CNN和RNN,完全基于注意力机制提出了Transformer模型,既改善了RNN难以并行及长期依赖的缺陷,更解决了CNN难以处理变长序列样本的问题。除了网络结构,作为网络模型的输入端,词通常被映射为连续的一维向量,这使得词与词之间的相似度可以在向量空间度量。在以往的深度学习模型中,文本词向量随模型训练而得到固定的数学表达。但是,同一个词在不同的语言环境里,往往会具有不同的词性或语义,特别是多义词表现得尤其明显。在现有技术中,ELMo语言模型可用于动态词向量的预训练。它由深层双向LSTM模块堆叠构成,通过词序列前后语义预测当前词,可对句法语义进行动态建模,每个LSTM层都会输出基于当前文本的一个向量表达,使得同一个词在不同上下文里具有不同的向量表示。因此,上下文语境相关的动态词向量,亦可用于提升自动文本摘要的质量。
技术实现思路
本专利技术目的在于:针对词向量难以充分感知上下文语境相关的语义特征,利用基于注意力机制的Transformer模型,并结合语言层先验知识与ELMo动态词向量,提供一种准确性和流畅度更高的文本摘要自动生成方法。本专利技术的上述目的可以通过以下措施来实现:首先通过文本预处理模块对文本进行预处理,预处理包括分词操作、高频词过滤与词性标注,将处理后的文本生成初始词向量;紧接着将初始词向量输入ELMo模型模块,生成初步动态词向量;同时将文本输入Doc2Vec句向量模块得到每个句子的句向量,紧接着将句向量输入自注意力机制模块,计算出各句子对摘要结果的重要性权重以生成加权句向量,将加权句向量作为各个词的环境特征向量;然后将此环境特征向量与初始动态词向量相加,得到最终的动态词向量,将此动态词向量输入Transformer神经网络模型,生成高质量的文本摘要。本专利技术的有益效果是:相比基于RNN的GRU-Context模型与基于CNN的RAS-Elman模型,本专利技术所提出的基于Transformer框架的动态词向量模型,在公开数据集LCSTS上的评测指标Rouge值更高,表明所生成的文本摘要的准确性和流畅度更高。评测对比如表1所示。表1模型评测对照表附图说明图1是本专利技术“基于动态词向量的自动文本摘要生成方法”的动态文本词向量计算结构示意图;图2是整个Transformer算法模型结构示意图。为使本专利技术的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本专利技术作进一步的详细描述。具体实施方式参阅图1。根据本专利技术,首先通过文本预处理模块对文本进行预处理,包括分词操作、高频词过滤与词性标注,将处理后的文本生成初始词向量;紧接着将初始词向量输入ELMo模型模块,生成初步动态词向量;同时将文本输入Doc2Vec句向量模块得到每个句子的句向量,紧接着将句向量输入自注意力机制模块,计算出各句子对摘要结果的重要性权重以生成加权句向量,将加权句向量作为各个词的环境特征向量;然后将此环境特征向量与初始动态词向量相加,得到最终的动态词向量,将此动态词向量输入Transformer神经网络模型,生成高质量的文本摘要。步骤1:在进行文本摘要生成之前,对文本进行预处理。通过图1中的“文本预处理”模块,引入语言层先验知识对文本进行预处理操作。一是首先使用结巴分词工具对中文文本进行分词处理,接着过滤掉类似于“的”、“是”、“一个”这类没有太多意义的高频词,然后对分词后的文本以句子为单位进行合并。二是本专利技术引入了语言层的先验知识,旨在优化自动文摘模型的训练过程,以期减少训练集的数据量和加快模型收敛速度。具体实施为使用pyltp工具对分词后的每个单词标注出正确的词性,如名词、动词、副词、形容词,识别出文本中有意义的实体,例如人名、地名、组织机构名。最终将预处理后的文本文件生成初始词向量。步骤2:通过图1中的ELMo模型模块生成初步动态词向量。预处理后的初始词向量分别输入到ELMo的前向和后向语言模型,将前后两个方向的输出拼接得到初始文本的256维动态词向量表达。步骤3:通过图1中的Doc2Vec句向量模块成文本句向量。为了更好地表征各输入文本句子之间的关联性,本专利技术在词向量基础上引入本词当句的句向量。Doc2Vec句向量模块利用LCSTS数据集里的样本句构成训练集,利用Doc2Vec无监督算法来训练输入文本每句的句向量,经过训练后句向量维度为256。步骤4:通过图1中的自注意力机制模块与矩阵相加模块,生成最终的动态词向量。自注意力机制模块结合自注意力机制计算各句子对摘要结果的重要性权重,其计算公式为其中,Q(Query)、K(Key)、V(Value)是同一个句向量由3个不同的权值矩阵WQ、WK、WV线性映射得到,T表示矩阵共轭,dk表示向量维度大小。由于Q、K、V来源相同,所以称为自注意力。为了防止Q向量与K向量内积过大引起梯度消失,有时会将内积除以向量维度大小的平方根。对缩放内积施以Softmax激活函数后点乘V向量,得到加权后的每个加权句向量。将其作为各个词的环境特征向量并与ELMo初步动态词向量相加,得到最终输入Transformer框架的动态词向量。步骤5:参阅图2。动态词向量输入本文档来自技高网
...

【技术保护点】
1.一种基于动态词向量的自动文本摘要生成方法,其特征在于包括如下步骤:首先通过文本预处理模块对文本进行预处理,预处理包括分词操作、高频词过滤与词性标注,将处理后的文本生成初始词向量;紧接着将初始词向量输入ELMo模型模块,生成初步动态词向量;同时将文本输入Doc2Vec句向量模块得到每个句子的句向量,紧接着将句向量输入自注意力机制模块,计算出各句子对摘要结果的重要性权重并输出加权句向量,将加权句向量作为各个词的环境特征向量;然后将此环境特征向量与初始动态词向量相加,得到最终的动态词向量,将此动态词向量输入Transformer神经网络模型,生成高质量的文本摘要。/n

【技术特征摘要】
1.一种基于动态词向量的自动文本摘要生成方法,其特征在于包括如下步骤:首先通过文本预处理模块对文本进行预处理,预处理包括分词操作、高频词过滤与词性标注,将处理后的文本生成初始词向量;紧接着将初始词向量输入ELMo模型模块,生成初步动态词向量;同时将文本输入Doc2Vec句向量模块得到每个句子的句向量,紧接着将句向量输入自注意力机制模块,计算出各句子对摘要结果的重要性权重并输出加权句向量,将加权句向量作为各个词的环境特征向量;然后将此环境特征向量与初始动态词向量相加,得到最终的动态词向量,将此动态词向量输入Transformer神经网络模型,生成高质量的文本摘要。


2.如权利要求1所述的基于动态词向量的自动文本摘要生成方法,其特征在于:在文本摘要生成之前的预处理过程中,首先使用结巴分词工具对中文文本进行分词处理,接着过滤掉类似于“的”、“是”、“一个”这类没有太多意义的高频词,然后对分词后的文本以句子为单位进行合并;其次引入语言层的先验知识,标注出每个词的词性,旨在优化自动文摘模型的训练过程,以期减少训练集的数据量和加快模型收敛速度。


3.如权利要求1所述的基于动态词向量的自动文本摘要生成方法,其特征在于:预处理后的初始词向量分别输入到ELMo模型模块的前向和后向语言模型,将前后两个方向的输出拼接得到初始文本的256维动态词向量表达。


4.如权利要求1所述的基于动态词向量的自动文本摘要生成方法,其特征在于:Doc2Vec句向量模块在词向量基础上引入本词当句的句向量,利用LCSTS数据集里的样本句构成训练集,利用Doc2Vec无监督算法来训练输入文本每句的句向量,经过训练后句向量维度为256。


5.如权利要求1所述的基于动态词向量的自动文本摘要生成方法,其特征在于:自注意力机制模块利用自注意力机制计算各句子对摘要结果的重要性权重,其计算公式为

【专利技术属性】
技术研发人员:王侃曹开臣刘万里徐畅潘袁湘
申请(专利权)人:西南电子技术研究所中国电子科技集团公司第十研究所
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1