当前位置: 首页 > 专利查询>中山大学专利>正文

一种结合集束搜索间隔最大化约束的文本摘要生成方法技术

技术编号:20655099 阅读:105 留言:0更新日期:2019-03-23 06:48
本发明专利技术创新性地提出了结合集束搜索间隔最大化约束的文本摘要生成方法,缓解了模型在训练和应用中地不一致性,使得模型的训练尽量贴近于实际的应用场景,从而使得模型输出的文本摘要更接近于技术人员想要的摘要。具体是在模型训练过程中,加入了新的约束函数来与基础的交叉熵共同组成新的优化目标,通过这一约束函数来从深层改变模型的优化方向。

【技术实现步骤摘要】
一种结合集束搜索间隔最大化约束的文本摘要生成方法
本专利技术涉及自然语言处理
,更具体地,涉及一种结合集束搜索间隔最大化约束的文本摘要生成方法。
技术介绍
文本摘要技术是自然语言处理领域有长远研究历史和广泛应用的一项热门技术。文本摘要技术指的是让机器模型抽取出文本的主旨以概括其内容,最后输出对应的文本摘要,比如根据新闻内容生成新闻标题等。传统的文本摘要技术主要分为抽取式的(Extractive)摘要技术和生成式的(Abstractive)摘要技术。抽取式的摘要技术是指模型在原文当中选择性地抽出词汇来拼接作为摘要的技术,因此摘要当中的词汇大多是来自于原文的。抽取式的摘要技术本质上是利用了机器学习当中的分类模型来选择词汇,通过分类模型来判断原文中的某个词是否应该放入摘要当中。生成式的摘要技术则与上述不同,生成式的摘要技术要求模型先理解消化输入的文本,然后根据模型的记忆来输出文本的摘要,输出的摘要与原文可能没有共同的词汇。显然生成式的文本摘要需要模型具有良好的文本概括能力来处理原文,还需要模型在概括文本之后自动地生成合情合理的摘要。由于抽取式的摘要技术依赖于成熟有效的分类算法,所以是文本摘要技术发展初始的侧重点,相对于生成式的摘要技术也更好解决。但是近年来随着深度学习技术的广泛应用和神经网络模型的进一步发展,研究者通过结合最新的序列生成模型来优化发展了生成式的摘要技术,也使得生成式的摘要技术逐步成为了研究应用的主流。目前最广泛常见的生成式文本摘要技术主要依赖于基于循环神经网络模型(RecurrentNeuralNetwork)的序列处理和生成模型。文本摘要技术针对的就是文本的处理和生成,而恰恰文本是最典型的序列信息,也是序列生成模型实验中最典型的实验数据,因此将文本摘要技术与序列处理生成模型结合是非常有效合理的解决手段。目前主流的生成式文本摘要技术所采用的模型大多是基于循环神经网络模型(RecurrentNeuralNetwork)的序列生成模型。文本的处理和生成本质上是对序列数据的处理和生成,所以结合序列处理和生成模型来解决生成式文本摘要是大势所趋。而近年随着机器学习算法和计算机硬件的进一步发展,使得循环神经网络模型大放异彩,成为了最典型的应用最广泛的序列处理和生成模型,也成为在生成式文本摘要技术中最常使用的一类模型。这一类基于循环神经网络模型的模型可以建模序列的内容和顺序,将长度不定的文本压缩为固定长度的特征向量。同时,这一类模型也可以根据固定长度的特征序列,来生成长度不定的文本。因此通过循环神经网络模型,可以完成从文本序列到文本序列的转换,比如从原文到摘要的转换生成。针对生成式的文本摘要任务,典型的循环神经网络模型模型采用的是编码-解码(Encode-Decode)的基础结构,同时会结合拷贝的技术,比如最常见的指针生成网络(Pointer-GeneratorNetwork)。假设输入的文本是x={x0,x1,…,xN-1},其中xi是文本中的第i个词,而模型输出的摘要是y′={y′0,y′1,…,y′M-1},其中y′j是输出的第j个词,则指针生成网络是输入x,输出y′的网络模型。这一类网络的主要部分如下:1)编码器(Encoder)模型的这一部分主要用于编码原始文本x。可以把原文当中的每一个词xi先映射为对应的词向量(wordembedding),然后将这些词向量一个接一个地输入到编码器当中。编码器会按顺序地读取这些词向量,并且编码他们的信息最终得到一个基于原文的总体地特征向量,然后传递给解码器解码。编码器的简单结构示意图如图1。2)解码器(Decoder)模型的这一部分主要用于解码原始文本,生成对应的文本摘要y′。在解码器得到编码器编码地原文特征之后,解码器会解构这些特征,一个接一个词地输出对应的文本摘要,同时还会将上一个输出的词作为解码器下一步的额外输入。这样的机制对于处理原文中的某些冷门词汇特别有效。编码器的基本结构如图2。在指针生成网络当中,解码器还会有一个组件来执行拷贝操作。通过这一组件,解码器可以在必要的时候,回溯原文挑选出一些特定的词汇,拷贝其作为下一个要输出的词。指针生成网络通过编码器和解码器的通力协作,可以处理文本x然后输出特定的文本摘要y′,是非常典型和有效的文本摘要模型,基础结构如图3。指针生成模型对于解决生成式文本摘要任务非常有效,后续许多的文本摘要模型都沿用了这一基本结构,但是这个模型并不是完美的,由于优化目标场景和实际应用场景的差别,导致了模型训练过程和实际应用过程的不一致,这也是本专利技术致力于要缓解的矛盾。训练和应用的不一致,主要是由于模型训练时主要的优化目标是交叉熵,但是模型实际应用时需要结合集束搜索算法。集束搜索算法在模型训练当中没有得到充分的考虑,会导致两个步骤的差异,从而影响模型的效果。下面会详细阐述这一差异和其带来的影响。在指针生成模型训练过程当中,通常通过优化结果的交叉熵(CrossEntropy)来进行训练。因为在模型训练的时候,会利用到有监督的数据,即训练时使用的数据除了输入的文本x,还通常会利用上人类撰写的摘要y={y0,y1,…,yL-1}。训练模型的目标,就是使得模型输出的摘要y′尽量接近于人类撰写的摘要y。等模型训练完成之后,就可以将模型应用到没有人类撰写摘要的数据上来自动生成摘要。在模型训练过程当中,最重要的模型优化目标就是使得输出y′接近于y,通常会利用优化交叉熵函数来完成这一目标。交叉熵函数如下:其中L是摘要y的文本长度,p(yk)是在编码器输出摘要的第k步生成yk的概率。最小化交叉熵函数本质上是使得每一步输出目标词yk的概率尽量地大,大量的实验证明这一优化目标函数能有效地训练模型,使得输出越来越接近于标准。但是在模型实际应用的时候,除了考虑最大化输出目标词yk的概率(通过优化交叉熵来实现),还需要结合集束搜索技术(Beamsearch)来输出结果。集束搜索技术是一种提升模型输出效果的算法,假设设定集束搜索的搜索宽度为b,词汇表V={v0,v1,…,v|v|-1}则其基本的思路如下:1.第0步时,解码器输出词汇表当中某个词vg的概率为P0(vg),则输出候选集可以表示为从中挑选出概率最大的前b个来构成集束2.如果执行步数已经超过了模型的限制,或者上一步得到的集束Yw中的每一个候选摘要都已经结束输出(即包含结束输出的标志字符),则跳到4;否则,执行步骤3;3.第k步时,假设上一步的集束为解码器这一步输出词汇表当中某个词vg的概率为pk(vg),则构建候选集从中挑出概率最大的前b个来构成集束跳到步骤2;4.对于目前的集束Yw,挑选出概率最大的一个输出作为模型生成的摘要y′,即y′∈Yw且p(y′)≥p(y″)由上述的算法可知,训练时候的优化目标和应用时的输出时不一致的。由于训练时训练目标只是最大化单独一个词的概率,而输出的结果则取决于整个输出句子的总体概率,不仅会跟每个词的概率有关,还可能跟词组的概率,甚至是句子的长度有关。图4的例子可以反应这样的问题,虽然这样的不一致不会导致严重的错误,但是可能使得模型的输出背离了原来的设想。
技术实现思路
本专利技术为解决现有技术提供的文本摘要生成方法由于训练时候的优化目标和应用时的输出时不一致而导致本文档来自技高网
...

【技术保护点】
1.一种结合集束搜索间隔最大化约束的文本摘要生成方法,其特征在于:包括以下步骤:S1.构建循环神经网络模型;S2.向循环神经网络模型输入一批训练数据;S3.设循环神经网络模型输出了前k个词,即{y0,y1,…,yk‑1};接下来输出的目标是yk,则针对词汇表V={v0,v1,…,v|v|‑1},循环神经网络模型针对某一个词vg计算得到输出概率pk(vg);S4.以目标词组ykyk+1的概率高于其他词组为目标,通过最大间隔化的优化函数对yk进行求解;令候选词汇组为

【技术特征摘要】
1.一种结合集束搜索间隔最大化约束的文本摘要生成方法,其特征在于:包括以下步骤:S1.构建循环神经网络模型;S2.向循环神经网络模型输入一批训练数据;S3.设循环神经网络模型输出了前k个词,即{y0,y1,…,yk-1};接下来输出的目标是yk,则针对词汇表V={v0,v1,…,v|v|-1},循环神经网络模型针对某一个词vg计算得到输出概率pk(vg);S4.以目标词组ykyk+1的概率高于其他词组为目标,通过最大间隔化的优化函数对yk进行求解;令候选词汇组为优化函数表示为:Lossmm=max(0,γ+logp(ri)-logp(ykyk+1))其中γ是为超参;计算交叉熵函数其中L为摘要y的文本长度,p(yk)为生成yk的概...

【专利技术属性】
技术研发人员:叶梓潘嵘
申请(专利权)人:中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1