当前位置: 首页 > 专利查询>同济大学专利>正文

一种基于正负样本对抗训练的文本摘要生成方法技术

技术编号:22330172 阅读:33 留言:0更新日期:2019-10-19 12:17
本发明专利技术涉及一种基于正负样本对抗训练的文本摘要生成方法,该方法包括以下步骤:(1)建立文本与摘要对组成的专家摘要库;(2)建立一个由一个生成器和一个判别器组成的对抗训练网络;(3)负样本的生成:将文本输入生成器生成一批次摘要,其标签为假摘要,作为负样本使用。(4)判别器训练:由生成器生成的当前批次假摘要,与标签为真摘要的专家摘要一起用于训练判别器;(5)生成器训练:使用判别器返回的判断结果计算生成器的损失函数和更新梯度,通过循环对抗训练过程,直到整个对抗训练网络最终收敛,从而得到基于对抗训练网络的生成式文本摘要模型。与现有技术相比,本发明专利技术具有生成更符合人类语言规则、更能概括原文主旨的优势。

【技术实现步骤摘要】
一种基于正负样本对抗训练的文本摘要生成方法
本专利技术涉及人工智能自然语言处理
,尤其是涉及一种基于正负样本对抗训练的文本摘要生成方法。
技术介绍
互联网如今深刻地影响了人们的生活,越来越多的信息通过互联网进行传播,文本信息数据量也在指数级增长。但巨大的文字信息量增加了人们浏览查找的时间,降低了查找效率。从海量信息中准备高效获取关键信息成为一个问题,文本摘要可以较好地解决这个问题。文本摘要是对文档内容和主旨的精确概括。文本摘要技术是指对于给定的文本,机器能够自动地生成能够概括原文中心思想的摘要。而如何让机器生成的文本摘要更符合人类语言规则、更能概括原文主旨是文本摘要领域待解决的重要问题之一。文本摘要的技术主要是按实现方式分为抽取式文本摘要和生成式文本摘要两种。抽取式自动文本摘要是只从原文中抽取关键的句子或词语组成摘要,摘要中的文字均来自原文。其实现方式主要是基于统计信息、词汇链和图模型等方式。优点是没有过多语法问题,比较通顺。但缺点是要基于一些抽取模板和专家规则,扩展性很差且摘要过于冗长;如果原文中未有中心语句,则无法表达原文主旨。生成式文本摘要是在理解原文语义和思想的基础上,生成新的句子或词语组成摘要,摘要中的某些文字可能不来自原文。其实现方式主要是基于深度学习的编码器解码器模型。优点是扩展性强,只要有对应语言的文本摘要对数据,就可以训练模型;生成的摘要可以使用非原文词,短小精悍。缺点是容易出现一些语法错误,语句有时不够通顺,即不符合人类语言规则。现有的生成式文本摘要模型往往存在生成的摘要不符合人类语言规则、无法很好地概括原文主旨、学习摘要语言风格等问题。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于正负样本对抗训练的文本摘要生成方法。本专利技术的目的可以通过以下技术方案来实现:一种基于正负样本对抗训练的文本摘要生成方法,该方法包括以下步骤:步骤1:根据需求建立相应风格的专家摘要库;步骤2:建立对抗训练网络,所述对抗训练网络包括由解码器和编码器组成的生成器和判别器;步骤3:初始化对抗训练网络并将专家摘要库中的文本输入至对抗训练网络的生成器中以生成用于判别器训练需要的第一批次假摘要负样本;步骤4:利用专家摘要库和第一批次假摘要负样本对对抗训练网络中的判别器进行基于有监督学习的分类训练并根据判别器经训练后返回的分类判别结果计算更新梯度;步骤5:根据更新梯度更新生成器参数并再次将专家摘要库中的文本输入至经过参数更新的生成器中以生成第二批次假摘要负样本,并返回步骤4再次与专家摘要库配合并最终再次计算更新梯度;步骤6:循环迭代执行步骤4和步骤5中各自的训练直至生成器和判别器均收敛后训练结束,并利用训练结束后的生成器生成实际需求的文本摘要。进一步地,所述的步骤4中的更新梯度的计算公式为:式中,表示更新梯度,m表示输入文本样本数量,i为自然数,G(si)表示生成器生成的假摘要,D(G(si))表示判别器对于假摘要的判别结果为真。进一步地,所述的步骤2中的生成器采用单向或双向循环神经网络以构建所述解码器和所述编码器,所述编码器的输入为需要生成摘要的文本,其输出为语句向量,所述解码器的输入为语句向量,其输出为最终生成摘要文本。进一步地,所述的步骤2中的生成器的网络模型计算公式为:ht=sigmod(Whxxt+Whhht-1)yt=Whyht式中,ht和ht-1表示网络中前后连接对应的隐含层,xt表示输入文本对应时间维度的词语,Whx和Whh表示与词语和隐含层分别对应的权重,yt表示与相应隐含层对应的语句向量,Why表示与相应语句向量对应的权重,P(y1,...,yL|x1,...,xM)表示最终生成摘要文本,P(yt|v,y1,...,yt-1)表示所有语句向量,L表示语句向量数量。进一步地,所述步骤4中的判别器为使用神经网络建立的用于区分假摘要和专家摘要的分类器,所述分类器的最优解描述公式为:式中,D(y)表示分类器的最优解,即样本被判别为真的概率,Pdata(y)表示样本来自专家摘要库,Pg(y)表示样本来自假摘要。进一步地,所述步骤2中的对抗训练网络的优化目标函数为:式中,V*表示对抗训练网络的优化目标函数,表示来自专家摘要库的样本,表示来自假摘要的样本。与现有技术相比,本专利技术具有以下优点:(1)文本摘要是自然语言处理领域中重要的研究领域之一,常作为其它自然语言处理任务的上下游任务,本专利技术提供的基于正负样本对抗训练的文本摘要生成方法能够生成更符合人类语言规则、更能概括原文主旨且可以学习专家摘要的语言风格的生成式文本摘要模型,对该模型输入自然语言文本,就可以生成简短精确的摘要,可以用于自动新闻摘要、搜索引擎网页摘要等场景。(2)针对传统编码器解码器模型容易生成有语法错误、不够通顺易懂摘要的问题,本专利技术引入对抗训练网络,通过生成器与判别器之间的对抗来学习到人类摘要的风格,减少摘要的语法错误,提升语句通顺度,更好地概括原文主旨信息。附图说明图1为本专利技术基于正负样本对抗训练的文本摘要生成方法的流程示意图;图2为本专利技术中对抗训练网络的结构示意图;图3为本专利技术中单向循环神经网络结构示意图;图4为本专利技术中双向循环神经网络结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术的一部分实施例,而不是全部实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本专利技术保护的范围。实施例如图1所示为本专利技术基于正负样本对抗训练的文本摘要生成方法的流程示意图,具体技术方案为:步骤:1.建立包含文本与摘要对的专家摘要库,根据需求建立相应风格的专家摘要库;2.建立一个对抗训练网络,对抗训练网络中的生成器,由一个编码器和一个解码器组成,对抗训练网络中的判别器是由神经网络构成的分类器。生成器的作用是:编码器利用单向或双向循环神经网络(比如RNN、GRU或LSTM)按时间步依次处理输入文本中每个词语对应的词向量,将生成的语句向量作为解码器的输入;然后解码器利用单向或双向循环神经网络(比如RNN、GRU或LSTM)处理语句向量,每个时间步接受上一时间步的输出词语及隐藏层状态生成当前时间步的输出词语,直到生成终止符号,从而实现摘要的生成;3.初始化对抗训练网络的参数,用来自专家摘要库的文本作为输入和初始化参数的生成器来生成一批次的负样本即假摘要;4.使用步骤1所得的专家摘要库中的专家摘要作为正样本和步骤3所得的负样本即假摘要,对步骤2所得的判别器进行一次基于有监督学习的分类训练,使得判别器能够正确判断其输入是人类的专家摘要还是不符合人类语言规则的假摘要。判别器返回的分类判别结果(真为1,假为0)将返回给步骤2中得到的生成器中,用于计算更新梯度;5.根据步骤4所得梯度更新生成器参数,再输入专家摘要库中的文本,生成新一批次的假摘要作为负样本;6.按照对抗训练网络的训练方式交替进行步骤4和步骤5,直至生成器和判别器均收敛,至此对抗训练网络训练结束;在本实施例中,所指的对抗训练网络由两部分组成:生成器用来产生负样本即假摘要,判别器用来判别专家摘要和假摘要。对抗训练网络所处理的是生成器与判别器相本文档来自技高网
...

【技术保护点】
1.一种基于正负样本对抗训练的文本摘要生成方法,其特征在于,该方法包括以下步骤:步骤1:根据需求建立相应风格的专家摘要库;步骤2:建立对抗训练网络,所述对抗训练网络包括由解码器和编码器组成的生成器和判别器;步骤3:初始化对抗训练网络并将专家摘要库中的文本输入至对抗训练网络的生成器中以生成用于判别器训练需要的第一批次假摘要负样本;步骤4:利用专家摘要库和第一批次假摘要负样本对对抗训练网络中的判别器进行基于有监督学习的分类训练并根据判别器经训练后返回的分类判别结果计算更新梯度;步骤5:根据更新梯度更新生成器参数并再次将专家摘要库中的文本输入至经过参数更新的生成器中以生成第二批次假摘要负样本,并返回步骤4再次与专家摘要库配合并最终再次计算更新梯度;步骤6:循环迭代执行步骤4和步骤5中各自的训练直至生成器和判别器均收敛后训练结束,并利用训练结束后的生成器生成实际需求的文本摘要。

【技术特征摘要】
1.一种基于正负样本对抗训练的文本摘要生成方法,其特征在于,该方法包括以下步骤:步骤1:根据需求建立相应风格的专家摘要库;步骤2:建立对抗训练网络,所述对抗训练网络包括由解码器和编码器组成的生成器和判别器;步骤3:初始化对抗训练网络并将专家摘要库中的文本输入至对抗训练网络的生成器中以生成用于判别器训练需要的第一批次假摘要负样本;步骤4:利用专家摘要库和第一批次假摘要负样本对对抗训练网络中的判别器进行基于有监督学习的分类训练并根据判别器经训练后返回的分类判别结果计算更新梯度;步骤5:根据更新梯度更新生成器参数并再次将专家摘要库中的文本输入至经过参数更新的生成器中以生成第二批次假摘要负样本,并返回步骤4再次与专家摘要库配合并最终再次计算更新梯度;步骤6:循环迭代执行步骤4和步骤5中各自的训练直至生成器和判别器均收敛后训练结束,并利用训练结束后的生成器生成实际需求的文本摘要。2.根据权利要求1所述的一种基于正负样本对抗训练的文本摘要生成方法,其特征在于,所述的步骤4中的更新梯度的计算公式为:式中,表示更新梯度,m表示输入文本样本数量,i为自然数,G(si)表示生成器生成的假摘要,D(G(si))表示判别器对于假摘要的判别结果为真。3.根据权利要求1所述的一种基于正负样本对抗训练的文本摘要生成方法,其特征在于,所述的步骤2中的生成器采用单向或双向循环神经网络以构建所述解码器和...

【专利技术属性】
技术研发人员:向阳邱俊
申请(专利权)人:同济大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1