一种融合主题的PGN-GAN文本摘要模型制造技术

技术编号:29971325 阅读:22 留言:0更新日期:2021-09-08 09:48
本发明专利技术涉及一种融合主题的PGN

【技术实现步骤摘要】
一种融合主题的PGN

GAN文本摘要模型


[0001]本专利技术涉及自然语言处理领域,尤其涉及一种融合主题的PGN

GAN摘要生成方法。

技术介绍

[0002]随着近年来互联网文本信息的爆发式增长,极大的增加了阅读的困难,从繁杂的文本中提取有用的信息变得越显得格外重要,因此如何高效准确的从中提取信息组成摘要成为了目前互联网行业的迫切需求。
[0003]在先前的工作中,有研究人员利用隐迪利克雷(LDA)方法生成文档主题模型以提取文档集或语料库的潜在主题信息,随着LDA技术的不断成熟,主题模型除了用在分类预测的方面也更多的应用在文本摘要方面的工作。
[0004]现阶段文本摘要技术大致分为两类,抽取式摘要与生成式摘要,抽取式摘要技术一般依靠词频、统计等抽取原文的词语或句子,生成式摘要技术一般需要利用神经网络从中提取文本的特征再通过语料生成所需的摘要,但目前常用的基准序列到序列模型仍然具有事实偏差、不够还原等问题。目前解决以上问题的主流思想是指针生成网络。
[0005]随着生成对抗网络在图像领域的广泛应用,GAN也被尝试应用在了文本生成中。本文使用生成器G来生成文本,并利用鉴别器D作为文本的分类器,D 的主要作用是鉴别文本是由机器生成还是人为生成。G和D的对抗学习最终可以协助传统的网络结构生成更高质量的文本。
[0006]为了能够生成更加贴近主题信息和源文本的摘要,本专利技术在指针生成网络的基础上尝试融入了LDA主题模型,并将主题信息融入到结合GAN的序列到序列模型中,该模型将利用主题来模拟人类的先验知识,从而使摘要更多的结合主题生成,在获得主题词向量后与上下文共同合成新向量来影响文本的生成。
[0007]本专利技术提出的加入了生成对抗网络的指针生成网络模型结果较其他生成的摘要更加通顺,同时因为主题信息的引入,更加贴近原文的含义。

技术实现思路

[0008]本专利技术的目的是克服现有方法的不足,提出一种结合指针网络同生成对抗网络的摘要生成方法,特别是涉及一种融合主题信息的摘要生成方法,以弥补摘要生成中主题信息确实的问题。
[0009]1.一种融合主题的PGN

GAN文本摘要模型,其特征在于,包括如下步骤:
[0010]步骤1:给定文本集合中的每篇文档,利用隐狄利克雷模型得到主题词和主题文档分布。
[0011]步骤2:在主题分布中选取前k个作为主题词,得到主题词向量。
[0012]步骤3:将普通编码器的最终隐藏层状态作为主题注意力层的输入,形成复合注意力。
[0013]步骤4:生成器将源文本和主题词作为输入,在经过带有复合注意力机制的编码器
后将x转变为隐藏状态,搭建指针生成网络和生成对抗网络,鉴别器用来区分文本是机器生成的还是真实样本。
[0014]步骤5:将输出向量传入解码器,通过解码器得到最终生成的文本。
[0015]2.根据权利要求1所述的一种融合主题的PGN

GAN文本摘要模型,其特征在于,所述步骤1包括如下步骤:
[0016]步骤1.1:给定文本集合中的每篇文档,生成一个隐迪利克雷分布模型,得到θ
m
作为主题——文档分布
[0017]步骤1.2:每个主题t,依据以β为参数的狄利克雷分布得到分布即主题词分布。
[0018]步骤1.3:利用主题词分布和主题文档分布得到T
mn
和w
mn
[0019]步骤1.4:利用吉布斯采样来进行求解,对于当前文档的每一个词我们随机赋予一个主题编号,随后重新扫描。对于每一个当前词利用吉布斯采样公式来更新他的主题编号,重复以上步骤直到采样收敛,最后统计文档中各词的主题,得到该文档的主题分布。
[0020]3.根据权利要求1所述的一种融合主题的PGN

GAN文本摘要模型,其特征在于,所述步骤2包括如下步骤
[0021]步骤2.1:利用LDA方法生成主题词后于事先设定的主题中训练出t1…
t
k
,选取前n个作为对应文本的主题词。
[0022]步骤2.2:利用Word2Vec模型获得每个词语的词向量。
[0023]4.根据权利要求1所述的一种融合主题的PGN

GAN文本摘要模型,其特征在于,所述步骤3包括如下步骤。
[0024]步骤3.1:将主题词表示为词向量,普通编码器的最终隐藏层状态作为主题注意力层的输入,形成的新编码层。
[0025]步骤3.2:生成器首先将源文本作为输入,在使用编码器后将源文本转变为隐藏状态。
[0026]步骤3.3:利用注意力机制的原理形成新的主题注意力结果,然后将序列注意力和普通注意力叠加得到输出。
[0027]5.根据权利要求1所述的一种融合主题的PGN

GAN文本摘要模型,其特征在于,所述步骤4包括如下步骤。
[0028]步骤4.1:搭建指针网络架构:包含有编码器,attention层,解码器
[0029]步骤4.2:搭建生成器与判别器,生成器利用已经建立好的指针网络。鉴别器区分文本是机器生成的还是真实样本,使用LSTM网络来进行特征选择,这些特征最后经过sigmoid函数后得到该文本是否为真实样本的概率。
[0030]步骤4.3:对于生成器G和判别器D的训练,我们首先固定生成器的权重,对判别器更新权重,随后两方交替迭代直到生成器生成同训练样本相同的分布。
附图说明:
[0031]图1是一种融合主题的PGN

GAN文本摘要模型的流程图。
[0032]图2是文本摘要模型中融合主题的PGN模型流程图。
[0033]图3是GAN网络结构图。
[0034]图4是生成的摘要示例。
具体实施方式:
[0035]下面将结合本专利技术实施例中的附图对本专利技术实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0036]随着深度学习的发展,自动摘要的文本生成效果得到了进一步的提高,本文研究了一种融合主题的PGN

GAN文本摘要模型,参照图1本专利技术包括以下步骤:
[0037]S1、接收文本,通过隐狄利克雷分布建立LDA模型;
[0038]S2、利用主题分布选取前k个主题词作为主体信息,然后获取该主题词的词向量;
[0039]S3、获取到文本词向量和主题词向量后,将二者结合,形成新的注意力层
[0040]S4、使用生成器中编码器解码器结构进行训练,利用鉴别器同生成器对抗学习。
[0041]S5、生成器和鉴别器稳定后,将输出向量传入解码器,得到最终生成的文本。
[0042]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合主题的PGN

GAN文本摘要模型,其特征在于,包括如下步骤:步骤1:给定文本集合中的每篇文档,利用隐狄利克雷模型得到主题词和主题文档分布步骤2:在主题分布中选取前k个作为主题词,得到主题词向量步骤3:将普通编码器的最终隐藏层状态作为主题注意力层的输入,形成复合注意力。步骤4:生成器将源文本和主题词作为输入,在经过带有复合注意力机制的编码器后将x转变为隐藏状态,搭建指针生成网络和生成对抗网络,鉴别器用来区分文本是机器生成的还是真实样本。步骤5:将输出向量传入解码器,通过解码器得到最终生成的文本。2.根据权利要求1所述的一种融合主题的PGN

GAN文本摘要模型,其特征在于,所述步骤1包括如下步骤:步骤1.1:给定文本集合中的每篇文档,生成一个隐迪利克雷分布模型,得到θ
m
作为主题——文档分布步骤1.2:每个主题t,依据以β为参数的狄利克雷分布得到分布\varphi_k,即主题词分布。步骤1.3:利用主题词分布和主题文档分布得到词T_{mn}和w_{mn}步骤1.4:利用吉布斯采样来进行求解,对于当前文档的每一个词我们随机赋予一个主题编号,随后重新扫描。对于每一个当前词利用吉布斯采样公式来更新他的主题编号,重复以上步骤直到采样收敛,最后统计文档中各词的主题,得到该文档的主题分布。3.根据权利要求1所述的一种融合主题的PGN

GAN文本摘要模型,其特征在于,所述步骤2包括如下步骤步骤2.1:利用LDA方法生成主题词后于事...

【专利技术属性】
技术研发人员:郭继峰费禹潇吕帅孙文博
申请(专利权)人:东北林业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1