一种融合主题的PGN-GAN文本摘要模型制造技术

技术编号：29971325 阅读：22 留言：0更新日期：2021-09-08 09:48

本发明专利技术涉及一种融合主题的PGN

全部详细技术资料下载

【技术实现步骤摘要】
一种融合主题的PGN
‑
GAN文本摘要模型

：
[0001]本专利技术涉及自然语言处理领域，尤其涉及一种融合主题的PGN
‑
GAN摘要生成方法。

技术介绍
：
[0002]随着近年来互联网文本信息的爆发式增长，极大的增加了阅读的困难，从繁杂的文本中提取有用的信息变得越显得格外重要，因此如何高效准确的从中提取信息组成摘要成为了目前互联网行业的迫切需求。
[0003]在先前的工作中，有研究人员利用隐迪利克雷(LDA)方法生成文档主题模型以提取文档集或语料库的潜在主题信息，随着LDA技术的不断成熟，主题模型除了用在分类预测的方面也更多的应用在文本摘要方面的工作。
[0004]现阶段文本摘要技术大致分为两类，抽取式摘要与生成式摘要，抽取式摘要技术一般依靠词频、统计等抽取原文的词语或句子，生成式摘要技术一般需要利用神经网络从中提取文本的特征再通过语料生成所需的摘要，但目前常用的基准序列到序列模型仍然具有事实偏差、不够还原等问题。目前解决以上问题的主流思想是指针生成网络。
[0005]随着生成对抗网络在图像领域的广泛应用，GAN也被尝试应用在了文本生成中。本文使用生成器G来生成文本，并利用鉴别器D作为文本的分类器，D 的主要作用是鉴别文本是由机器生成还是人为生成。G和D的对抗学习最终可以协助传统的网络结构生成更高质量的文本。
[0006]为了能够生成更加贴近主题信息和源文本的摘要，本专利技术在指针生成网络的基础上尝试融入了LDA主题模型，并将主题信息融入到结合GAN...

【技术保护点】

【技术特征摘要】
1.一种融合主题的PGN
‑
GAN文本摘要模型，其特征在于，包括如下步骤：步骤1：给定文本集合中的每篇文档，利用隐狄利克雷模型得到主题词和主题文档分布步骤2：在主题分布中选取前k个作为主题词，得到主题词向量步骤3：将普通编码器的最终隐藏层状态作为主题注意力层的输入，形成复合注意力。步骤4：生成器将源文本和主题词作为输入，在经过带有复合注意力机制的编码器后将x转变为隐藏状态，搭建指针生成网络和生成对抗网络，鉴别器用来区分文本是机器生成的还是真实样本。步骤5：将输出向量传入解码器，通过解码器得到最终生成的文本。2.根据权利要求1所述的一种融合主题的PGN
‑
GAN文本摘要模型，其特征在于，所述步骤1包括如下步骤：步骤1.1：给定文本集合中的每篇文档，生成一个隐迪利克雷分布模型，得到θ
m
作为主题——文档分布步骤1.2：每个主题t，依据以β为参数的狄利克雷分布得到分布\varphi_k，即主题词分布。步骤1.3：利用主题词分布和主题文档分布得到词T_{mn}和w_{mn}步骤1.4：利用吉布斯采样来进行求解，对于当前文档的每一个词我们随机赋予一个主题编号，随后重新扫描。对于每一个当前词利用吉布斯采样公式来更新他的主题编号，重复以上步骤直到采样收敛，最后统计文档中各词的主题，得到该文档的主题分布。3.根据权利要求1所述的一种融合主题的PGN
‑
GAN文本摘要模型，其特征在于，所述步骤2包括如下步骤步骤2.1：利用LDA方法生成主题词后于事...

【专利技术属性】
技术研发人员：郭继峰，费禹潇，吕帅，孙文博，
申请(专利权)人：东北林业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人