【技术实现步骤摘要】
基于对抗学习和分层神经网络的文本摘要生成系统和方法
[0001]本专利技术属于自然语言处理的文本摘要领域,具体涉及一种基于对抗学习和分层神经网络的文本摘要方法和系统。
技术介绍
[0002]随着近年互联网文本信息爆发式增长,人们每天能接触到海量的文本信息,如新闻、博客、聊天、报告、论文、微博等。从大量文本信息中提取重要的内容,已成为迫切需求,而自动文本摘要则提供了一个高效的解决方案。
[0003]传统基于注意力机制的编码器-解码器模型首先对文本的词语做编码,随后加入注意力机制学习文章的关键信息,之后再对词编码进行解码生成文本摘要。此类方法的注意力机制的颗粒度较为粗化,对于长文本的学习不能达到很好的注意效果,很难捕捉到一篇中长文本中的关键语句和关键词语,造成生成的摘要的准确性有较大的偏差。且假设文本序列长度过长,尽管引入了长短记忆型神经网络,但是仍然会发生反向传播过程的梯度弥散现象,从而引发导数计算偏差,在产生偏差的基础上再引入注意力矩阵,则是在产生误差的基础上再次得到更大误差,最终导致摘要生成不准确。
[00 ...
【技术保护点】
【技术特征摘要】
1.一种基于对抗学习和分层神经网络的文本摘要生成系统,其特征在于,包括:判别器模块、预处理模块、词嵌入模块、句嵌入模块、生成模块和对抗学习模块,其中判别器模块用于对文本有效性进行判别,预处理模块用于将文本分词化并转化为独热编码one-hot向量,同时做分块处理;词嵌入模块用于利用双向长短记忆型神经网络对one-hot向量进行词编码处理,得到具有高表征的词编码并加入增强记忆矩阵与词编码做点积得到句向量;句嵌入模块利用双向长短记忆型神经网络对所得句向量进行句编码处理,得到具有高表征的句编码并加入增强记忆矩阵与句编码做点积得到文本向量;生成模块对所得文本向量进行解码操作并生成完整的文章摘要记为标准摘要;对抗学习模块对文本重新训练,使用传统的Seq2Seq模型,得到一个模糊表示;接着引入对抗学习,设置一个识别器将标准表示与模糊表示进行识别,调节参数λ缩小两者的距离,同时监督学习阻止他们接近,形成对抗,找到对抗平衡的λ时训练的文本摘要为最优结果。2.根据权利要求1所述的一种基于对抗学习和分层神经网络的文本摘要生成系统,其特征在于,所述判别器模块对文本有效性进行判别具体包括:扫描文本,识别出<时间,地点,事件>的命名实体三元组,若三元组中任一元素为空,则判定为文本不完整,视为无效文本丢弃;否则将无效文本输入到所述词嵌入模块进行进一步处理。3.根据权利要求1所述的一种基于对抗学习和分层神经网络的文本摘要生成系统,其特征在于,所述预处理模块将文本按句划分成n个数据块,对每个数据块做分词操作,并将每个词语初始化成独热编码的嵌入表示,记为w
ij
,输入到词嵌入层,其中i表示第i句,j表示第i句中的第j个词。4.一种基于权利要求1-3之一所述系统的文本摘要生成方法,其特征在于,包括以下步骤:S1:扫描文本,通过NER命名实体识别技术识别文本的时间,地点,事件三元组,若三元组中任一元素为空,则认为该文本内容残缺,判定为无效文本并丢弃;S2:将文本按句划分成n个数据块,对每个数据块做分词操作,并将每个词语初始化成one-hot编码的嵌入表示,记为w
ij
,输入到词嵌入层。其中i表示第i句,j表示第i句中的第j个词;S3:将每个数据块的句子进行词编码操作,使用双向长短记忆型神经网络对one-hot向量进行词编码处理,得到具有高表征的词编码;S4:引入随机初始化的t个上下文矩阵u
wt
,将其与S2所得的词编码做softmax操作,根据公式求出第t个词记忆矩阵,得到词记忆矩阵,其中L表示第L个分区,对其所有的注意力矩阵...
【专利技术属性】
技术研发人员:黄海辉,查茂鸿,常光辉,胡诗洋,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。