一种基于图文融合的生成式摘要生成方法技术

技术编号:23149248 阅读:48 留言:0更新日期:2020-01-18 13:32
本发明专利技术公开了一种基于图文融合的生成式摘要生成方法,其步骤包括:1)将给定的文本数据集划分为训练集、验证集和测试集;其中,文本数据集中的每一样本是一三元组(X,I,Y),X是文本,I是文本X对应的图像,Y是文本X的摘要;2)对文本数据集的图像进行实体特征提取,并将提取的实体特征表示成与文本同维度的图像特征向量;3)使用训练集和训练集对应的图像特征向量对生成式摘要模型进行训练;4)输入一条文本和对应图像并生成该图像的图像特征向量,然后将该文本及其对应的图像特征向量输入到训练后的生成式摘要模型,得到该文本对应的摘要。本发明专利技术生成的摘要可以有效地调整文本中实体的权重,在一定程度缓解未登录词的问题。

A method of generating summary based on image and text fusion

【技术实现步骤摘要】
一种基于图文融合的生成式摘要生成方法
本专利技术属于人工
,涉及一种基于图文融合的生成式摘要生成方法。
技术介绍
现有的生成式摘要方法主要基于深度学习的seq2seq框架和注意力机制实现的。Seq2Seq框架主要由编码器(encoder)和解码器(decoder)组成,编码和解码都由神经网络实现,神经网络可以是递归神经网络(RNN)或卷积神经网络(CNN)。其具体过程如下,编码器将输入的原文本编码成一个向量(context),该向量是原文本的一个表征。然后,解码器负责从这个向量提取重要信息、生成文本摘要。注意力机制为了解决长序列到定长向量转化而造成的信息损失的瓶颈,即在解码器中将注意力关注于对应的上下文。虽然基于深度学习的seq2seq框架和注意力机制在摘要生成领域取得了一定的成绩,但是其趋向于生成高频词,从而会导致关键实体偏差的问题。一般情况下,关键实体的偏差有两种形式:第一、由于硬件资源的限制,一般会采用有限的词表,文章中的某些生僻关键实体词并不会出现在词表中,导致生成的摘要中缺失这些关键实体;第二、相对低频实体被忽略。为了关键实体偏差的问题,本专利技术提出一种基于图文融合的生成式摘要方法,该方法引入图片区域信息,联合注意力机制将图片特征有机融合于文本内容中,动态调整关键实体信息的权重,从而提升生成摘要的质量。
技术实现思路
本申请提案能解决现有生成式摘要关键实体缺失的问题,从而提升生成摘要的质量以及可读性。以上的技术问题是通过下列技术方案解决的:一种基于图文融合的生成式摘要生成方法,所述摘要生成过程如下:步骤1,对给定的文本数据集进行去停用词、特殊词标记等数据预处理操作,将数据混洗后划分为训练集、验证集和测试集。文本数据集中的每一样本是一三元组(X,I,Y);其中,X是文本,I是对应的图像(即与X匹配的图像),Y是文本X的摘要。步骤2,对步骤1中文本数据集对应的图像提取主要特征实体,并将其表示成与文本同维度的图像特征。特征实体包括全文的图表示以及关键实体的三个图像表示;以文本a为例,如有30个词,词向量长度为128维,则文本是30个128维的向量,图像特征包括全局,最大区域的三个实体,所以是4个128维的向量,合在一起,是34个128维的向量。步骤3,一种基于图文融合的生成式摘要模型,并使用步骤1的训练集和步骤2处理后的训练集对应的图像特征对模型训练。步骤4,待摘要生成模型训练完毕,用测试集测试模型的性能,可以使用Rouge评价指标。步骤5,在实际应用中,在交互界面输入一条文本和对应图像并生成该图像的图像特征,然后将输入文本及其对应的图像特征输入到训练后的生成式摘要模型,得到一条对应的摘要。所述步骤1中,对文本数据进行预处理过程如下:步骤1.1,将给定的原始数据集进行文本,摘要和图像一一对应,得到每一样本的三元组(X,I,Y)。步骤1.2,同时对文本和摘要去除特殊字符、表情符、全角字符等。步骤1.3,将步骤1.2得到的数据集,使用“TAGURL”替换所有超链接URL,使用“TAGDATA”替换所有日期,使用“TAGNUM”替换所有数字,使用“TAGPUN”替换所有标点符号。步骤1.4,将1.3清洗后的数据使用停用词表过滤停用词。步骤1.5,将文本、摘要和图像一一对应地同时混洗,按比例切分成训练集、验证集和测试集。步骤1.6,根据数据集构建一定长度的词表,并将文本和摘要中的字没有出现在字典中的表示成“UNK”,在文档开始添加标记“BOS”,结束添加“EOS”,将文本和摘要分别处理成固定长度,多余的字直接截断,小于长度的用占位符“PAD”填充。步骤1.7,使用Gensim的WordEmbedding工具包,将文本摘要数据集中的每个字用一个固定维度k的字向量表示,包括步骤1.6的特殊标记。所述步骤2中,一种基于图文融合的生成式摘要模型如图1所示,包含三个模块:分别是特征提取模块、特征融合模块以及摘要生成模块,步骤2是详细的特征提取方法,详情如下:步骤2.1,将步骤1.5中的图像一一使用区域卷积神经网络(RegionCNN,RCNN)工具来捕获对应图像的关键实体特征。区域卷积神经网络算法包括四个步骤,分别是候选区域生成、特征提取、类别标志以及位置修整,详细过程如下:步骤2.1.1,首先应用过分割技术,将每一图像分割成尽可能多的独立的区域,通常该区域数超过1000个。然后,对同一图像的各区域按照一定规则进行合并,合并规则有相近颜色合并、近似纹理合并等。最后,将该过程中合并后出现的所有区域作为初步候选区域。步骤2.1.2,使用一个CNN网络对步骤2.1.1中出现的每一个初步候选区域进行特征提取。步骤2.1.3,将每个初步候选区域得到的特征表示输入到支持向量机(SVM)分类器中,判别是否是对应的实体标签,如是标记为1,进行步骤2.1.4,如不是,标记为0,删除该候选区域。步骤2.1.4,使用回归(Regression)模型,根据类别标志的结果修正初步候选区域的边框位置。具体地,对每一类目标,使用一个线性脊回归器(LinerRidgeRegression,LRR)进行精修。步骤2.2,将2.1中得到的每个图像的区域实体特征按照区域大小排序,选取区域最大的前三个区域实体特征作为候选区域。步骤2.3,统一使用VGG-16网络,如图2所示,将2.2得到的每一个候选区域特征使用fc7层表示成4096维度的图像特征,将候选区域的全局向量也表示成4096维度的图像特征。所述步骤3中,特征融合以及摘要生成详细步骤如下:步骤3.1,使用双线性网络将2.3得到的每一个4096维图像特征转化为与文本同维度的特征,可以表示为It=WiIv,其中Iv表示步骤2.3得到的图像特征,Wi是双线性网络的参数,It表示与文本同维度的图像特征向量。步骤3.2,对于同一样本,将步骤1.7得到的该样本的文本向量和步骤3.1得到的该样本的图像特征向量进行拼接,文本和图像拼接记为A,与原有摘要Y合起来得到二元组(A,Y),重新得到向量化表示的训练集、验证集和测试集。步骤3.3,将步骤3.2得到新的训练集采样k个样本,依次输入到编码器中,得到文本和图像的联合编码hs,通过中间语义向量ct,计算解码器在当前状态ht,从而实现特征融合,详细设置如下:摘要生成模块使用融合的特征生成摘要。将训练集的输入样本表示成(A,Y),其中A={a1,a2,…,an}表示文本和图像n个特征,人工摘要表示Y={y1,y2,…,ym},生成摘要用表示。在编码阶段,将当前时刻i的输入的特征向量表示为ai(文本和图像拼接的向量),上一时刻的隐层输出记为hs-1,那么当前时刻i的隐层输出为hs=f(hs-1,ai)。在编码阶段,使用ht表示当前时刻i解码器的隐状态。通过转移矩阵Wa计算当前状态下的ht与hs的关联程度,即score(ht,hs)=htWa本文档来自技高网...

【技术保护点】
1.一种基于图文融合的生成式摘要生成方法,其步骤包括:/n1)将给定的文本数据集划分为训练集、验证集和测试集;其中,文本数据集中的每一样本是一三元组(X,I,Y),X是文本,I是文本X对应的图像,Y是文本X的摘要;/n2)对文本数据集的图像进行实体特征提取,并将提取的实体特征表示成与文本同维度的图像特征向量;/n3)使用训练集和训练集对应的图像特征向量对生成式摘要模型进行训练;/n4)输入一条文本和对应图像并生成该图像的图像特征向量,然后将该文本及其对应的图像特征向量输入到训练后的生成式摘要模型,得到该文本对应的摘要。/n

【技术特征摘要】
1.一种基于图文融合的生成式摘要生成方法,其步骤包括:
1)将给定的文本数据集划分为训练集、验证集和测试集;其中,文本数据集中的每一样本是一三元组(X,I,Y),X是文本,I是文本X对应的图像,Y是文本X的摘要;
2)对文本数据集的图像进行实体特征提取,并将提取的实体特征表示成与文本同维度的图像特征向量;
3)使用训练集和训练集对应的图像特征向量对生成式摘要模型进行训练;
4)输入一条文本和对应图像并生成该图像的图像特征向量,然后将该文本及其对应的图像特征向量输入到训练后的生成式摘要模型,得到该文本对应的摘要。


2.如权利要求1所述的方法,其特征在于,图像特征向量包括图像全局特征向量和图像中最大区域的三个实体向量。


3.如权利要求1或2所述的方法,其特征在于,所述生成式摘要模型包含特征提取模块、特征融合模块以及摘要生成模块;步骤2)中,特征提取模块使用区域卷积神经网络捕获每一图像的实体特征,然后选取区域最大的前三个实体特征作为候选区域;然后生成该图像全局特征的图像特征和三个候选区域的图像特征;然后将所述图像特征转换为与文本同维度的图像特征向量;步骤3)中进行训练时,对于同一样本,特征融合模块将该样本对应的文本向量和该样本对应的图像特征向量进行拼接,得到向量化表示的训练集、验证集和测试集;然后从向量化表示的训练集中选取k个样本依次输入到编码器中,得到文本和图像的联合编码hs,通过中间语义向量ct,计算解码器在当前状态ht,从而实现特征融合;然后摘要生成模块使用融合的特征生成摘要。


4.如权利要求3所述的方法,其特征在于,所述特征融合的方法为:在编码阶段当前时刻i的隐层输出为hs,在编码阶段当前时刻i解码器的隐状态为ht,通过转移矩阵Wa计算当前状...

【专利技术属性】
技术研发人员:曹亚男徐灏尚燕敏刘燕兵谭建龙郭莉
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1