基于文本-图像匹配的多模态自动文摘方法技术

技术编号:15910827 阅读:51 留言:0更新日期:2017-08-01 22:31
本发明专利技术提供了一种基于文本‑图像匹配的多模态自动文摘方法,包括:对多模态信息中的文本信息中的句子进行重要性打分;对多模态信息中的视频信息通过镜头边界切割,提取视频的关键帧;对多模态信息中的图像信息和/或视频信息通过文本‑图像匹配模型为图像和/或关键帧找到语义对应的文本;以及根据每一个句子的重要性得分、图片和关键帧所占权重、与文本的语义相关度,以及惩罚冗余项,生成文本摘要。通过训练文本‑图像匹配模型,将图像或视频中的信息利用文本‑图像匹配模型找到对应语义的文本,实现了同时处理文本、图像和视频信息进行文本摘要,使得输出的自动文摘相较传统的纯文本自动文摘结果具有更好的全面性和准确度。

Multimodal automatic text summarization method based on image matching text

The invention provides a multi-modal automatic text summarization method based on image matching, text includes: the importance of scoring for multimodal information in text information in the sentence; for multimodal information and video information in cutting through the lens boundary, video key frame extraction; on multimodal information in image information and / or video information through text image matching model to find the corresponding text semantic image and / or key frames; and according to the importance scores, pictures and key frames of each sentence weights, and text semantic relevance, and to punish redundant entries, to generate text summarization. Through the training text image matching model, the image or video information using text image matching model to find the corresponding semantic text, at the same time with the text, images and video information for text summarization, the automatic text summarization output compared with the traditional pure text automatic text summarization result is more comprehensive and accurate.

【技术实现步骤摘要】
基于文本-图像匹配的多模态自动文摘方法
本专利技术属于自然语言处理和图像处理
,涉及一种基于文本-图像匹配的多模态自动文摘方法。
技术介绍
随着网络时代到来,多媒体信息包括文本、图像或视频等随处可见,中、英文双语在媒体信息中也应用广泛,有效地分析中、英文多媒体信息,获取其中的重要信息,并以文本的形式呈现给用户,可以帮助用户快速、便捷地理解多媒体信息的主体信息。处理多媒体信息的过程中涉及从多媒体信息中获取多模态数据,然后生成文本摘要。目前对于文本、图像和视频等多媒体信息输入来说,尽管输入的文本、图像和视频与某一信息事件相关,但是图像或视频不能找到与其语义完全对应的文本,就导致在自动文摘过程中图像或视频的重要信息被缺漏或者出现偏差,导致自动文摘无法满足信息的全面性与准确性,因此,如何寻找一种多模态自动文摘的方法,将图像或视频信息与文本信息进行匹配,进而为图像或视频信息找到语义对应的文本,然后处理文本信息输出文本摘要是一个亟待解决的技术问题。
技术实现思路
(一)要解决的技术问题本专利技术提供了一种基于文本-图像匹配的多模态自动文摘方法,以至少部分解决以上所提出的技术问题。(二)技术方案根据本专利技术的一个方面,提供了一种基于文本-图像匹配的多模态自动文摘方法,包括:对多模态信息中的文本信息中的句子进行重要性打分;对多模态信息中的视频信息通过镜头边界切割,提取视频的关键帧;对多模态信息中的图像信息和/或视频信息通过文本-图像匹配模型为图像和/或关键帧找到语义对应的文本;以及根据每一个句子的重要性得分、图片和关键帧所占权重、与文本的语义相关度,以及惩罚冗余项,生成文本摘要。优选地,上述文本-图像匹配模型的训练过程包括:计算数据集中的句子的词向量的平均值,得到句子的句向量;对数据集中的图像进行编码,对其进行矢量量化,得到图像向量;通过两个多层感知器分别对句向量和图像向量进行编码,生成文本-图像联合空间的特征表达;以及通过最大间隔优化方法优化两个多层感知器的模型参数,优化目标使其满足:对于匹配的句子和图像,匹配得分尽量高,对于不匹配的句子和图像,匹配得分尽量低,完成文本-图像匹配模型的训练。优选地,数据集选用Flickr30K数据集;和/或对数据集中的图像进行编码从而得到图像矢量利用VGG模型实现,通过提取VGG模型的第十九个隐层的特征向量作为图像向量。优选地,通过文本-图像匹配模型为关键帧找到语义对应的文本包括:通过语义角色标注,获取文本中的句子的谓词论元结构,并提取句子的论元ARG0、ARG1和谓词,将动作的施事ARG0、谓词与动作的影响ARG1连接为一个句子,作为上述句子的简化句子;计算简化句子的词向量的平均值,得到简化句子的句向量;对视频的关键帧进行编码,对其进行矢量量化,得到关键帧向量;通过文本-图像匹配模型的两个多层感知器分别对简化句子的句向量和关键帧向量进行编码,生成文本-图像联合空间的特征表达;计算文本-图像联合空间的简化句子的特征表达和关键帧的特征表达之间的余弦相似度,作为简化句子与关键帧的匹配度;以及利用训练好的文本-图像匹配模型,计算数据集中文本-图像匹配对的平均匹配度得分,作为文本-图像匹配度阈值,将上述得到的简化句子与关键帧的匹配度和文本-图像匹配度阈值进行比较,当简化句子与关键帧的匹配度大于文本-图像匹配度阈值时,则将简化句子的来源句作为关键帧语义对应的文本,视为关键帧和简化句子的来源句语义相关。优选地,对视频的关键帧进行编码从而得到关键帧向量利用VGG模型实现,通过提取VGG模型的第十九个隐层的特征向量作为关键帧向量。优选地,文本-图像联合空间的特征表达如下式所示:x=W2·f(W1·vs+bs)(2)y=V2·f(V1·vi+bi)(3)其中,x和y分别为句子和图像在文本-图像联合空间的特征表达;W1、W2、V1和V2表示权重矩阵,由随机初始化获得;f(·)表示激活函数,为sigmoid函数;vs表示句向量;vi表示图像向量;bs和bi表示偏置项。优选地,优化目标的目标函数表达式如下式所示:∑i,j,kmax(0,1-s(xi,yi)+s(xi,yk))+λ∑i,j,kmax(0,1-s(xi,yi)+s(xk,yi))(4)其中,s(xi,yi)表示句子-图像匹配正例(xi,yi)的余弦相似度;(xi,yk)和(xk,yi)表示负采样出来的句子-图像匹配负例,即不匹配的句子和图像。优选地,上述根据每一个句子的重要性得分、图片和关键帧所占权重、与文本的语义相关度,以及惩罚冗余项,生成文本摘要包括:定义抽取用于生成摘要的句子的目标函数;定义长度约束;利用贪心算法,选取最大化目标函数且满足长度约束的句子集合;以及按照输入的不同文档中句子的出现顺序,将选入摘要中的句子排序,作为输出摘要。优选地,上述目标函数表达式为:其中,S表示摘要集合,u(ci)表示摘要S中的句子ci的重要性得分;M为所有关键帧集合;I为所有图片集合;v(mj)表示关键帧mj的权重,该权重等于关键帧mj所在镜头的时长与视频总时长的比值;当关键帧mj和句子ci语义相关时,bij为1,否则,bij为0;v(mk)表示图片mk的权重v(mk),该权重等于所有视频关键帧的权重的平均值;当图片mk和句子ci语义相关时,bik为1,否则,bik为0;λ是对冗余性的惩罚因子,通过开发集调节其大小;sim(ci,cj)表示ci和cj间的余弦相似度;上述图片mk的权重v(mk)的计算公式如下:其中,|M|为关键帧总数;和/或,所述贪心算法的实施过程包括:对于每一个还未选为摘要的句子l,计算选该句子给目标函数f带来的得分增益,其表达式如下式所示:其中,cl为句子l的长度;以及选取满足得分增益最高的句子作为选入摘要,如此循环进行,直至摘要长度达到预定的长度限制;和/或,按照输入的不同文档中句子的出现顺序,将选入摘要中的句子排序,包括:对于那些出现在不同文档中的选入摘要中的句子,按照原文档的日期先后排序;对于那些出现在相同原文档中的选入摘要中的句子,按照其出现在原文档中的先后排序。优选地,上述对文本中的句子进行重要性打分包括:计算文本中的句子的词向量的平均值,得到句子的句向量;根据文本中的句子的句向量计算句子的相似度;任选来自于文本的两个句子,计算各自的句向量的余弦相似度,直至所有文本的任意两句均计算完相似度为止;以及根据句子的相似度利用PageRank算法计算句子的重要性得分;PageRank算法采用下述公式进行迭代递归,直到得分稳定为止:其中,u(ci)为ci的重要性得分;u(cj)为cj的重要性得分;ci和cj为任意两个句子;μ为平滑因子;Mij为ci与cj的相似度;N为句子总数;和/或,所述通过镜头边界切割,提取视频的关键帧包括:计算视频内每一帧的RBG直方图特征;计算视频内相邻两帧的RBG直方图特征的变化值,当该变化值大于某一阈值时,在该两帧的镜头边界处,将视频切割为两个不同的镜头;以及对于视频内的每一个镜头,取每个镜头最中间的一帧作为该视频的关键帧。(三)有益效果从上述技术方案可以看出,本专利技术提供的基于文本-图像匹配的多模态自动文摘方法,具有以下有益效果:通过训练文本-图像匹配模型,将图像或视频中的信息利用文本-图像匹配模型找本文档来自技高网...
基于文本-图像匹配的多模态自动文摘方法

【技术保护点】
一种基于文本‑图像匹配的多模态自动文摘方法,其特征在于,包括:对多模态信息中的文本信息中的句子进行重要性打分;对多模态信息中的视频信息通过镜头边界切割,提取视频的关键帧;对多模态信息中的图像信息和/或视频信息通过文本‑图像匹配模型为图像和/或关键帧找到语义对应的文本;以及根据每一个句子的重要性得分、图片和关键帧所占权重、与文本的语义相关度,以及惩罚冗余项,生成文本摘要。

【技术特征摘要】
1.一种基于文本-图像匹配的多模态自动文摘方法,其特征在于,包括:对多模态信息中的文本信息中的句子进行重要性打分;对多模态信息中的视频信息通过镜头边界切割,提取视频的关键帧;对多模态信息中的图像信息和/或视频信息通过文本-图像匹配模型为图像和/或关键帧找到语义对应的文本;以及根据每一个句子的重要性得分、图片和关键帧所占权重、与文本的语义相关度,以及惩罚冗余项,生成文本摘要。2.根据权利要求1所述的多模态自动文摘方法,其特征在于,所述文本-图像匹配模型的训练过程包括:计算数据集中的句子的词向量的平均值,得到句子的句向量;对数据集中的图像进行编码,对其进行矢量量化,得到图像向量;通过两个多层感知器分别对句向量和图像向量进行编码,生成文本-图像联合空间的特征表达;以及通过最大间隔优化方法优化两个多层感知器的模型参数,优化目标使其满足:对于匹配的句子和图像,匹配得分尽量高,对于不匹配的句子和图像,匹配得分尽量低,完成文本-图像匹配模型的训练。3.根据权利要求2所述的多模态自动文摘方法,其特征在于,所述数据集选用Flickr30K数据集;和/或所述对数据集中的图像进行编码从而得到图像矢量利用VGG模型实现,通过提取VGG模型的第十九个隐层的特征向量作为图像向量。4.根据权利要求2所述的多模态自动文摘方法,其特征在于,所述通过文本-图像匹配模型为关键帧找到语义对应的文本包括:通过语义角色标注,获取文本中的句子的谓词论元结构,并提取句子的论元ARG0、ARG1和谓词,将动作的施事ARG0、谓词与动作的影响ARG1连接为一个句子,作为所述句子的简化句子;计算简化句子的词向量的平均值,得到简化句子的句向量;对视频的关键帧进行编码,对其进行矢量量化,得到关键帧向量;通过文本-图像匹配模型的两个多层感知器分别对简化句子的句向量和关键帧向量进行编码,生成文本-图像联合空间的特征表达;计算文本-图像联合空间的简化句子的特征表达和关键帧的特征表达之间的余弦相似度,作为简化句子与关键帧的匹配度;以及利用训练好的文本-图像匹配模型,计算数据集中文本-图像匹配对的平均匹配度得分,作为文本-图像匹配度阈值,将上述得到的简化句子与关键帧的匹配度和文本-图像匹配度阈值进行比较,当简化句子与关键帧的匹配度大于文本-图像匹配度阈值时,则将简化句子的来源句作为关键帧语义对应的文本,视为关键帧和简化句子的来源句语义相关。5.根据权利要求4所述的多模态自动文摘方法,其特征在于,所述对视频的关键帧进行编码从而得到关键帧向量利用VGG模型实现,通过提取VGG模型的第十九个隐层的特征向量作为关键帧向量。6.根据权利要求2所述的多模态自动文摘方法,其特征在于,所述文本-图像联合空间的特征表达如下式所示:x=W2·f(W1·vs+bs)(2)y=V2·f(V1·vi+bi)(3)其中,x和y分别为句子和图像在文本-图像联合空间的特征表达;W1、W2、V1和V2表示权重矩阵,由随机初始化获得;f(·)表示激活函数,为sigmoid函数;vs表示句向量;vi表示图像向量;bs和bi表示偏置项。7.根据权利要求2所述的多模态自动文摘方法,其特征在于,所述优化目标的目标函数表达式如下式所示:∑i,j,kmax(0,1-s(xi,yi)+s(xi,yk))+λ∑i,j,kmax(0,1-s(xi,yi)+s(xk,yi))(4)其中,s(xi,yi)表示句子-图像匹配正例(xi,yi)的余弦相似度;(xi,yk)和(xk,yi)表示负采样出来的句子-图像匹配负例,即不匹配的句子和图像。...

【专利技术属性】
技术研发人员:张家俊李浩然周玉宗成庆
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1