一种基于图像组协同描述生成的新闻自动配图方法技术

技术编号:21894725 阅读:100 留言:0更新日期:2019-08-17 15:37
本发明专利技术属于深度学习和计算机视觉技术领域,涉及一种基于图像组协同描述生成的新闻自动配图方法,包括:制作用于图像描述生成的新闻类中文数据集;使用新闻类中文数据集,构建及训练图像组协同描述生成模型;基于训练好的图像组描述生成模型,进行新闻自动化配图。本发明专利技术以更具体、更丰富的图像描述提高新闻配图的准确率,解决了目前新闻配图方法独立提取图片特征和文字特征后做匹配,深度学习对图片特征和文字特征的处理存在差异导致匹配效果不佳的问题。

An Automatic News Mapping Method Based on Collaborative Description of Image Groups

【技术实现步骤摘要】
一种基于图像组协同描述生成的新闻自动配图方法
本专利技术属于深度学习和计算机视觉
,涉及一种基于图像组协同描述生成的新闻自动配图方法。
技术介绍
图像描述(ImageCaptioning)作为图像自动化处理的基础,受到越来越多的关注,被广泛应用于自动配图、图像搜索等方向。图像描述生成技术的发展经历了早期的典型关联成分分析、传统机器学习方法及当前热门的深度学习方法的变迁。基于深度学习方法,常用CNN+LSTM的组合框架,百度团队于2014年提出的基于多模态循环神经网络是使用CNN+RNN结构进行图片描述的开山之作。其后,谷歌的NIC模型利用端到端的思想直接产生图像描述,进一步推动了图像描述的发展。然而,图像描述生成方法仍存在许多待改进空间:(1)缺乏中文训练数据集。现有的图片描述数据集如MSCOCO、Flickr等都为英文标注,图像描述生成的中文训练数据集仍空白。(2)传统新闻自动配图对文本特征和图片特征独立处理,未考虑深度学习方法对图片特征和文本特征的处理方式不同,缺乏足够的说服力。(3)现有图像描述生成方法多对图片单独处理,缺乏实体间的相关性及多样性的考量,生成的图片描述过于单一且不够精准。
技术实现思路
针对现有技术的不足,本专利技术提供一种基于图像组协同描述生成的新闻自动配图方法。本专利技术采用如下技术方案实现:一种基于图像组协同描述生成的新闻自动配图方法,包括:S1.制作用于图像描述生成的新闻类中文数据集;S2.使用新闻类中文数据集,构建及训练图像组协同描述生成模型;S3.基于训练好的图像组描述生成模型,进行新闻自动配图。进一步地,S3包括:S31.输入新闻及备选图片组;S32.由图像组协同描述生成模型对备选图片生成描述;S33.计算备选图片的图像描述文本特征向量与新闻文本特征向量之间的距离,输出TOP-K作为新闻最终的配图。优选地,新闻类中文数据集每条新闻对应3-10张图片。每张图片标注有三句描述语句,包括:1)新闻标题;2)图片地点或核心人物或人物动作等表现图片内容的描述;3)场景简要说明。优选地,S2包括:采用CNN进行图像视觉特征的提取及实体的挖掘,构建VPTree表示图像组内实体相关性和多样性,LSTM结合VPTree对图像进行描述生成。进一步地,VPTree的构建过程包括:①定义:其中h表示表示节点特征,l表示树层数,dn表示节点特征的维度,jl表示节点所在层的索引;②基于以上的定义,对于CNN提取的特征G有:其中:Fsem为自定义语义映射函数,将视觉特征映射到图像的实体/关系上,表示索引为第一层/第一个叶子节点的参数,相当于初始化赋值;基于以上的定义和函数映射转换,从而构建组内图像间实体关系。优选地,LSTM生成图像描述过程中损失函数表示为:其中:i表示目标图像,j表示目标图像内的第j个节点,|S|表示提取的全局特征个数,T表示输出序列的长度,K表示VPTree的节点个数,表示图像i对应状态t输出的词,表示目标图像i中第j个节点的实体/关系的类别,ΘT表示VPTree的参数,ΘC是多样性、相关性参数,ΘL表示LSTM本身的参数,UR表示组内图像间相关性关系集合,UD表示组内图像间多样性关系集合。进一步地,在进行图像描述生成的过程中,l(ΘT,ΘC,ΘL)表示总体loss函数,表示基于组内图像实体相关性下的损失考量、表示基于组内图像实体多样性下的损失考量,则令整体的l(ΘT,ΘC,ΘL)损失最小化,最终获得的输出就是图像组内协同约束下可获得的最优输出。优选地,采用CNN进行图像视觉特征的提取及实体的挖掘时,使用3*3的卷积核进行卷积操作,同时卷积步长设置为1,下采样使用最大池化,最大池化的窗口是2*2,步长是2,并在下采样之后采用全连接层处理。优选地,使用TF-IDF规则计算图像描述文本及新闻文本特征向量之间的距离。本专利技术相对于现有技术具有如下的优点及效果:(1)对图像组内的候选图片基于组内图像协同描述生成,自动新闻配图时,对这些图像协同描述生成的文字描述和新闻文本进行特征匹配,以更具体、更丰富的图像描述提高新闻配图的准确率,解决了目前新闻配图方法独立提取图片特征和文字特征以后做匹配,而深度学习对图片特征和文字特征处理存在差异导致的匹配效果不佳的问题。(2)在生成图像描述时考虑组内的图像,由于组内是一些相关的图像,它们之间存在实体的多样性和相关性关系,以组的方式可使图像描述有弥补和细化的效果。(3)在LSTM生成图像描述中通过VPTree将图像组内实体间的多样性及相关性考量在内,使得图像的描述结果更加具体、丰富。(4)制作的图像描述中文数据集,弥补了训练数据的局限性。附图说明图1是本专利技术一个实施例中基于图像组协同描述生成的新闻自动配图方法流程图;图2是本专利技术一个实施例中图像描述新闻类中文训练数据集示例;图3是本专利技术一个实施例中实体相关性示例;图4是本专利技术一个实施例中实体多样性示例;图5是本专利技术一个实施例中的新闻自动配图测试输入示意图;图6是本专利技术一个实施例中CNN特征提取及实体挖掘示意图;图7是本专利技术一个实施例中构建的VPTree及描述输出结果。具体实施方式为使本专利技术的目的、技术方案及实际效果更为清晰,下面将结合附图,对本专利技术实施例中的技术方案进行完整的流程描述。需要指出的是,本实施例只是本专利技术的一部分实施例,不包括整个所有适用场景下的实施例,基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图像描述(ImageCaptioning)作为图像自动化处理的基础,受到越来越多的关注,被广泛应用于自动配图、图像搜索等方向。现有图像描述生成方法中文训练数据集缺失,同时由于图像描述生成中对图片进行单独处理,所以生成的图像描述比较单一和模糊,故本专利技术提供一种基于图像组协同描述生成的新闻自动配图方法。一种基于图像组协同描述生成的新闻自动配图方法,包括:S1.制作用于图像描述生成的新闻类中文数据集;新闻类中文数据集每条新闻对应3-10张图片,每张图片标注有三句描述语句,包括:1)新闻标题;2)图片中地点或核心人物或人物动作等表现图片内容的描述;3)场景简要说明。本实施例中,新闻类中文数据集每条新闻对应3张图片,该数据集目前主要包括娱乐、金融、体育、社会、生活等类别。新闻类中文训练数据集的一个样例如图2所示,该新闻标题为“小女孩举办5岁生日聚会”,包含3张图片,除标题外,每张图片还有两句描述语句作为图像描述。图2中(a)的图像描述为:“小女孩举办5岁生日聚会”、“男人手棒鲜花蛋糕让小女孩许愿”、“小女孩和大家一起庆祝自己的生日”;(b)的图像描述为:“小女孩举办5岁生日聚会”、“小女孩对着鲜花蛋糕许愿”、“小女孩生日场景”;(c)的图像描述为:“小女孩举办5岁生日聚会”、“两个男人牵着小女孩站在写着5的生日蛋糕前照相”、“小女孩在生日会上和大家合影留念”。S2.使用S1制作的数据集,构建及训练图像组协同描述生成模型;图像组协同描述生成模型综合考量图像组内实体相关性及实体多样性,权衡组内图像间的关系,使得图像描述生成结果更加具体和丰富。基于CNN提取的特征构建VPTree表示图像组内实体相关度和多样性,并将其纳入LSTM中以生成更为精本文档来自技高网...

【技术保护点】
1.一种基于图像组协同描述生成的新闻自动配图方法,其特征在于,包括:S1.制作用于图像描述生成的新闻类中文数据集;S2.使用新闻类中文数据集,构建及训练图像组协同描述生成模型;S3.基于训练好的图像组描述生成模型,进行新闻自动配图。

【技术特征摘要】
1.一种基于图像组协同描述生成的新闻自动配图方法,其特征在于,包括:S1.制作用于图像描述生成的新闻类中文数据集;S2.使用新闻类中文数据集,构建及训练图像组协同描述生成模型;S3.基于训练好的图像组描述生成模型,进行新闻自动配图。2.根据权利要求1所述的新闻自动配图方法,其特征在于,S3包括:S31.输入新闻及备选图片组;S32.由图像组协同描述生成模型对备选图片生成描述;S33.计算备选图片的图像描述文本特征向量与新闻文本特征向量之间的距离,输出TOP-K作为新闻最终的配图。3.根据权利要求1或2所述的新闻自动配图方法,其特征在于,新闻类中文数据集每条新闻对应3-10张图片。4.根据权利要求3所述的新闻自动配图方法,其特征在于,每张图片标注有三句描述语句,包括:1)新闻标题;2)图片地点或核心人物或人物动作等表现图片内容的描述;3)场景简要说明。5.根据权利要求1或2所述的新闻自动配图方法,其特征在于,S2包括:采用CNN进行图像视觉特征的提取及实体的挖掘,构建VPTree表示图像组内实体相关性和多样性,LSTM结合VPTree对图像进行描述生成。6.根据权利要求5所述的新闻自动配图方法,其特征在于,VPTree的构建过程包括:①定义:其中h表示表示节点特征,l表示树层数,dn表示节点特征的维度,jl表示节点所在层的索引;②基于以上的定义,对于CNN提取的特征G有:其中:Fsem为自定义语义映射函数,将视觉特征映射到图像的实体...

【专利技术属性】
技术研发人员:罗荣华华梅芳
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1