基于人机协同的可控新闻图像描述生成方法技术

技术编号:37173080 阅读:13 留言:0更新日期:2023-04-20 22:43
本发明专利技术涉及一种基于人机协同的可控新闻图像描述生成方法,获取待描述新闻图像;将待描述新闻图像输入经训练的图像描述生成模型,得到与待描述新闻图像对应的、带类别占位符的初级图像文本描述;根据初级图像文本描述中的类别占位符,获取用户输入的类别占位符对应信息,和/或调用类别占位符对应识别接口识别出类别占位符对应信息;基于初级图像文本描述结合类别占位符对应信息,生成待描述新闻图像的图像文本描述;图像描述生成模型训练所用数据集包括大量新闻图像和与新闻图像对应的训练用图像文本描述,训练用图像文本描述为将新闻图像对应图像文本描述中的专有名词替换为对应的类别占位符后得到。适用于机器学习与跨模态理解的交叉领域。态理解的交叉领域。态理解的交叉领域。

【技术实现步骤摘要】
基于人机协同的可控新闻图像描述生成方法


[0001]本专利技术涉及一种基于人机协同的可控新闻图像描述生成方法。适用于机器学习与跨模态理解的交叉领域。

技术介绍

[0002]随着数字媒体的发展,新闻图片产生的渠道增多,新闻图片的数量也与日俱增,公众对新闻的时效性需求也更加显著,这要求新闻工作者们即时地产出大量的新闻图片描述。但新闻工作者的时间有限,为大量新闻图片撰写图片描述费时费力。因此,利用自动化技术手段辅助新闻工作者以提高新闻生产效率减轻工作负担具有重要的现实意义。与此同时,图片描述生成是机器学习领域中的经典问题,利用机器学习模型自动生成图片描述则可为新闻工作者生成图片描述的新闻草稿,人机协同进行新闻写作。
[0003]面向新闻图片的图像描述生成是国际学术届公认的前沿问题。目前成熟的图像描述生成技术往往是在通用数据集上训练的,对于新闻图片的描述文本生成缺少针对性,无法适用于新闻场景复杂灵活多变的特点,不能满足新闻图片文稿的撰写需求。
[0004]图像描述生成是Binet

Simon 智能测试中的认知任务之一,其中定义了图像描述生成的三个性能级别,一是场景中实体的列举,二是图像内容的基本描述,三是图像内容的解释,其中第三层级需要利用图片的背景上下文信息来解释图片所描绘的事件。目前现有的通用图像描述生成技术所生成的文本仅仅是对图片场景中实体的列举,比如人物、物体等实体,以及实体之间关系的描述,停留在性能层级的第一级。而新闻图片描述并非对图像中内容的简单列举,需要交待照片拍摄的背景信息以阐明新闻事实,通过简短的描述突出图片的新闻价值,这属于第三层级的图片描述性能要求,与常见的图片描述任务相比,具有更高的任务难度。
[0005]目前存在的通用图像描述方法并未考虑图片拍摄的背景,例如时间、地点、事件等实体信息,使用通用方法生成的图片描述文本既不能融合必要的新闻要素,也不符合新闻图片描述的写作规范与风格,更不能有效地凸显图片的新闻价值。近三年来,在CVPR、COLING等计算机视觉和自然语言处理领域的顶级会议中,针对新闻图片的描述文本生成研究方兴未艾。这些研究同样指出了将通用方法应用于新闻图片描述生成时的问题,例如文本中关键背景信息缺失或错误,图片描述文本风格单一,图片描述不匹配新闻重点等问题。
[0006]面向新闻图片的可控文本描述生成更是技术难点问题。首先,是多模态背景信息融合的问题,在生成图片描述时需要将图片与时间、地点、人物、事件等命名体关键词文本相融合,而不是单一的从图片本身出发,以包含所有的新闻要素。其次,是不符合新闻文本的规范的问题,由于新闻中的时间、地点、人物、事件等要素信息属于低词频或字典外的词语,而且通用方法自动生成的文本描述通常较短,因此生成的图片描述往往会忽略关键要素信息,或者生成错误的信息,这严重影响了新闻的准确性。再次,存在图片描述单一的问题,自动生成的文本风格较为单一,不能很好适应多种新闻场景,比如节日、会议、自然风光类的新闻图片,所关注的重点与传达的信息是风格迥异的,如何可控地生成风格多样化的、
内容关注新闻价值的新闻图片描述是重点。
[0007]申请人通过观察新华社数据集分布,发现本课题主要难点有两点:1、数据长尾分布。由于新闻的特殊性,新闻图像描述中存在明显的长尾分布:除通用图像描述数据集中名词频率明显高于其它类型词外,新闻图像描述数据集中专有名词特别多,不同类型的专有名词内部也是超级长尾分布。新华社数据集中共出现65305次专有名词,种类为14122个,其中仅有153个专有名词词频大于50,约占全部专有名词1%,有12531个专有名词词频≤5,约占全部专有名词88.73%。面对超级长尾,目前最有效的解决措施为迁移预训练大模型的知识,但目前中文开源的视觉文本多模态预训练模型还是空白,这导致直接用通用的图像描述技术易出现严重的事实信息错误。
[0008]2、仅从图像内容无法推断出精确的文本描述信息。与其它新闻文本描述任务不同,本课题输入仅为图像,不包含新闻原稿,这带来了新的难题。新闻是时效性非常强的媒体,很多信息在新闻报道前是不可能存在于数据集中。面对一张会议照片,除了参与参访的工作人物,没有参与新闻采访的普通人,也难以判断出究竟是什么会议在召开,这种信息的缺失使得通用图像描述技术完全无法使用。

技术实现思路

[0009]本专利技术要解决的技术问题是:针对上述存在的问题,提供一种基于人机协同的可控新闻图像描述生成方法。
[0010]本专利技术所采用的技术方案是:一种基于人机协同的可控新闻图像描述生成方法,其特征在于:获取待描述新闻图像;将待描述新闻图像输入经训练的图像描述生成模型,得到与待描述新闻图像对应的、带类别占位符的初级图像文本描述;根据初级图像文本描述中的类别占位符,获取用户输入的类别占位符对应信息,和/或调用类别占位符对应识别接口识别出类别占位符对应信息;基于初级图像文本描述结合类别占位符对应信息,生成待描述新闻图像的图像文本描述;所述图像描述生成模型训练所用数据集包括大量新闻图像和与新闻图像对应的训练用图像文本描述,训练用图像文本描述为将新闻图像对应图像文本描述中的专有名词替换为对应的类别占位符后得到。
[0011]所述图像描述生成模型,包括:图像特征提取模块,用于获取输入图像的特征信息;描述文本生成模块,用于基于图像特征提取模块输出的图像特征,使用LSTM作为文本解码器,生成对应的文本描述。
[0012]所述图像特征提取模块使用在ImageNet上预训练的ResNet101网络。
[0013]所述描述文本生成模块在每一步解码过程中,同时输入上一步的预测结果和经过attention机制加权后的图像特征。
[0014]所述描述文本生成模块在每一步计算生成结果和相应训练用图像文本描述间的损失,使用交叉熵损失函数作为损失函数。
[0015]所述图像描述生成模型训练所用数据集的构建方法,包括:
获取新闻图像数据集,该数据集包括大量新闻图像和与新闻图像对应的常规图像文本描述;使用NER识别工具识别常规图像文本描述中的专有名词,并将识别出的专有名词替换为对应的类别占位符,形成训练用图像文本描述。
[0016]所述类别占位符包括特定人物占位符、特定动物占位符、特定植物占位符、特定事件占位符、特定地点占位符、特定组织占位符和特定物体占位符。
[0017]一种基于人机协同的可控新闻图像描述生成装置,其特征在于:图像获取模块,用于获取待描述新闻图像;模型预测模块,用于将待描述新闻图像输入经训练的图像描述生成模型,得到与待描述新闻图像对应的、带类别占位符的初级图像文本描述;人机协同填充模块,用于根据初级图像文本描述中的类别占位符,获取用户输入的类别占位符对应信息,和/或调用类别占位符对应识别接口识别出类别占位符对应信息;基于初级图像文本描述结合类别占位符对应信息,生成待描述新闻图像的图像文本描述;所述图像描述生成模型训练所用数据集包括大量新闻图像和与新闻图像对应的训练用图像文本描述,训本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人机协同的可控新闻图像描述生成方法,其特征在于:获取待描述新闻图像;将待描述新闻图像输入经训练的图像描述生成模型,得到与待描述新闻图像对应的、带类别占位符的初级图像文本描述;根据初级图像文本描述中的类别占位符,获取用户输入的类别占位符对应信息,和/或调用类别占位符对应识别接口识别出类别占位符对应信息;基于初级图像文本描述结合类别占位符对应信息,生成待描述新闻图像的图像文本描述;所述图像描述生成模型训练所用数据集包括大量新闻图像和与新闻图像对应的训练用图像文本描述,训练用图像文本描述为将新闻图像对应图像文本描述中的专有名词替换为对应的类别占位符后得到。2.根据权利要求1所述的基于人机协同的可控新闻图像描述生成方法,其特征在于,所述图像描述生成模型,包括:图像特征提取模块,用于获取输入图像的特征信息;描述文本生成模块,用于基于图像特征提取模块输出的图像特征,使用LSTM作为文本解码器,生成对应的文本描述。3.根据权利要求2所述的基于人机协同的可控新闻图像描述生成方法,其特征在于:所述图像特征提取模块使用在ImageNet上预训练的ResNet101网络。4.根据权利要求2所述的基于人机协同的可控新闻图像描述生成方法,其特征在于:所述描述文本生成模块在每一步解码过程中,同时输入上一步的预测结果和经过attention机制加权后的图像特征。5.根据权利要求2或4所述的基于人机协同的可控新闻图像描述生成方法,其特征在于:所述描述文本生成模块在每一步计算生成结果和相应训练用图像文本描述间的损失,使用交叉熵损失函数作为损失函数。6.根据权利要求1所述的基于人机协同的可控新闻图像描述生成方法,其特征在于,所述图像描述生成模型训练所...

【专利技术属性】
技术研发人员:金志威弭晓月成鹏王熠秦玉芳胡焙哲
申请(专利权)人:新华融合媒体科技发展北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1