基于人机协同的可控新闻图像描述生成方法技术

技术编号：37173080 阅读：13 留言：0更新日期：2023-04-20 22:43

本发明专利技术涉及一种基于人机协同的可控新闻图像描述生成方法，获取待描述新闻图像；将待描述新闻图像输入经训练的图像描述生成模型，得到与待描述新闻图像对应的、带类别占位符的初级图像文本描述；根据初级图像文本描述中的类别占位符，获取用户输入的类别占位符对应信息，和/或调用类别占位符对应识别接口识别出类别占位符对应信息；基于初级图像文本描述结合类别占位符对应信息，生成待描述新闻图像的图像文本描述；图像描述生成模型训练所用数据集包括大量新闻图像和与新闻图像对应的训练用图像文本描述，训练用图像文本描述为将新闻图像对应图像文本描述中的专有名词替换为对应的类别占位符后得到。适用于机器学习与跨模态理解的交叉领域。态理解的交叉领域。态理解的交叉领域。

全部详细技术资料下载

【技术实现步骤摘要】
基于人机协同的可控新闻图像描述生成方法

[0001]本专利技术涉及一种基于人机协同的可控新闻图像描述生成方法。适用于机器学习与跨模态理解的交叉领域。

技术介绍

[0002]随着数字媒体的发展，新闻图片产生的渠道增多，新闻图片的数量也与日俱增，公众对新闻的时效性需求也更加显著，这要求新闻工作者们即时地产出大量的新闻图片描述。但新闻工作者的时间有限，为大量新闻图片撰写图片描述费时费力。因此，利用自动化技术手段辅助新闻工作者以提高新闻生产效率减轻工作负担具有重要的现实意义。与此同时，图片描述生成是机器学习领域中的经典问题，利用机器学习模型自动生成图片描述则可为新闻工作者生成图片描述的新闻草稿，人机协同进行新闻写作。
[0003]面向新闻图片的图像描述生成是国际学术届公认的前沿问题。目前成熟的图像描述生成技术往往是在通用数据集上训练的，对于新闻图片的描述文本生成缺少针对性，无法适用于新闻场景复杂灵活多变的特点，不能满足新闻图片文稿的撰写需求。
[0004]图像描述生成是Binet
‑
Simon 智能测试中的认知任务之一，其中定义了图像描述生成的三个性能级别，一是场景中实体的列举，二是图像内容的基本描述，三是图像内容的解释，其中第三层级需要利用图片的背景上下文信息来解释图片所描绘的事件。目前现有的通用图像描述生成技术所生成的文本仅仅是对图片场景中实体的列举，比如人物、物体等实体，以及实体之间关系的描述，停留在性能层级的第一级。而新闻图片描述并非对图像中内容的简单列举，需要交待照片拍摄的背景信息...

【技术保护点】

【技术特征摘要】
1.一种基于人机协同的可控新闻图像描述生成方法，其特征在于：获取待描述新闻图像；将待描述新闻图像输入经训练的图像描述生成模型，得到与待描述新闻图像对应的、带类别占位符的初级图像文本描述；根据初级图像文本描述中的类别占位符，获取用户输入的类别占位符对应信息，和/或调用类别占位符对应识别接口识别出类别占位符对应信息；基于初级图像文本描述结合类别占位符对应信息，生成待描述新闻图像的图像文本描述；所述图像描述生成模型训练所用数据集包括大量新闻图像和与新闻图像对应的训练用图像文本描述，训练用图像文本描述为将新闻图像对应图像文本描述中的专有名词替换为对应的类别占位符后得到。2.根据权利要求1所述的基于人机协同的可控新闻图像描述生成方法，其特征在于，所述图像描述生成模型，包括：图像特征提取模块，用于获取输入图像的特征信息；描述文本生成模块，用于基于图像特征提取模块输出的图像特征，使用LSTM作为文本解码器，生成对应的文本描述。3.根据权利要求2所述的基于人机协同的可控新闻图像描述生成方法，其特征在于：所述图像特征提取模块使用在ImageNet上预训练的ResNet101网络。4.根据权利要求2所述的基于人机协同的可控新闻图像描述生成方法，其特征在于：所述描述文本生成模块在每一步解码过程中，同时输入上一步的预测结果和经过attention机制加权后的图像特征。5.根据权利要求2或4所述的基于人机协同的可控新闻图像描述生成方法，其特征在于：所述描述文本生成模块在每一步计算生成结果和相应训练用图像文本描述间的损失，使用交叉熵损失函数作为损失函数。6.根据权利要求1所述的基于人机协同的可控新闻图像描述生成方法，其特征在于，所述图像描述生成模型训练所...

【专利技术属性】
技术研发人员：金志威，弭晓月，成鹏，王熠，秦玉芳，胡焙哲，
申请(专利权)人：新华融合媒体科技发展北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人