一种主题相关的图文协同生成数据集的方法和系统技术方案

技术编号:40420540 阅读:30 留言:0更新日期:2024-02-20 22:39
一种主题相关的图文协同生成数据集的方法,包括:搜集用户需求的领域主题,并根据领域主题搜集领域主题对应的相关事件;根据搜集的领域主题及其相关事件定向爬取对应的新闻数据,并将爬取的新闻数据存入资源库;根据爬取的新闻数据中是否含有图片信息,分别采用两种方法对爬取的新闻数据进行处理;将通两种方法获取的新闻数据整合到一起,对新闻数据内容进行校对,删除噪声数据,并将校对后的新闻数据进行输出。本发明专利技术依据自然语言处理技术快速构建主题相关图像文本协同生成数据集的构建方法,可以针对爬取的包含图片和不包含图片的不同场景进行数据集构建,在保证数据集构建质量的情况下,提升数据集构建效率。

【技术实现步骤摘要】

本专利技术涉及的是数据集生成领域,特别涉及一种主题相关的图文协同生成数据集的方法和系统


技术介绍

1、主题相关的图文协同生成技术旨在根据给定的图片、主题词以及相关关键词,根据主题、图片、关键词生成一段主题相关、图文相关的文本内容,例如给定一张旅游大巴的图和一个主题词“国庆”,生成一段目标文本“国庆去旅游”。图文协同生成技术在主题可控的文本生成基础上,增加了图文相关的约束,要求模型能够同时理解图片内容和文本内容,并且进行图像和文本的语义匹配。然而当前图文协同生成难以获取主题相关的图片,基于通用数据场景构建,无法很好地融入特定领域的主题知识,同时难以确保图像文本的主题一致性,人工收集标注成本高。


技术实现思路

1、鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种主题相关的图文协同生成数据集的方法和系统。

2、为了解决上述技术问题,本申请实施例公开了如下技术方案:

3、一种主题相关的图文协同生成数据集的方法,包括:

4、s100.搜集用户需本文档来自技高网...

【技术保护点】

1.一种主题相关的图文协同生成数据集的方法,其特征在于,包括:

2.如权利要求1所述的一种主题相关的图文协同生成数据集的方法,其特征在于,S200中,按照新闻语种的不同分别进行爬取、存放和处理,如果资源库中已经积累了大量新闻数据,直接从资源库中抽取出相关的新闻数据。

3.如权利要求1所述的一种主题相关的图文协同生成数据集的方法,其特征在于,S300中,根据爬取的新闻数据中是否含有图片信息,分别采用两种方法对爬取的新闻数据进行处理,当爬取的新闻数据中含有图片信息时,使用关键词抽取得到该文本的主题词,将其图片、主题词作为输入,采用新闻报道摘要作为描述,采用“[主题词,...

【技术特征摘要】

1.一种主题相关的图文协同生成数据集的方法,其特征在于,包括:

2.如权利要求1所述的一种主题相关的图文协同生成数据集的方法,其特征在于,s200中,按照新闻语种的不同分别进行爬取、存放和处理,如果资源库中已经积累了大量新闻数据,直接从资源库中抽取出相关的新闻数据。

3.如权利要求1所述的一种主题相关的图文协同生成数据集的方法,其特征在于,s300中,根据爬取的新闻数据中是否含有图片信息,分别采用两种方法对爬取的新闻数据进行处理,当爬取的新闻数据中含有图片信息时,使用关键词抽取得到该文本的主题词,将其图片、主题词作为输入,采用新闻报道摘要作为描述,采用“[主题词,抽取的关键词,图片]=>新闻摘要”格式构造数据。

4.如权利要求3所述的一种主题相关的图文协同生成数据集的方法,其特征在于,使用关键词抽取得到该文本的主题词,将其图片、主题词作为输入,采用新闻报道摘要作为描述,采用“[主题词,抽取的关键词,图片]=>新闻摘要”格式构造数据,具体方法包括:

5.如权利要求1所述的一种主题相关的图文协同生成数据集的方法,其特征在于,s300中,根据爬取的新闻数据中是否含有图片信息,分别采用两种方法对爬取的新闻数据进行处理,当爬取的新闻数据中不含有图片信息时,利用主题文本生成数据,插入配图,按照“[主题词,关键词,图库搜图]=>文本描述”格式构造数据。

6.如权利要求5所述的一种主题相关的图文协同生成数据集的方法,其特征在...

【专利技术属性】
技术研发人员:邓彪周玉
申请(专利权)人:北京中科凡语科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1