【技术实现步骤摘要】
本专利技术涉及的是数据集生成领域,特别涉及一种主题相关的图文协同生成数据集的方法和系统。
技术介绍
1、主题相关的图文协同生成技术旨在根据给定的图片、主题词以及相关关键词,根据主题、图片、关键词生成一段主题相关、图文相关的文本内容,例如给定一张旅游大巴的图和一个主题词“国庆”,生成一段目标文本“国庆去旅游”。图文协同生成技术在主题可控的文本生成基础上,增加了图文相关的约束,要求模型能够同时理解图片内容和文本内容,并且进行图像和文本的语义匹配。然而当前图文协同生成难以获取主题相关的图片,基于通用数据场景构建,无法很好地融入特定领域的主题知识,同时难以确保图像文本的主题一致性,人工收集标注成本高。
技术实现思路
1、鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种主题相关的图文协同生成数据集的方法和系统。
2、为了解决上述技术问题,本申请实施例公开了如下技术方案:
3、一种主题相关的图文协同生成数据集的方法,包括:
4、
...【技术保护点】
1.一种主题相关的图文协同生成数据集的方法,其特征在于,包括:
2.如权利要求1所述的一种主题相关的图文协同生成数据集的方法,其特征在于,S200中,按照新闻语种的不同分别进行爬取、存放和处理,如果资源库中已经积累了大量新闻数据,直接从资源库中抽取出相关的新闻数据。
3.如权利要求1所述的一种主题相关的图文协同生成数据集的方法,其特征在于,S300中,根据爬取的新闻数据中是否含有图片信息,分别采用两种方法对爬取的新闻数据进行处理,当爬取的新闻数据中含有图片信息时,使用关键词抽取得到该文本的主题词,将其图片、主题词作为输入,采用新闻报道摘要作为描
...【技术特征摘要】
1.一种主题相关的图文协同生成数据集的方法,其特征在于,包括:
2.如权利要求1所述的一种主题相关的图文协同生成数据集的方法,其特征在于,s200中,按照新闻语种的不同分别进行爬取、存放和处理,如果资源库中已经积累了大量新闻数据,直接从资源库中抽取出相关的新闻数据。
3.如权利要求1所述的一种主题相关的图文协同生成数据集的方法,其特征在于,s300中,根据爬取的新闻数据中是否含有图片信息,分别采用两种方法对爬取的新闻数据进行处理,当爬取的新闻数据中含有图片信息时,使用关键词抽取得到该文本的主题词,将其图片、主题词作为输入,采用新闻报道摘要作为描述,采用“[主题词,抽取的关键词,图片]=>新闻摘要”格式构造数据。
4.如权利要求3所述的一种主题相关的图文协同生成数据集的方法,其特征在于,使用关键词抽取得到该文本的主题词,将其图片、主题词作为输入,采用新闻报道摘要作为描述,采用“[主题词,抽取的关键词,图片]=>新闻摘要”格式构造数据,具体方法包括:
5.如权利要求1所述的一种主题相关的图文协同生成数据集的方法,其特征在于,s300中,根据爬取的新闻数据中是否含有图片信息,分别采用两种方法对爬取的新闻数据进行处理,当爬取的新闻数据中不含有图片信息时,利用主题文本生成数据,插入配图,按照“[主题词,关键词,图库搜图]=>文本描述”格式构造数据。
6.如权利要求5所述的一种主题相关的图文协同生成数据集的方法,其特征在...
【专利技术属性】
技术研发人员:邓彪,周玉,
申请(专利权)人:北京中科凡语科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。