System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种主题相关的图文协同生成数据集的方法和系统技术方案_技高网

一种主题相关的图文协同生成数据集的方法和系统技术方案

技术编号:40420540 阅读:13 留言:0更新日期:2024-02-20 22:39
一种主题相关的图文协同生成数据集的方法,包括:搜集用户需求的领域主题,并根据领域主题搜集领域主题对应的相关事件;根据搜集的领域主题及其相关事件定向爬取对应的新闻数据,并将爬取的新闻数据存入资源库;根据爬取的新闻数据中是否含有图片信息,分别采用两种方法对爬取的新闻数据进行处理;将通两种方法获取的新闻数据整合到一起,对新闻数据内容进行校对,删除噪声数据,并将校对后的新闻数据进行输出。本发明专利技术依据自然语言处理技术快速构建主题相关图像文本协同生成数据集的构建方法,可以针对爬取的包含图片和不包含图片的不同场景进行数据集构建,在保证数据集构建质量的情况下,提升数据集构建效率。

【技术实现步骤摘要】

本专利技术涉及的是数据集生成领域,特别涉及一种主题相关的图文协同生成数据集的方法和系统


技术介绍

1、主题相关的图文协同生成技术旨在根据给定的图片、主题词以及相关关键词,根据主题、图片、关键词生成一段主题相关、图文相关的文本内容,例如给定一张旅游大巴的图和一个主题词“国庆”,生成一段目标文本“国庆去旅游”。图文协同生成技术在主题可控的文本生成基础上,增加了图文相关的约束,要求模型能够同时理解图片内容和文本内容,并且进行图像和文本的语义匹配。然而当前图文协同生成难以获取主题相关的图片,基于通用数据场景构建,无法很好地融入特定领域的主题知识,同时难以确保图像文本的主题一致性,人工收集标注成本高。


技术实现思路

1、鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种主题相关的图文协同生成数据集的方法和系统。

2、为了解决上述技术问题,本申请实施例公开了如下技术方案:

3、一种主题相关的图文协同生成数据集的方法,包括:

4、s100.搜集用户需求的领域主题,并根据领域主题搜集领域主题对应的相关事件;

5、s200.根据搜集的领域主题及其相关事件定向爬取对应的新闻数据,并将爬取的新闻数据存入资源库;

6、s300.根据爬取的新闻数据中是否含有图片信息,分别采用两种方法对爬取的新闻数据进行处理;

7、s400.将通过s300中两种方法获取的新闻数据整合到一起,对新闻数据内容进行校对,删除噪声数据,并将校对后的新闻数据进行输出。

8、进一步地,s200中,按照新闻语种的不同分别进行爬取、存放和处理,如果资源库中已经积累了大量新闻数据,直接从资源库中抽取出相关的新闻数据。

9、进一步地,s300中,根据爬取的新闻数据中是否含有图片信息,分别采用两种方法对爬取的新闻数据进行处理,当爬取的新闻数据中含有图片信息时,使用关键词抽取得到该文本的主题词,将其图片、主题词作为输入,采用新闻报道摘要作为描述,采用“[主题词,抽取的关键词,图片]=>新闻摘要”格式构造数据。

10、进一步地,使用关键词抽取得到该文本的主题词,将其图片、主题词作为输入,采用新闻报道摘要作为描述,采用“[主题词,抽取的关键词,图片]=>新闻摘要”格式构造数据,具体方法包括:

11、s301.依据新闻正文中提供的图片路径,将新闻正文对应的第一张图片保存在本地,并将该图片作为目标图片;

12、s302.筛选符合长度的新闻内容,对不符合长度的新闻内容利用自动摘要系统对新闻正文进行处理,生成长度符合任务要求的文本段落,将该文本段落作为图片的相关描述文本;

13、s303.利用关键词抽取系统对s302生成的段落进行处理,抽取段落中的关键词汇,将这些关键词汇作为我们最终所需的关键词;

14、s304.对步骤s301-s303中抽取的信息进行整理,并按照预设格式进行保存即得到最终的数据。

15、进一步地,s300中,根据爬取的新闻数据中是否含有图片信息,分别采用两种方法对爬取的新闻数据进行处理,当爬取的新闻数据中不含有图片信息时,利用主题文本生成数据,插入配图,按照“[主题词,关键词,图库搜图]=>文本描述”格式构造数据。

16、进一步地,利用主题文本生成数据,插入配图,按照“[主题词,关键词,图库搜图]=>文本描述”格式构造数据,具体方法包括:

17、s301′.利用关键词抽取系统对生成的文本段落进行处理,抽取出段落中的关键词汇,将这些关键词汇作为我们最终所需的关键词;

18、s302′.利用自动摘要系统对只包含文本的新闻正文进行处理,从而生成长度符合任务要求的文本段落,将该文本段落作为为图片的相关描述文本;

19、s303′.依据s301′中的文本段落从图库中定向爬取对应的图片,将相关度最高的图片保存在本地,利用图文匹配算法将该图片即为目标图片;

20、304′.对s301′-s303′中抽取的信息进行整理,并按照预设格式进行保存即得到最终的数据。

21、进一步地,s400中,将通过s300中两种方法获取的数据整合到一起,对数据内容进行校对,校对的内容至少包括:图片是否可正常查看、图片及图片相关描述文本与对应主题和关键词是否相关、图片与图片相关描述文本是否相关。

22、本专利技术还公开了一种主题相关的图文协同生成数据集的系统,包括:领域主题相关事件搜集单元、新闻数据爬取单元、新闻数据处理单元和新闻数据输出单元;其中:

23、领域主题相关事件搜集单元,用于搜集用户需求的领域主题,并根据领域主题搜集领域主题对应的相关事件;

24、新闻数据爬取单元,用于根据搜集的领域主题及其相关事件定向爬取对应的新闻数据,并将爬取的新闻数据存入资源库;

25、新闻数据处理单元,用于根据爬取的新闻数据中是否含有图片信息,分别采用两种方法对爬取的新闻数据进行处理;

26、新闻数据输出单元,用于将新闻数据处理单元中两种方法获取的新闻数据整合到一起,对新闻数据内容进行校对,删除噪声数据,并将校对后的新闻数据进行输出。

27、进一步地,新闻数据处理单元,用于根据爬取的新闻数据中是否含有图片信息,分别采用两种方法对爬取的新闻数据进行处理,当爬取的新闻数据中含有图片信息时,使用关键词抽取得到该文本的主题词,将其图片、主题词作为输入,采用新闻报道摘要作为描述,采用“[主题词,抽取的关键词,图片]=>新闻摘要”格式构造数据;具体方法包括:

28、s301.依据新闻正文中提供的图片路径,将新闻正文对应的第一张图片保存在本地,并将该图片作为目标图片;

29、s302.筛选符合长度的新闻内容,对不符合长度的新闻内容利用自动摘要系统对新闻正文进行处理,生成长度符合任务要求的文本段落,将该文本段落作为图片的相关描述文本;

30、s303.利用关键词抽取系统对s302生成的段落进行处理,抽取段落中的关键词汇,将这些关键词汇作为我们最终所需的关键词;

31、s304.对步骤s301-s303中抽取的信息进行整理,并按照预设格式进行保存即得到最终的数据。

32、进一步地,新闻数据处理单元,用于根据爬取的新闻数据中是否含有图片信息,分别采用两种方法对爬取的新闻数据进行处理,当爬取的新闻数据中不含有图片信息时,利用主题文本生成数据,插入配图,按照“[主题词,关键词,图库搜图]=>文本描述”格式构造数据,具体方法包括:

33、s301′.利用关键词抽取系统对生成的文本段落进行处理,抽取出段落中的关键词汇,将这些关键词汇作为我们最终所需的关键词;

34、s302′.利用自动摘要系统对只包含文本的新闻正文进行处理,从而生成长度符合任务要求的文本段落,将该文本段落作为为图片的相关描述文本;

35、s303′.依据本文档来自技高网...

【技术保护点】

1.一种主题相关的图文协同生成数据集的方法,其特征在于,包括:

2.如权利要求1所述的一种主题相关的图文协同生成数据集的方法,其特征在于,S200中,按照新闻语种的不同分别进行爬取、存放和处理,如果资源库中已经积累了大量新闻数据,直接从资源库中抽取出相关的新闻数据。

3.如权利要求1所述的一种主题相关的图文协同生成数据集的方法,其特征在于,S300中,根据爬取的新闻数据中是否含有图片信息,分别采用两种方法对爬取的新闻数据进行处理,当爬取的新闻数据中含有图片信息时,使用关键词抽取得到该文本的主题词,将其图片、主题词作为输入,采用新闻报道摘要作为描述,采用“[主题词,抽取的关键词,图片]=>新闻摘要”格式构造数据。

4.如权利要求3所述的一种主题相关的图文协同生成数据集的方法,其特征在于,使用关键词抽取得到该文本的主题词,将其图片、主题词作为输入,采用新闻报道摘要作为描述,采用“[主题词,抽取的关键词,图片]=>新闻摘要”格式构造数据,具体方法包括:

5.如权利要求1所述的一种主题相关的图文协同生成数据集的方法,其特征在于,S300中,根据爬取的新闻数据中是否含有图片信息,分别采用两种方法对爬取的新闻数据进行处理,当爬取的新闻数据中不含有图片信息时,利用主题文本生成数据,插入配图,按照“[主题词,关键词,图库搜图]=>文本描述”格式构造数据。

6.如权利要求5所述的一种主题相关的图文协同生成数据集的方法,其特征在于,利用主题文本生成数据,插入配图,按照“[主题词,关键词,图库搜图]=>文本描述”格式构造数据,具体方法包括:

7.如权利要求1所述的一种主题相关的图文协同生成数据集的方法,其特征在于,S400中,将通过S300中两种方法获取的数据整合到一起,对数据内容进行校对,校对的内容至少包括:图片是否可正常查看、图片及图片相关描述文本与对应主题和关键词是否相关、图片与图片相关描述文本是否相关。

8.一种主题相关的图文协同生成数据集的系统,其特征在于,包括:领域主题相关事件搜集单元、新闻数据爬取单元、新闻数据处理单元和新闻数据输出单元;其中:

9.如权利要求8所述的一种主题相关的图文协同生成数据集的系统,其特征在于,新闻数据处理单元,用于根据爬取的新闻数据中是否含有图片信息,分别采用两种方法对爬取的新闻数据进行处理,当爬取的新闻数据中含有图片信息时,使用关键词抽取得到该文本的主题词,将其图片、主题词作为输入,采用新闻报道摘要作为描述,采用“[主题词,抽取的关键词,图片]=>新闻摘要”格式构造数据;具体方法包括:

10.如权利要求8所述的一种主题相关的图文协同生成数据集的系统,其特征在于,新闻数据处理单元,用于根据爬取的新闻数据中是否含有图片信息,分别采用两种方法对爬取的新闻数据进行处理,当爬取的新闻数据中不含有图片信息时,利用主题文本生成数据,插入配图,按照“[主题词,关键词,图库搜图]=>文本描述”格式构造数据,具体方法包括:

...

【技术特征摘要】

1.一种主题相关的图文协同生成数据集的方法,其特征在于,包括:

2.如权利要求1所述的一种主题相关的图文协同生成数据集的方法,其特征在于,s200中,按照新闻语种的不同分别进行爬取、存放和处理,如果资源库中已经积累了大量新闻数据,直接从资源库中抽取出相关的新闻数据。

3.如权利要求1所述的一种主题相关的图文协同生成数据集的方法,其特征在于,s300中,根据爬取的新闻数据中是否含有图片信息,分别采用两种方法对爬取的新闻数据进行处理,当爬取的新闻数据中含有图片信息时,使用关键词抽取得到该文本的主题词,将其图片、主题词作为输入,采用新闻报道摘要作为描述,采用“[主题词,抽取的关键词,图片]=>新闻摘要”格式构造数据。

4.如权利要求3所述的一种主题相关的图文协同生成数据集的方法,其特征在于,使用关键词抽取得到该文本的主题词,将其图片、主题词作为输入,采用新闻报道摘要作为描述,采用“[主题词,抽取的关键词,图片]=>新闻摘要”格式构造数据,具体方法包括:

5.如权利要求1所述的一种主题相关的图文协同生成数据集的方法,其特征在于,s300中,根据爬取的新闻数据中是否含有图片信息,分别采用两种方法对爬取的新闻数据进行处理,当爬取的新闻数据中不含有图片信息时,利用主题文本生成数据,插入配图,按照“[主题词,关键词,图库搜图]=>文本描述”格式构造数据。

6.如权利要求5所述的一种主题相关的图文协同生成数据集的方法,其特征在...

【专利技术属性】
技术研发人员:邓彪周玉
申请(专利权)人:北京中科凡语科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1