多模态数据集的构建方法、装置及存储介质制造方法及图纸

技术编号:42684256 阅读:23 留言:0更新日期:2024-09-10 12:33
本申请提供一种多模态数据集构建方法、装置及存储介质。首先清洗出高质量图片;然后对高质量的图片生成图片的描述;评估生成的描述与图片的相似度,如果相似度较低,重新生成图片的描述,直到生成的描述与图片的相似度达到规定的得分;使用音频模型,把生成的图片描述转换成语音,通过评分模型打分,得到满足条件的音频;得到图‑文‑音三模态高质量数据集。通过本发明专利技术的获取数据集的方法,获取了高质量的图文音数据集,可以用来提高模型的泛化能力。

【技术实现步骤摘要】

本申请涉及多模态数据处理领域,尤其涉及一种多模态数据集的构建方法、装置及存储介质


技术介绍

1、当前,多模态大模型的预训练需要大量的图文音数据对来提高模型的性能和泛化性。然而,获取高质量的图文音数据对是一项具有挑战性的任务。现有的图文清洗方法是利用cn_clip模型,将image-text对当做一个整体,基于对比学习的方法,模型训练时尽可能地提高image与对应text的特征相似度,尽可能的降低image与不配对text的相似度,从而来训练一个通用的视觉语义模型。通过计算clip分数,从而判断图文的匹配程度,进而清洗出脏数据。上述这种图文清洗方法存在过拟合风险,尽管clip可以在没有大规模标记数据的情况下学习,但在特定任务上,如果没有足够多样化和代表性的数据,仍然存在过拟合的风险。上述图文数据清洗方法还存在数据偏见,由于clip是从大量的互联网文本和图像数据中学习的,因此可能受到这些数据的偏见影响,导致对某些群体或概念的不公平偏见。再次,互联网采集的图文数据,包含图片是高质量,但是文字可能包含广告、url等与图片内容无关的信息,仅仅是依靠clip模型做清本文档来自技高网...

【技术保护点】

1.一种多模态数据集的构建方法,其步骤如下:

2.根据权利要求1所述的多模态数据集构建方法,步骤S1筛选出高质量的图片是从已经下载的图文对中,筛选出高质量图文数据集,筛选的规则如下:过滤小于5KB的图片;过滤长/宽或者宽/长比大于3的图片;过滤长或宽小于512px的图片;通过水印检测工具,过滤水印分数大于0.5的图片;通过NSFW不适应公开内容检测工具,过滤分数大于0.5的图片。

3.根据权利要求1所述的多模态数据集构建方法,步骤S2中,采用基于大语言模型的视觉模型,生成图片的描述。

4.根据权利要求1所述的多模态数据集构建方法,步骤S3中,采用CLI...

【技术特征摘要】

1.一种多模态数据集的构建方法,其步骤如下:

2.根据权利要求1所述的多模态数据集构建方法,步骤s1筛选出高质量的图片是从已经下载的图文对中,筛选出高质量图文数据集,筛选的规则如下:过滤小于5kb的图片;过滤长/宽或者宽/长比大于3的图片;过滤长或宽小于512px的图片;通过水印检测工具,过滤水印分数大于0.5的图片;通过nsfw不适应公开内容检测工具,过滤分数大于0.5的图片。

3.根据权利要求1所述的多模态数据集构建方法,步骤s2中,采用基于大语言模型的视觉模型,生成图片的描述。

4.根据权利要求1所述的多模态数据集构建方法,步骤s3中,采用clip score评估生成的描述与图片的相似度,如果相似度较低,返回步骤s2重新生成图片的描述,直到生成的描述与图片的相似度达到规定的得分。

5.根据权利要求1所述的多模态数据集构建方法,步骤s4中使用音频模型,把步骤...

【专利技术属性】
技术研发人员:朱贵波易东义王金桥易东
申请(专利权)人:武汉人工智能研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1