System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及多模态数据处理领域,尤其涉及一种多模态数据集的构建方法、装置及存储介质。
技术介绍
1、当前,多模态大模型的预训练需要大量的图文音数据对来提高模型的性能和泛化性。然而,获取高质量的图文音数据对是一项具有挑战性的任务。现有的图文清洗方法是利用cn_clip模型,将image-text对当做一个整体,基于对比学习的方法,模型训练时尽可能地提高image与对应text的特征相似度,尽可能的降低image与不配对text的相似度,从而来训练一个通用的视觉语义模型。通过计算clip分数,从而判断图文的匹配程度,进而清洗出脏数据。上述这种图文清洗方法存在过拟合风险,尽管clip可以在没有大规模标记数据的情况下学习,但在特定任务上,如果没有足够多样化和代表性的数据,仍然存在过拟合的风险。上述图文数据清洗方法还存在数据偏见,由于clip是从大量的互联网文本和图像数据中学习的,因此可能受到这些数据的偏见影响,导致对某些群体或概念的不公平偏见。再次,互联网采集的图文数据,包含图片是高质量,但是文字可能包含广告、url等与图片内容无关的信息,仅仅是依靠clip模型做清洗,会浪费掉许多高质量的图片。
2、现有的文音清洗方法,通过wishper、paraformer等模型把音频文件转换成文字,然后对比模型生成的文字和已有文字的的差异,从而判断文本-音频是否匹配。
3、但是对于图文音三模态数据集,现实中很少存在这样完全匹配的数据集,依靠现有的图文清洗工具和文音清洗工具无法高效的获得图文音三模态数据。
4、本专利
技术实现思路
1、本申请实施例提供一种多模态数据集的构建方法、装置及存储介质,用以解决现有技术中缺少图文音匹配度较好的数据集。
2、第一方面,本申请实施例提供一种多模态数据集构建方法,包括:
3、s1:清洗出高质量图片;
4、s2:输入通过步骤s1得到的图片,使用基于大语言模型的视觉模型,生成图片的描述;
5、s3:评估生成的描述与图片的相似度,如果相似度较低,返回步骤s2重新生成图片的描述,直到生成的描述与图片的相似度达到规定的得分。
6、s4:使用音频模型,把步骤s2生成的图片描述转换成语音,通过评分模型打分,得到满足条件的音频;
7、s5:得到图-文-音三模态高质量数据集。
8、在一些实施例中,评估生成的描述与图片的相似度,如果相似度较低,返回步骤s2重新生成图片的描述,直到生成的描述与图片的相似度达到规定的得分。可以采用clipscore打分,如果生成的描述与图片的clipscore得分较低,可以返回步骤s2,重新生成图片描述,直到满足clipscore得分;
9、在一些实施例中,步骤s4中的音频模型是tts音频模型。
10、在一些实施例中,步骤s4中的评分可以通过cer和mosnet评分。
11、在一些实施例中,步骤s1筛选出高质量的图片是从已经下载的图文对中,筛选出高质量图文数据集,筛选的规则如下:过滤小于5kb的图片;过滤长/宽(或者宽/长)比大于3的图片;过滤长或宽小于512px的图片;通过水印检测工具,过滤水印分数大于0.5的图片;通过nsfw检测工具,过滤分数大于0.5的图片;
12、在一些实施例中,步骤s2生成图片的描述过程可以是首先编写prompt,然后通过prompt生成图像描述,提供五个prompt,依次生成五个图像的描述,计算五个clipscore分数,选取clipscore分数最高的一个;
13、在一些实施例中,步骤s4中采用cer的计算,首先使用paraformer把音频识转成文字,然后计算图片描述和识别出来的文字的cer(保留小于0.05),计算mosnet得分(0-5,保留大于等于4.5)。
14、第二方面,本申请实施例提供一种多模态数据集构建装置,包括:
15、清洗模块,用于清洗出高质量的图片;
16、生成模块,用于生成清洗出的高质量图片的描述;
17、第一评估模块,用于评估生成图片的描述与图片的相似度;
18、重新生成模块,若生成图片的描述与图片的相似度低于规定得分,则用于重新生成图片的描述,直到生成的描述与图片的相似度达到规定的得分;
19、转换模块,用于把生成模块生成的图片描述转换成语音;
20、第二评估模块,用来对转换成的语音进行打分;
21、获取模块,用于获取图文音高质量数据集。
22、第三方面,本申请实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一方面所述的多模态数据集的构建方法。
23、第四方面,本申请实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面所述的多模态数据集的构建方法。
24、第五方面,本申请实施例还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的多模态数据集的构建方法。
25、本申请实施例提供的多模态数据集的构建方法、装置及存储介质,
26、首先清洗出高质量图片;然后对高质量的图片生成图片的描述;评估生成的描述与图片的相似度,如果相似度较低,重新生成图片的描述,直到生成的描述与图片的相似度达到规定的得分;使用音频模型,把生成的图片描述转换成语音,通过评分模型打分,得到满足条件的音频;得到图-文-音三模态高质量数据集。
27、通过本专利技术的获取数据集的方法,获取了高质量的图文音数据集,可以用来提高模型的泛化能力。
本文档来自技高网...【技术保护点】
1.一种多模态数据集的构建方法,其步骤如下:
2.根据权利要求1所述的多模态数据集构建方法,步骤S1筛选出高质量的图片是从已经下载的图文对中,筛选出高质量图文数据集,筛选的规则如下:过滤小于5KB的图片;过滤长/宽或者宽/长比大于3的图片;过滤长或宽小于512px的图片;通过水印检测工具,过滤水印分数大于0.5的图片;通过NSFW不适应公开内容检测工具,过滤分数大于0.5的图片。
3.根据权利要求1所述的多模态数据集构建方法,步骤S2中,采用基于大语言模型的视觉模型,生成图片的描述。
4.根据权利要求1所述的多模态数据集构建方法,步骤S3中,采用CLIP score评估生成的描述与图片的相似度,如果相似度较低,返回步骤S2重新生成图片的描述,直到生成的描述与图片的相似度达到规定的得分。
5.根据权利要求1所述的多模态数据集构建方法,步骤S4中使用音频模型,把步骤S2生成的图片描述转换成语音,通过评分模型打分,得到满足条件的音频;采用的音频模型是TTS音频模型。
6.根据权利要求1所述的多模态数据集构建方法,步骤S4中的评
7.一种多模态数据集的构建装置,其特征在于,包括:清洗模块,用于清洗出高质量的图片;
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述多模态数据集的构建方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述多模态数据集的构建方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的多模态数据集构建方法。
...【技术特征摘要】
1.一种多模态数据集的构建方法,其步骤如下:
2.根据权利要求1所述的多模态数据集构建方法,步骤s1筛选出高质量的图片是从已经下载的图文对中,筛选出高质量图文数据集,筛选的规则如下:过滤小于5kb的图片;过滤长/宽或者宽/长比大于3的图片;过滤长或宽小于512px的图片;通过水印检测工具,过滤水印分数大于0.5的图片;通过nsfw不适应公开内容检测工具,过滤分数大于0.5的图片。
3.根据权利要求1所述的多模态数据集构建方法,步骤s2中,采用基于大语言模型的视觉模型,生成图片的描述。
4.根据权利要求1所述的多模态数据集构建方法,步骤s3中,采用clip score评估生成的描述与图片的相似度,如果相似度较低,返回步骤s2重新生成图片的描述,直到生成的描述与图片的相似度达到规定的得分。
5.根据权利要求1所述的多模态数据集构建方法,步骤s4中使用音频模型,把步骤...
【专利技术属性】
技术研发人员:朱贵波,易东义,王金桥,易东,
申请(专利权)人:武汉人工智能研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。