【技术实现步骤摘要】
本专利技术涉及计算机,尤其涉及一种基于文本局部和全局相似度过滤的数据清洗方法及装置。
技术介绍
1、由于真实标注以及高质量图文对数据的匮乏,现在很多的研究者利用现有的多模态大语言模型来构造大规模高质量的图文数据集,但这些模型生成的内容普遍存在幻觉问题(例如:生成图像中没有的内容),直接使用这些生成的数据来训练模型,则会严重影响这些模型的性能。所以在生成文本内容之后还会利用多模态模型clip计算图文相似度或者一些规则来过滤低质量的样本,最后保留质量较高的样本用于模型训练。
2、现有的数据清洗方法有如下缺点:1)现有的数据清洗方法往往计算的是整个文本和图像的相似度,而生成的幻觉内容有时只占文本的一小部分,这种计算相似度的方式很容易忽略掉幻觉内容;2)生成的文本内容很多为长文本内容,而用于相似度估计的clip模型往往支持的都是短文本,直接使用clip计算相似度会导致模型只关注生成文本中的一部分有效内容。
技术实现思路
1、本专利技术提供一种基于文本局部和全局相似度过滤的数据清洗方法及
...【技术保护点】
1.一种基于文本局部和全局相似度过滤的数据清洗的方法,其特征在于,具体包括如下步骤:
2.根据权利要求1所述的一种基于文本局部和全局相似度过滤的数据清洗的方法,其特征在于,步骤S2中,所述预处理包括对长文本B的内容基于规则进行去重处理和去除重复前缀处理,形成预处理后的长文本C。
3.根据权利要求1所述的一种基于文本局部和全局相似度过滤的数据清洗的方法,其特征在于,步骤S4中,所述CLIP模型包括图像编码器和文本编码器;其中,所述图像特征E通过所述图像A和所述CLIP模型的图像编码器形成;所述文本特征F通过所述长文本C、所述文本D和所述CLIP模
...【技术特征摘要】
1.一种基于文本局部和全局相似度过滤的数据清洗的方法,其特征在于,具体包括如下步骤:
2.根据权利要求1所述的一种基于文本局部和全局相似度过滤的数据清洗的方法,其特征在于,步骤s2中,所述预处理包括对长文本b的内容基于规则进行去重处理和去除重复前缀处理,形成预处理后的长文本c。
3.根据权利要求1所述的一种基于文本局部和全局相似度过滤的数据清洗的方法,其特征在于,步骤s4中,所述clip模型包括图像编码器和文本编码器;其中,所述图像特征e通过所述图像a和所述clip模型的图像编码器形成;所述文本特征f通过所述长文本c、所述文本d和所述clip模型的文本编码器形成。
4.根据权利要求1所述的一种基于文本局部和全局相似度过滤的数据清洗的方法,其特征在于,步骤s5中,所述归一化处理包括l2归一化处理,具体公式表示如下所示:
5.根据权利要求1所述的一种基于文本局部和全局相似度过滤的数据清洗的方法,其特征在于,步骤s6中,通过所述归一化处理后的图像特征g和所述归一化处理后的文本特征h之间进行点乘,形成图像a和文本c中的每个文本...
【专利技术属性】
技术研发人员:刘邦贵,
申请(专利权)人:上海岩芯数智人工智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。