一种基于文本局部和全局相似度过滤的数据清洗方法及装置制造方法及图纸

技术编号：43967815 阅读：27 留言：0更新日期：2025-01-10 19:57

本发明专利技术提出了一种基于文本局部和全局相似度过滤的数据清洗方法及装置，解决了现有技术中只考虑全局信息、并且CLIP模型对长文本兼容性差的问题。该方案考虑完整文本和图像内容的相似度以及文本内每句话和图像内容的相似度，可以有效的过滤掉生成文本中属于幻觉的内容。同时将文本内容拆分成短句后，也刚好兼容CLIP能够比较好的处理短文本的能力。首先利用CLIP模型中的视觉编码器和文本编码器分别对图像和拆分后的文本进行编码，得到全局图像特征和局部文本特征。然后计算图像特征和每个文本特征的相似度。将相似度低于阈值的句子从文本中过滤掉，剩下的句子继续组成完整文本，最终得到生成的、高质量的、低幻觉的图文对数据。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机，尤其涉及一种基于文本局部和全局相似度过滤的数据清洗方法及装置。

技术介绍

1、由于真实标注以及高质量图文对数据的匮乏，现在很多的研究者利用现有的多模态大语言模型来构造大规模高质量的图文数据集，但这些模型生成的内容普遍存在幻觉问题(例如：生成图像中没有的内容)，直接使用这些生成的数据来训练模型，则会严重影响这些模型的性能。所以在生成文本内容之后还会利用多模态模型clip计算图文相似度或者一些规则来过滤低质量的样本，最后保留质量较高的样本用于模型训练。

2、现有的数据清洗方法有如下缺点：1）现有的数据清洗方法往往计算的是整个文本和图像的相似度，而生成的幻觉内容有时只占文本的一小部分，这种计算相似度的方式很容易忽略掉幻觉内容；2）生成的文本内容很多为长文本内容，而用于相似度估计的clip模型往往支持的都是短文本，直接使用clip计算相似度会导致模型只关注生成文本中的一部分有效内容。

技术实现思路

1、本专利技术提供一种基于文本局部和全局相似度过滤的数据清洗方法及...

【技术保护点】

1.一种基于文本局部和全局相似度过滤的数据清洗的方法，其特征在于，具体包括如下步骤：

2.根据权利要求1所述的一种基于文本局部和全局相似度过滤的数据清洗的方法，其特征在于，步骤S2中，所述预处理包括对长文本B的内容基于规则进行去重处理和去除重复前缀处理，形成预处理后的长文本C。

3.根据权利要求1所述的一种基于文本局部和全局相似度过滤的数据清洗的方法，其特征在于，步骤S4中，所述CLIP模型包括图像编码器和文本编码器；其中，所述图像特征E通过所述图像A和所述CLIP模型的图像编码器形成；所述文本特征F通过所述长文本C、所述文本D和所述CLIP模型的文本编码器形成。...

【技术特征摘要】

1.一种基于文本局部和全局相似度过滤的数据清洗的方法，其特征在于，具体包括如下步骤：

2.根据权利要求1所述的一种基于文本局部和全局相似度过滤的数据清洗的方法，其特征在于，步骤s2中，所述预处理包括对长文本b的内容基于规则进行去重处理和去除重复前缀处理，形成预处理后的长文本c。

3.根据权利要求1所述的一种基于文本局部和全局相似度过滤的数据清洗的方法，其特征在于，步骤s4中，所述clip模型包括图像编码器和文本编码器；其中，所述图像特征e通过所述图像a和所述clip模型的图像编码器形成；所述文本特征f通过所述长文本c、所述文本d和所述clip模型的文本编码器形成。

4.根据权利要求1所述的一种基于文本局部和全局相似度过滤的数据清洗的方法，其特征在于，步骤s5中，所述归一化处理包括l2归一化处理，具体公式表示如下所示：

5.根据权利要求1所述的一种基于文本局部和全局相似度过滤的数据清洗的方法，其特征在于，步骤s6中，通过所述归一化处理后的图像特征g和所述归一化处理后的文本特征h之间进行点乘，形成图像a和文本c中的每个文本...

【专利技术属性】
技术研发人员：刘邦贵，
申请(专利权)人：上海岩芯数智人工智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人