一种基于多模态一致性检测的智能数据增广与清洗系统及方法技术方案

技术编号:45577004 阅读:19 留言:0更新日期:2025-06-20 21:58
本发明专利技术涉及数据处理技术领域,具体为一种基于多模态一致性检测的智能数据增广与清洗系统及方法,包括以下步骤:多模态数据生成;多模态一致性检测;数据清洗与异常检测;智能辅助标注;质量控制与反馈优化;合规与数据溯源管理;有益效果为:通过生成对抗网络(GAN)、变分自编码器(VAE)和跨模态特征融合技术,生成语义一致的多模态数据(如图像‑文本对、图像‑音频对),确保生成数据在不同模态间的内容匹配。该一致性保障显著提升了多模态数据集的质量,为大模型提供了更加丰富和真实的训练数据,减少了因模态不匹配导致的模型性能下降。

【技术实现步骤摘要】

本专利技术涉及数据处理,具体为一种基于多模态一致性检测的智能数据增广与清洗系统及方法


技术介绍

1、在深度学习和大模型快速发展的背景下,数据质量和多样性已成为提升模型性能的关键因素。特别是在多模态数据的训练中,确保数据的高质量、语义一致性和多样性对模型的准确性、鲁棒性和泛化能力具有重要影响。然而,传统的数据处理方法在应对大规模多模态数据集的生成、清洗和一致性维护时面临诸多技术挑战。

2、当前的数据增广方法主要依赖于图像增强、文本同义词替换等单模态处理技术,难以满足多模态数据一致性需求。例如,在图像-文本或音频-图像等多模态对中,仅针对某一模态进行增广可能会导致模态间语义不一致,从而降低数据集的质量。此外,现有的生成对抗网络(gan)、变分自编码器(vae)等生成模型虽然可以生成多样化的数据,但难以有效保证不同模态间的一致性和相关性。

3、在数据清洗方面,传统异常检测方法通常基于孤立森林(isolation forest)或单类支持向量机(one-class svm)等算法,仅能在单模态数据中检测异常值,难以识别多模态数据中的跨模态本文档来自技高网...

【技术保护点】

1.一种基于多模态一致性检测的智能数据增广与清洗系统,其特征在于:所述系统包括:

2.根据权利要求1所述的一种基于多模态一致性检测的智能数据增广与清洗系统,其特征在于:多模态数据生成模块,利用对抗网络GAN生成多模态数据对,对抗网络GAN通过两个神经网络:生成器和判别器的对抗训练生成高质量数据,生成器生成新的图像-文本配对,判别器对生成的数据进行真实性判别,逐步提升生成数据的真实度;采用变分自编码器VAE生成具有多样性的多模态数据,变分自编码器VAE通过潜在空间进行编码和解码,使得生成数据具有多样性并符合真实数据的分布;通过跨模态特征融合,将文本特征嵌入到图像生成过程中,实现...

【技术特征摘要】

1.一种基于多模态一致性检测的智能数据增广与清洗系统,其特征在于:所述系统包括:

2.根据权利要求1所述的一种基于多模态一致性检测的智能数据增广与清洗系统,其特征在于:多模态数据生成模块,利用对抗网络gan生成多模态数据对,对抗网络gan通过两个神经网络:生成器和判别器的对抗训练生成高质量数据,生成器生成新的图像-文本配对,判别器对生成的数据进行真实性判别,逐步提升生成数据的真实度;采用变分自编码器vae生成具有多样性的多模态数据,变分自编码器vae通过潜在空间进行编码和解码,使得生成数据具有多样性并符合真实数据的分布;通过跨模态特征融合,将文本特征嵌入到图像生成过程中,实现不同模态特征的融合,生成图像时,将文本描述的语义信息融入生成图像的内容和细节中,确保生成数据在不同模态上的语义一致性。

3.根据权利要求2所述的一种基于多模态一致性检测的智能数据增广与清洗系统,其特征在于:所述多模态一致性检测模块,基于大模型的特征提取能力,计算图像和文本多模态数据之间的相似性得分,通过训练多模态编码器,使其能够捕捉图像-文本或图像-音频之间的语义关联性,并生成相似性评分,低分的样本将被筛除,以保障数据的多模态一致性;采用时序、空间信息和特征分布,检测模态间上下文一致性,确保数据在同一任务或场景中的合理性。

4.根据权利要求1所述的一种基于多模态一致性检测的智能数据增广与清洗系统,其特征在于:所述数据清洗与异常检测模块,基于isolation forest和one-class svm算法,结合时序和空间信息来检测数据异常,在时间序列数据中,检测并过滤上下文不一致的点,确保异常检测不仅基于单一特征,还综合考虑数据的上下文;通过深度学习和对比学习技术,检测和清洗模态间不一致的数据样本。

5.根据权利要求1所述的一种基于多模态一致性检测的智能数据增广与清洗系统,其特征在...

【专利技术属性】
技术研发人员:贾云强刘明辉李贡岩
申请(专利权)人:浪潮通信信息系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1