数据空间中基于语义增强的多模态嵌入表示学习方法技术

技术编号:45989829 阅读:9 留言:0更新日期:2025-08-01 18:49
本发明专利技术提出了基于语义增强的多模态嵌入表示学习方法,属于多模态数据处理领域,首先获取多模态文本、图像、视频和音频数据,并进行数据预处理,完成格式转换和归一化处理;然后提取处理后的文本、图像和音频数据中的特征,生成初始模态嵌入表示;通过对图像、视频和音频数据引入语义增强策略,增强多模态间的语义一致性,生成统一的多模态向量表示;对嵌入表示进行归一化,确保各模态在统一向量空间内的语义一致性;本发明专利技术通过引入视频关键帧提取、图像光学字符识别和音频语音转文字技术,进一步增强了多模态数据间的语义补充,优化了嵌入表示的分布,从而提升了多模态信息的嵌入表示学习效果。

【技术实现步骤摘要】

本专利技术属于多模态数据处理领域,具体地,涉及数据空间中基于语义增强的多模态嵌入表示学习方法


技术介绍

1、随着人工智能技术的发展,尤其是计算机视觉、语音识别、自然语言处理等领域的突破,多模态学习逐渐成为一种重要的研究方向。多模态学习旨在通过融合文本、图像、视频和音频等不同模态的数据,提高对复杂数据的理解能力和决策能力。在多模态学习的过程中,一个核心问题是如何将来自不同模态的数据转化为统一的表示,以便于后续的分析和处理。

2、近年来,数据空间作为一种新兴的数据管理和共享概念已引起广泛关注,它提供了一种标准化的数据存储、组织和访问方式,使不同来源、不同格式的数据能够被高效整合和利用。在数据空间中,多模态数据可以以结构化或非结构化的形式存储,并通过统一的语义描述进行标注,从而支持更高效的多模态数据融合与表示学习。现有传统的多模态学习方法通常依赖于不同模态的单独表示,并通过某些形式的对齐技术进行融合。然而,这些方法仍面临一些挑战。

3、一是模态间的语义不一致性。不同模态的数据(如文本、图像、音频、视频等)通常采用不同的表示方式,处于不同本文档来自技高网...

【技术保护点】

1.数据空间中基于语义增强的多模态嵌入表示学习方法,其特征在于:

2.根据权利要求1所述方法,其特征在于:

3.根据权利要求2所述方法,其特征在于:在步骤2中,在提取特征之前需要先训练CLIP模型和VGGish模型;

4.根据权利要求3所述方法,其特征在于:VGGish模型的预训练过程为:

5.根据权利要求4所述方法,其特征在于:在步骤2中,

6.根据权利要求5所述方法,其特征在于:在步骤3中,包括:

7.根据权利要求6所述方法,其特征在于:在步骤4中,包括:

8.一种用于执行如权利要求1至7中任意一项所...

【技术特征摘要】

1.数据空间中基于语义增强的多模态嵌入表示学习方法,其特征在于:

2.根据权利要求1所述方法,其特征在于:

3.根据权利要求2所述方法,其特征在于:在步骤2中,在提取特征之前需要先训练clip模型和vggish模型;

4.根据权利要求3所述方法,其特征在于:vggish模型的预训练过程为:

5.根据权利要求4所述方法,其特征在于:在步骤2中,

6.根据权利要求5所述方法,其特征在于:在步骤3中,包括:

7.根据权利...

【专利技术属性】
技术研发人员:韩启龙李丽洁乔天於志文宋洪涛
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1