一种多模态数据处理方法及终端技术

技术编号:38706768 阅读:16 留言:0更新日期:2023-09-08 14:47
本发明专利技术提供的一种多模态数据处理方法及终端,文本数据通过符号表转换为文本编码,同时将图像数据转换为指纹数据后,将指纹数据通过符号表转换为图像编码,使得图像数据转换为符号形式进行嵌入,从而实现图像数据与文本数据形成统一的符号模态。同时本发明专利技术无需对不同的模态数据构建不同的数据处理通道,可实现混合数据的输入,降低数据处理成本,并且采用感知哈希算法可以直接提取图像数据的指纹数据,无需进行额外的卷积训练,实现即插即用,提高预训练效率。预训练效率。预训练效率。

【技术实现步骤摘要】
一种多模态数据处理方法及终端


[0001]本专利技术涉及人工智能领域,尤其涉及一种多模态数据处理方法及终端。

技术介绍

[0002]目前,多模态信息嵌入实现预训练的方法包括多种,例如:CLIP(Contrastive Language

Image Pre

training,一种基于对比文本

图像对的预训练模型)采用模态对齐方式实现预训练;GPT(Generative Pre

Training,一种基于深度学习的自然语言处理模型)预测下一个词的方式实现预训练;BERT(Bidirectional Encoder Representations from Transformers,一种基于双向Transformer构建的语言模型)采用随机遮罩单词方式进行预训练。其中,现有的图像模态嵌入方法一般采用卷积方式。图像模态通过transformer模型(一种神经网络)并采用卷积方式提取嵌入特征。但是,目前基于卷积方式嵌入的特征与符号嵌入的特征在transformer模型的结构不一致,由于transformer模型是被设计为对词的关系的学习,而在卷积方式中并没有将图像作为一个符号,因此造成图像向量特征与符号嵌入特征不一致的问题。而且传统的嵌入方法需要对输入的文本和图像进行独立处理,即文本和图像分别输入到两个不同模态的网络里进行处理后进行对齐。此外,传统的图像模态嵌入方法需要对区域特征的提取网络进行训练,而文字模态不需要,可直接将符号输入到嵌入网络中进行学习,造成图像模态和文字模态处理效率不同步,影响预训练效率。

技术实现思路

[0003]本专利技术所要解决的技术问题是:提供一种多模态数据处理方法及终端,实现图像模态特征与文本模态特征的一致性,同时保证图像模态和文本模态训练模型的统一性。
[0004]为了解决上述技术问题,本专利技术采用的技术方案为:
[0005]一种多模态数据处理方法,包括步骤:
[0006]获取混合数据,所述混合数据包括图像数据以及文本数据;
[0007]根据预设的符号表获取所述文本数据对应的文本编码;
[0008]将所述图像数据输入感知哈希算法得到指纹数据,并根据所述符号表获取所述指纹数据对应的图像编码;
[0009]将所述文本编码与所述图像编码合并处理后输入嵌入层网络进行维度变换,得到嵌入特征。
[0010]为了解决上述技术问题,本专利技术采用的另一种技术方案为:
[0011]一种多模态数据处理终端,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0012]获取混合数据,所述混合数据包括图像数据以及文本数据;
[0013]根据预设的符号表获取所述文本数据对应的文本编码;
[0014]将所述图像数据输入感知哈希算法得到指纹数据,并根据所述符号表获取所述指
纹数据对应的图像编码;
[0015]将所述文本编码与所述图像编码合并处理后输入嵌入层网络进行维度变换,得到嵌入特征。
[0016]本专利技术的有益效果在于:文本数据通过符号表转换为文本编码,同时将图像数据转换为指纹数据后,将指纹数据通过符号表转换为图像编码,使得图像数据转换为符号形式进行嵌入,从而实现图像数据与文本数据形成统一的符号模态。同时本专利技术无需对不同的模态数据构建不同的数据处理通道,可实现混合数据的输入,降低数据处理成本,并且采用感知哈希算法可以直接提取图像数据的指纹数据,无需进行额外的卷积训练,实现即插即用,提高预训练效率。
附图说明
[0017]图1为本专利技术实施例提供的一种多模态数据处理方法的步骤流程图;
[0018]图2为本专利技术实施例提供的一种多模态数据处理方法的程序流程图;
[0019]图3为本专利技术实施例提供的一种感知哈希算法的程序流程图;
[0020]图4为本专利技术实施例提供的一种多模态数据处理终端的结构示意图;
[0021]标号说明:
[0022]201、存储器;202、处理器。
具体实施方式
[0023]为详细说明本专利技术的
技术实现思路
、所实现目的及效果,以下结合实施方式并配合附图予以说明。
[0024]请参照图1,本专利技术实施例提供的一种多模态数据处理方法,包括步骤:
[0025]获取混合数据,所述混合数据包括图像数据以及文本数据;
[0026]根据预设的符号表获取所述文本数据对应的文本编码;
[0027]将所述图像数据输入感知哈希算法得到指纹数据,并根据所述符号表获取所述指纹数据对应的图像编码;
[0028]将所述文本编码与所述图像编码合并处理后输入嵌入层网络进行维度变换,得到嵌入特征。
[0029]从上述描述可知,本专利技术的有益效果在于:文本数据通过符号表转换为文本编码,同时将图像数据转换为指纹数据后,将指纹数据通过符号表转换为图像编码,使得图像数据转换为符号形式进行嵌入,从而实现图像数据与文本数据形成统一的符号模态。同时本专利技术无需对不同的模态数据构建不同的数据处理通道,可实现混合数据的输入,降低数据处理成本,并且采用感知哈希算法可以直接提取图像数据的指纹数据,无需进行额外的卷积训练,实现即插即用,提高预训练效率。
[0030]进一步的,所述符号表包括文字符号名称与第一编码;
[0031]所述根据预设的符号表获取所述文本数据对应的文本编码包括:
[0032]根据所述文本数据中每一个文字对所述文字符号名称进行检索,确定每一个所述文字对应的第一编码,并将所述文本数据对应的所有第一编码以数组格式进行存储,得到文本编码。
[0033]由上述描述可知,将文本数据中的每一个文字获取对应的编码,从而转换为文本编码,使得原本的自然语言转换为可供计算机识别的数字语言,从而便于后续多模态预训练的处理,同时使得文本数据的嵌入形式与图像数据的嵌入形式能够实现统一。
[0034]进一步的,所述符号表包括图像哈希符号名称与第二编码;
[0035]所述将所述图像数据输入感知哈希算法得到指纹数据,并根据所述符号表获取所述指纹数据对应的图像编码包括:
[0036]将所述图像数据进行预处理,得到多个待处理图像;
[0037]将所述多个待处理图像分别输入感知哈希算法得到多个指纹数据;
[0038]将所述多个指纹数据分别转换为字符数据,根据所述字符数据中每一个字符对所述图像哈希符号名称进行检索,确定每一个所述字符数据对应的第二编码,并将所述第二编码以数组格式进行存储,得到图像编码。
[0039]由上述描述可知,通过将所述图像数据输入感知哈希算法后得到指纹数据,并通过预设的符号表将指纹数据转换为符号数据,使得图像数据与文本数据的模态一致化,从而实现图像模态与文本模态训练模型的统一,为后续大规模预训练提供了技术支撑,也为模型下游任务提供了更复杂的模型上下文能力。...

【技术保护点】

【技术特征摘要】
1.一种多模态数据处理方法,其特征在于,包括步骤:获取混合数据,所述混合数据包括图像数据以及文本数据;根据预设的符号表获取所述文本数据对应的文本编码;将所述图像数据输入感知哈希算法得到指纹数据,并根据所述符号表获取所述指纹数据对应的图像编码;将所述文本编码与所述图像编码合并处理后输入嵌入层网络进行维度变换,得到嵌入特征。2.根据权利要求1所述的一种多模态数据处理方法,其特征在于,所述符号表包括文字符号名称与第一编码;所述根据预设的符号表获取所述文本数据对应的文本编码包括:根据所述文本数据中每一个文字对所述文字符号名称进行检索,确定每一个所述文字对应的第一编码,并将所述文本数据对应的所有第一编码以数组格式进行存储,得到文本编码。3.根据权利要求1所述的一种多模态数据处理方法,其特征在于,所述符号表包括图像哈希符号名称与第二编码;所述将所述图像数据输入感知哈希算法得到指纹数据,并根据所述符号表获取所述指纹数据对应的图像编码包括:将所述图像数据进行预处理,得到多个待处理图像;将所述多个待处理图像分别输入感知哈希算法得到多个指纹数据;将所述多个指纹数据分别转换为字符数据,根据所述字符数据中每一个字符对所述图像哈希符号名称进行检索,确定每一个所述字符数据对应的第二编码,并将所述第二编码以数组格式进行存储,得到图像编码。4.根据权利要求3所述的一种多模态数据处理方法,其特征在于,所述将所述图像数据进行预处理,得到多个待处理图像具体为:将所述图像数据根据预设比例进行缩放,得到预处理图像;将所述预处理图像根据预设大小进行分割,得到多个待处理图像;所述将所述多个待处理图像分别输入感知哈希算法得到多个指纹数据具体为:将所述待处理图像缩小为预设尺寸,并转换为灰度图像,计算灰度阈值以及所述灰度图像中每一个像素对应的灰度值;将所述灰度值与所述灰度阈值比较,若所述灰度值大于或等于所述灰度阈值,则所述灰度值对应的像素的标记号为1;若所述灰度值小于灰度阈值,则所述灰度值对应的像素的标记号为0,得到所述待处理图像的指纹数据。5.根据权利要求4所述的一种多模态数据处理方法,其特征在于,所述计算灰度阈值具体为:A=0.9A
’×
A

+0.99A

;其中,A为灰度阈值,A

为所述灰度图像的灰度平均值。6.一种多模态数据处理终端,包括存储器、处理器及存储在所述存储器上并...

【专利技术属性】
技术研发人员:郑州钱健黄建业林晨翔刘冰倩吴飞熊嘉丽何德明林国庆周晨曦马腾郭俊武欣欣
申请(专利权)人:国网福建省电力有限公司电力科学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1