一种多模态数据的融合方法、系统及存储介质技术方案

技术编号:36184498 阅读:33 留言:0更新日期:2022-12-31 20:45
本发明专利技术公开了一种多模态数据的融合方法、系统及存储介质,方法包括:获取多模态原始数据;对文本数据进行分词编码操作,结合卷积神经网络提取得到预设维度的文本特征;对语音数据进行端点检测,结合语音特征提取工具包提取得到预设维度的语音特征;对视频数据进行序列化处理,结合循环神经网络提取得到预设维度的视频特征;对文本特征、语音特征和视频特征进行对齐拼接处理,得到预设通道的特征向量;根据特征向量,通过多核分类模型进行线性连接,得到多模态特征分类结果。本发明专利技术能够实现对文本、语音和视觉的多模态数据的统一特征提取和融合,从而促进从单模态数据到多模态数据的分析和应用,可广泛应用于数据处理技术领域。可广泛应用于数据处理技术领域。可广泛应用于数据处理技术领域。

【技术实现步骤摘要】
一种多模态数据的融合方法、系统及存储介质


[0001]本专利技术涉及数据处理
,尤其是一种多模态数据的融合方法、系统及存储介质。

技术介绍

[0002]大数据是多源异构的。在信息技术飞速发展的今天,多模态数据已成为近来数据资源的主要形式,因此通过多模态深度学习模型构建方法,赋予计算机理解多源异构海量数据的能力具有重要价值。
[0003]但是当前的自动深度学习模型自动训练基本都是针对单模态数据的,例如,常规的机器学习模型主要关注处理文本分析、图片分析、语音分析处理。随着多模态技术的发展,将需要处理各种形式的多模式数据,如包含语音的图像、包含文字和图片等模态数据的网页等,多模态的数据的使用为信息挖掘和在知识处理方面,可扩展性、决策、数据融合、分布式体系结构和预测分析方面,还面临数据融合体征提取困难,融合分析等各种挑战。在传统的单模态处理方式,无法准确获取跨模态的数据信息相关性,从而在处理多模态数据时候难以保证准确率。

技术实现思路

[0004]有鉴于此,本专利技术实施例提供一种多模态数据的融合方法、系统及存储介质,能够本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种多模态数据的融合方法,其特征在于,包括:获取多模态原始数据;其中,所述多模态原始数据包括文本数据、语音数据和视频数据;对所述文本数据进行分词编码操作,结合卷积神经网络提取得到预设维度的文本特征;对所述语音数据进行端点检测,结合语音特征提取工具包提取得到预设维度的语音特征;对所述视频数据进行序列化处理,结合循环神经网络提取得到预设维度的视频特征;对所述文本特征、所述语音特征和所述视频特征进行对齐拼接处理,得到预设通道的特征向量;根据所述特征向量,通过多核分类模型进行线性连接,得到多模态特征分类结果;其中,所述多核分类模型的基底的数量与所述预设通道的数量一致。2.根据权利要求1所述的一种多模态数据的融合方法,其特征在于,所述对所述文本数据进行分词编码操作,结合卷积神经网络提取得到预设维度的文本特征,包括:通过word2vec算法对所述文本数据进行分词操作,得到若干单词;对若干所述单词进行one

hot编码操作,得到若干单词向量;对若干所述单词向量进行拼接,得到多通道输入数据;根据所述多通道输入数据,通过卷积神经网络进行特征提取得到预设维度的文本特征。3.根据权利要求2所述的一种多模态数据的融合方法,其特征在于,所述根据所述多通道输入数据,通过卷积神经网络进行特征提取得到预设维度的文本特征,包括:通过卷积神经网络对所述多通道输入数据依次进行卷积处理、最大池化处理、激活处理和全连接处理,得到预设维度的文本特征;其中,所述卷积神经网络包括卷积层、最大池化层、激活函数和全连接层。4.根据权利要求1所述的一种多模态数据的融合方法,其特征在于,所述对所述语音数据进行端点检测,结合语音特征提取工具包提取得到预设维度的语音特征,包括:通过断电检测算法,对所述语音数据进行端点检测,确定目标音频片段;在预设参数下,通过openSMILE工具包对所述目标音频片段进行特征提取,得到特征集;对所述特征集进行数据融合,得到预设维度的音频特征。5.根据权利要求1所述的一种多模态数据的融合方法,其特征...

【专利技术属性】
技术研发人员:鲍尚策刘立峰刁海峰于晓涛母健康王文重张建军
申请(专利权)人:珠海高凌信息科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1