【技术实现步骤摘要】
一种多模态数据的融合方法、系统及存储介质
[0001]本专利技术涉及数据处理
,尤其是一种多模态数据的融合方法、系统及存储介质。
技术介绍
[0002]大数据是多源异构的。在信息技术飞速发展的今天,多模态数据已成为近来数据资源的主要形式,因此通过多模态深度学习模型构建方法,赋予计算机理解多源异构海量数据的能力具有重要价值。
[0003]但是当前的自动深度学习模型自动训练基本都是针对单模态数据的,例如,常规的机器学习模型主要关注处理文本分析、图片分析、语音分析处理。随着多模态技术的发展,将需要处理各种形式的多模式数据,如包含语音的图像、包含文字和图片等模态数据的网页等,多模态的数据的使用为信息挖掘和在知识处理方面,可扩展性、决策、数据融合、分布式体系结构和预测分析方面,还面临数据融合体征提取困难,融合分析等各种挑战。在传统的单模态处理方式,无法准确获取跨模态的数据信息相关性,从而在处理多模态数据时候难以保证准确率。
技术实现思路
[0004]有鉴于此,本专利技术实施例提供一种多模态数据的融合方法、 ...
【技术保护点】
【技术特征摘要】
1.一种多模态数据的融合方法,其特征在于,包括:获取多模态原始数据;其中,所述多模态原始数据包括文本数据、语音数据和视频数据;对所述文本数据进行分词编码操作,结合卷积神经网络提取得到预设维度的文本特征;对所述语音数据进行端点检测,结合语音特征提取工具包提取得到预设维度的语音特征;对所述视频数据进行序列化处理,结合循环神经网络提取得到预设维度的视频特征;对所述文本特征、所述语音特征和所述视频特征进行对齐拼接处理,得到预设通道的特征向量;根据所述特征向量,通过多核分类模型进行线性连接,得到多模态特征分类结果;其中,所述多核分类模型的基底的数量与所述预设通道的数量一致。2.根据权利要求1所述的一种多模态数据的融合方法,其特征在于,所述对所述文本数据进行分词编码操作,结合卷积神经网络提取得到预设维度的文本特征,包括:通过word2vec算法对所述文本数据进行分词操作,得到若干单词;对若干所述单词进行one
‑
hot编码操作,得到若干单词向量;对若干所述单词向量进行拼接,得到多通道输入数据;根据所述多通道输入数据,通过卷积神经网络进行特征提取得到预设维度的文本特征。3.根据权利要求2所述的一种多模态数据的融合方法,其特征在于,所述根据所述多通道输入数据,通过卷积神经网络进行特征提取得到预设维度的文本特征,包括:通过卷积神经网络对所述多通道输入数据依次进行卷积处理、最大池化处理、激活处理和全连接处理,得到预设维度的文本特征;其中,所述卷积神经网络包括卷积层、最大池化层、激活函数和全连接层。4.根据权利要求1所述的一种多模态数据的融合方法,其特征在于,所述对所述语音数据进行端点检测,结合语音特征提取工具包提取得到预设维度的语音特征,包括:通过断电检测算法,对所述语音数据进行端点检测,确定目标音频片段;在预设参数下,通过openSMILE工具包对所述目标音频片段进行特征提取,得到特征集;对所述特征集进行数据融合,得到预设维度的音频特征。5.根据权利要求1所述的一种多模态数据的融合方法,其特征...
【专利技术属性】
技术研发人员:鲍尚策,刘立峰,刁海峰,于晓涛,母健康,王文重,张建军,
申请(专利权)人:珠海高凌信息科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。