一种多模态数据的融合方法、系统及存储介质技术方案

技术编号：36184498 阅读：33 留言：0更新日期：2022-12-31 20:45

本发明专利技术公开了一种多模态数据的融合方法、系统及存储介质，方法包括：获取多模态原始数据；对文本数据进行分词编码操作，结合卷积神经网络提取得到预设维度的文本特征；对语音数据进行端点检测，结合语音特征提取工具包提取得到预设维度的语音特征；对视频数据进行序列化处理，结合循环神经网络提取得到预设维度的视频特征；对文本特征、语音特征和视频特征进行对齐拼接处理，得到预设通道的特征向量；根据特征向量，通过多核分类模型进行线性连接，得到多模态特征分类结果。本发明专利技术能够实现对文本、语音和视觉的多模态数据的统一特征提取和融合，从而促进从单模态数据到多模态数据的分析和应用，可广泛应用于数据处理技术领域。可广泛应用于数据处理技术领域。可广泛应用于数据处理技术领域。

全部详细技术资料下载

【技术实现步骤摘要】
一种多模态数据的融合方法、系统及存储介质

[0001]本专利技术涉及数据处理
，尤其是一种多模态数据的融合方法、系统及存储介质。

技术介绍

[0002]大数据是多源异构的。在信息技术飞速发展的今天，多模态数据已成为近来数据资源的主要形式，因此通过多模态深度学习模型构建方法，赋予计算机理解多源异构海量数据的能力具有重要价值。
[0003]但是当前的自动深度学习模型自动训练基本都是针对单模态数据的，例如，常规的机器学习模型主要关注处理文本分析、图片分析、语音分析处理。随着多模态技术的发展，将需要处理各种形式的多模式数据，如包含语音的图像、包含文字和图片等模态数据的网页等，多模态的数据的使用为信息挖掘和在知识处理方面，可扩展性、决策、数据融合、分布式体系结构和预测分析方面，还面临数据融合体征提取困难，融合分析等各种挑战。在传统的单模态处理方式，无法准确获取跨模态的数据信息相关性，从而在处理多模态数据时候难以保证准确率。

技术实现思路

[0004]有鉴于此，本专利技术实施例提供一种多模态数据的融合方法、...

【技术保护点】

【技术特征摘要】
1.一种多模态数据的融合方法，其特征在于，包括：获取多模态原始数据；其中，所述多模态原始数据包括文本数据、语音数据和视频数据；对所述文本数据进行分词编码操作，结合卷积神经网络提取得到预设维度的文本特征；对所述语音数据进行端点检测，结合语音特征提取工具包提取得到预设维度的语音特征；对所述视频数据进行序列化处理，结合循环神经网络提取得到预设维度的视频特征；对所述文本特征、所述语音特征和所述视频特征进行对齐拼接处理，得到预设通道的特征向量；根据所述特征向量，通过多核分类模型进行线性连接，得到多模态特征分类结果；其中，所述多核分类模型的基底的数量与所述预设通道的数量一致。2.根据权利要求1所述的一种多模态数据的融合方法，其特征在于，所述对所述文本数据进行分词编码操作，结合卷积神经网络提取得到预设维度的文本特征，包括：通过word2vec算法对所述文本数据进行分词操作，得到若干单词；对若干所述单词进行one
‑
hot编码操作，得到若干单词向量；对若干所述单词向量进行拼接，得到多通道输入数据；根据所述多通道输入数据，通过卷积神经网络进行特征提取得到预设维度的文本特征。3.根据权利要求2所述的一种多模态数据的融合方法，其特征在于，所述根据所述多通道输入数据，通过卷积神经网络进行特征提取得到预设维度的文本特征，包括：通过卷积神经网络对所述多通道输入数据依次进行卷积处理、最大池化处理、激活处理和全连接处理，得到预设维度的文本特征；其中，所述卷积神经网络包括卷积层、最大池化层、激活函数和全连接层。4.根据权利要求1所述的一种多模态数据的融合方法，其特征在于，所述对所述语音数据进行端点检测，结合语音特征提取工具包提取得到预设维度的语音特征，包括：通过断电检测算法，对所述语音数据进行端点检测，确定目标音频片段；在预设参数下，通过openSMILE工具包对所述目标音频片段进行特征提取，得到特征集；对所述特征集进行数据融合，得到预设维度的音频特征。5.根据权利要求1所述的一种多模态数据的融合方法，其特征...

【专利技术属性】
技术研发人员：鲍尚策，刘立峰，刁海峰，于晓涛，母健康，王文重，张建军，
申请(专利权)人：珠海高凌信息科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人