【技术实现步骤摘要】
基于多模态深度学习的文本分类方法、设备及存储介质
[0001]本专利技术涉及计算机
,具体地涉及一种基于多模态深度学习的文本分类方法、设备及存储介质。
技术介绍
[0002]随着多模态深度学习技术的应用落地,目前智能冰箱与用户交互的大多数是语音和文本数据,不但基于视频数据的交互方式微乎其微,而且传统方法就冰箱智能语音与视频普遍存在如下问题:特征提取不准确和不充分,导致语音识别精度、视频内容的文本分类准确率偏低,从而影响冰箱音视频的用户使用效果,甚至影响高端冰箱的智能化和信息化程度。
[0003]因此,如何借助多通道多尺寸深度卷积神经网络模型构建冰箱音视频生成文本分类模型成为文本分类准确率提高的关键技术。而智能冰箱交互离不开语音、文本、视频等多源异构数据,故针对所述多源异构数据如何基于多模态或跨模态数据实现最优的特征信息提取方法,从而优化智能冰箱音视频生成文本分类准确率进而提升冰箱使用的体验效果,目前业界尚未提出较为有效的解决方案。
技术实现思路
[0004]本专利技术的目的在于提供一种基于多模态深度学习的文本分类方法、设备及存储介质。
[0005]本专利技术提供种基于多模态深度学习的生成文本分类方法,包括步骤:
[0006]获取实时音视频数据和历史音视频数据;对所述实时音视频数据和历史音视频数据进行预处理,获取有效的语音数据和视频数据;转写所述有效语音数据为语音文本数据;获取所述有效视频数据中局部区域的视频图像,并转写所述视频图像为图像文本数据;根据所述语音文本数据和图像 ...
【技术保护点】
【技术特征摘要】
1.一种基于多模态深度学习的文本分类方法,其特征在于,包括步骤:获取实时音视频数据和历史音视频数据;对所述实时音视频数据和历史音视频数据进行预处理,获取有效的语音数据和视频数据;转写所述有效语音数据为语音文本数据;获取所述有效视频数据中局部区域的视频图像,并转写所述视频图像为图像文本数据;根据所述语音文本数据和图像文本数据,获取该文本数据的上下文信息和文本语义特征的权重信息;将所述上下文信息和权重信息经全连接层组合后,输出至分类器计算得分得到分类结果信息,并判断所述音视频数据生成文本的类别信息;输出所述生成文本的类别信息。2.根据权利要求1所述的基于多模态深度学习的文本分类方法,其特征在于,所述“对所述实时音视频数据和历史音视频数据进行预处理,获取有效的语音数据和视频数据”,具体包括:对所述实时音视频数据和历史音视频数据进行数据清洗、格式解析、格式转换和数据存储,获得有效的音视频数据;采用脚本或第三方工具将所述有效音视频数据进行语音和视频分离,以获得所述语音数据和视频数据;对所述语音数据和视频数据进行预处理,包括:对所述语音数据进行分帧和加窗处理,对所述视频数据进行裁剪、分帧处理。3.根据权利要求1所述的基于多模态深度学习的文本分类方法,其特征在于,所述“转写所述有效语音数据为语音文本数据”,具体包括:提取所述有效语音数据特征,得到语音特征;将所述语音特征输入语音识别多通道多尺寸深度卷积神经网络模型转写得到第一语音文本数据;基于连接时序分类方法输出所述语音特征和所述第一语音文本数据的对齐关系,以得到第二语音文本数据;基于注意力机制,获取所述第二语音文本数据的关键特征或所述关键特征的权重信息;将所述第二语音文本数据以及其关键特征或关键特征的权重信息经全连接层组合后,再经过分类函数计算得分得到所述语音文本数据。4.根据权利要求3所述的基于多模态深度学习的文本分类方法,其特征在于,所述“提取所述有效语音数据特征”,具体包括:提取所述有效语音数据特征,获取其梅尔频率倒谱系数特征。5.根据权利要求1所述的基于多模态深度学习的文本分类方法,其特征在于,所述“获取所述有效视频数据中局部区域的视频图像,并转写所述视频图像为图像文本数据”,具体包括:根据所述视频数据,获取嘴唇区域的视频图像;
将所述嘴唇区域的视频图像输入3D卷积神经网络模型计算,得到图像特征;基于图像唇语识别方法,将所述图像特征输入多通道多尺寸时间深度卷积神经网络模型转写,获得第一图像文本数据;基于连接时序分类方法输出所述图像特征和所述第一图像文本数据的对齐关系,以得到第二图像文本数据;将所述第二图像文本数据经全连接层组合后,再经过分类函数计算得分得到所述图像文本数据。6.根据权利要求5所述的基于多模态深度学习的文本分类方法,其特征在于,所述“将所述嘴唇区域的视频图像输入3D卷积神经网络模型计算,得到图像特征”,具体包括:对嘴唇局部视频数据分割成连续嘴唇图片帧;将所述连续嘴唇图片帧输入3D卷积神经网络模型计算,提取多种特征,得到所述图像特征。7.根据权利要求6所述的基于多模态深度学习的文本分类方法,其特征在于,所述“基于图像唇语识别方法,将所述图像特征输入多通道多尺寸时间深度卷积神经网络模型转写,获得第一图像文本数据”,具体包括:将所述图像特征输入所述多通道多尺寸时间深度卷积神经网络计算,得到时序图像特征;根据所述图像唇语识别方法,将所述时序图像特征映射为拼音语句的拼音序列;再将所述拼音序列翻译为对应汉字语句的汉字序列。8.根据权利要求1所述的基于多模态深度学习的文本分类方...
【专利技术属性】
技术研发人员:李华刚,曾谁飞,孔令磊,张景瑞,李敏,刘卫强,
申请(专利权)人:海尔智家股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。