基于多模态深度学习的文本分类方法、设备及存储介质技术

技术编号:37564324 阅读:14 留言:0更新日期:2023-05-15 07:45
本发明专利技术公开了一种基于多模态深度学习的文本分类方法,包括以下步骤:获取实时音视频数据和历史音视频数据;对其进行预处理,获取有效的语音数据和视频数据;转写所述有效语音数据为语音文本数据和转写所述视频图像为图像文本数据;根据所述语音文本数据和图像文本数据,获取该文本数据的上下文信息和文本语义特征的权重信息;将所述上下文信息和文本语义特征的权重信息经全连接层组合后,输出至分类器计算得分得到分类结果信息,并判断所述音视频数据生成文本的类别信息;输出所述生成文本的类别信息。该方法有效的提高了音视频生成文本分类的准确率和泛化能力,提升用户的体验效果。果。果。

【技术实现步骤摘要】
基于多模态深度学习的文本分类方法、设备及存储介质


[0001]本专利技术涉及计算机
,具体地涉及一种基于多模态深度学习的文本分类方法、设备及存储介质。

技术介绍

[0002]随着多模态深度学习技术的应用落地,目前智能冰箱与用户交互的大多数是语音和文本数据,不但基于视频数据的交互方式微乎其微,而且传统方法就冰箱智能语音与视频普遍存在如下问题:特征提取不准确和不充分,导致语音识别精度、视频内容的文本分类准确率偏低,从而影响冰箱音视频的用户使用效果,甚至影响高端冰箱的智能化和信息化程度。
[0003]因此,如何借助多通道多尺寸深度卷积神经网络模型构建冰箱音视频生成文本分类模型成为文本分类准确率提高的关键技术。而智能冰箱交互离不开语音、文本、视频等多源异构数据,故针对所述多源异构数据如何基于多模态或跨模态数据实现最优的特征信息提取方法,从而优化智能冰箱音视频生成文本分类准确率进而提升冰箱使用的体验效果,目前业界尚未提出较为有效的解决方案。

技术实现思路

[0004]本专利技术的目的在于提供一种基于多模态深度学习的文本分类方法、设备及存储介质。
[0005]本专利技术提供种基于多模态深度学习的生成文本分类方法,包括步骤:
[0006]获取实时音视频数据和历史音视频数据;对所述实时音视频数据和历史音视频数据进行预处理,获取有效的语音数据和视频数据;转写所述有效语音数据为语音文本数据;获取所述有效视频数据中局部区域的视频图像,并转写所述视频图像为图像文本数据;根据所述语音文本数据和图像文本数据,获取该文本数据的上下文信息和文本语义特征的权重信息;将所述上下文信息和文本语义特征的权重信息经全连接层组合后,输出至分类器计算得分得到分类结果信息,并判断所述音视频数据生成文本的类别信息;输出所述生成文本的类别信息。
[0007]作为本专利技术的进一步改进,所述“对所述实时音视频数据和历史音视频数据进行预处理,获取有效的语音数据和视频数据”,具体包括:对所述实时音视频数据和历史音视频数据进行数据清洗、格式解析、格式转换和数据存储,获得有效的音视频数据;采用脚本或第三方工具将所述有效音视频数据进行语音和视频分离,以获得所述语音数据和视频数据;对所述语音数据和视频数据进行预处理,包括:对所述语音数据进行分帧和加窗处理,对所述视频数据进行裁剪、分帧处理。
[0008]作为本专利技术的进一步改进,所述“转写所述有效语音数据为语音文本数据”,具体包括:提取所述有效语音数据特征,得到语音特征;将所述语音特征输入语音识别多通道多尺寸深度卷积神经网络模型转写得到第一语音文本数据;基于连接时序分类方法输出所述
语音特征和所述第一语音文本数据的对齐关系,以得到第二语音文本数据;基于注意力机制,获取所述第二语音文本数据的关键特征或所述关键特征的权重信息;将所述第二语音文本数据以及其关键特征或关键特征的权重信息经全连接层组合后,再经过分类函数计算得分得到所述语音文本数据。
[0009]作为本专利技术的进一步改进,所述“提取所述有效语音数据特征”,具体包括:提取所述有效语音数据特征,获取其梅尔频率倒谱系数特征。
[0010]作为本专利技术的进一步改进,所述“获取所述视频数据中局部区域视频图像,并转写所述视频图像为图像文本数据”,具体包括:根据所述有效视频数据,获取嘴唇区域的视频图像;将所述嘴唇区域的视频图像输入3D卷积神经网络模型计算,得到图像特征;基于图像唇语识别方法,将所述图像特征输入多通道多尺寸时间深度卷积神经网络模型转写,获得第一图像文本数据;基于连接时序分类方法输出所述语音特征序列和所述第一图像文本数据的对齐关系,以得到第二图像文本数据;将所述第二图像文本数据经全连接层组合后,再经过分类函数计算得分得到所述图像文本数据。
[0011]作为本专利技术的进一步改进,所述“将所述嘴唇区域的视频图像输入3D卷积神经网络模型计算,得到图像特征”,具体包括:对嘴唇局部视频数据分割成连续嘴唇图片帧;将所述连续嘴唇图片帧输入3D卷积神经网络模型计算,提取多种特征,得到所述图像特征。
[0012]作为本专利技术的进一步改进,所述“基于图像唇语识别方法,将所述图像特征输入多通道多尺寸时间深度卷积神经网络模型转写,获得第一图像文本数据”,具体包括:将所述图像特征输入所述多通道多尺寸时间深度卷积神经网络计算,得到时序图像特征;根据所述图像唇语识别方法,将所述时序图像特征映射为拼音语句的拼音序列;再将所述拼音序列翻译为对应汉字语句的汉字序列。
[0013]作为本专利技术的进一步改进,所述“根据所述语音文本数据和图像文本数据,获取该文本数据的上下文信息和文本语义特征的权重信息”,具体包括:将所述语音文本数据和图像文本数据转换为语音文本词向量和图像文本词向量;将所述语音文本词向量和图像文本词向量输入双向长短记忆网络模型,获取包含所述语音文本数据和图像文本数据特征信息的上下文特征向量。
[0014]作为本专利技术的进一步改进,基于注意力机制模型,区分所述语音文本数据和图像文本数据的文本特征中的词、词语的自身权重信息和/或关联权重信息,获得所述文本语义特征的权重信息。
[0015]作为本专利技术的进一步改进,所述“基于注意力机制模型,区分所述语音文本数据和所述图像文本数据的文本特征中的词、词语的自身权重信息和/或关联权重信息”,具体包括:分别将所述语音文本上下文特征向量和所述图像文本上下文特征向量输入自注意力机制和互注意力机制;获取包含所述语音文本语义特征和图像文本语义特征自身权重信息的自身权重文本注意力特征向量;获取包含所述语音文本语义特征和图像文本语义特征关联权重信息的关联权重文本注意力特征向量。
[0016]作为本专利技术的进一步改进,所述“将所述上下文信息和权重信息经全连接层组合后,输出至分类器计算得分得到分类结果信息,并判断所述音视频数据生成文本的类别信息”,具体包括:将所述上下文特征向量和文本注意力权重特征向量经全连接层组合后,输出至分类函数,计算所述语音文本数据和所述图像文本数据文本语义的得分及其归一化得
分结果,得到生成文本的类别信息。
[0017]作为本专利技术的进一步改进,所述“输出所述生成文本的类别信息”,具体包括:将所述生成文本的类别信息转换为语音进行输出,和/或将所述生成文本的类别信息转换为语音传输至客户终端输出,和/或将所述生成文本的类别信息转换为文本进行输出,和/或将所述生成文本的类别信息转换为文本传输至客户终端输出,和/或将所述生成文本的类别信息转换为图像进行输出,和/或将所述生成文本的类别信息转换为图像传输至客户终端输出。
[0018]作为本专利技术的进一步改进,所述“获取实时音视频数据和历史音视频数据”,具体包括:获取语音采集装置所采集的所述实时音视频数据,和/或获取自客户终端传输的所述实时音视频数据;获取内部存储的所述历史音视频数据,和/或获取外部存储的所述历史音视频数据,和/或获取自客户终端传输的所述历史音视频数据。
[0019]作为本专利技术的进一步改进,所述“转写所述语音数据为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模态深度学习的文本分类方法,其特征在于,包括步骤:获取实时音视频数据和历史音视频数据;对所述实时音视频数据和历史音视频数据进行预处理,获取有效的语音数据和视频数据;转写所述有效语音数据为语音文本数据;获取所述有效视频数据中局部区域的视频图像,并转写所述视频图像为图像文本数据;根据所述语音文本数据和图像文本数据,获取该文本数据的上下文信息和文本语义特征的权重信息;将所述上下文信息和权重信息经全连接层组合后,输出至分类器计算得分得到分类结果信息,并判断所述音视频数据生成文本的类别信息;输出所述生成文本的类别信息。2.根据权利要求1所述的基于多模态深度学习的文本分类方法,其特征在于,所述“对所述实时音视频数据和历史音视频数据进行预处理,获取有效的语音数据和视频数据”,具体包括:对所述实时音视频数据和历史音视频数据进行数据清洗、格式解析、格式转换和数据存储,获得有效的音视频数据;采用脚本或第三方工具将所述有效音视频数据进行语音和视频分离,以获得所述语音数据和视频数据;对所述语音数据和视频数据进行预处理,包括:对所述语音数据进行分帧和加窗处理,对所述视频数据进行裁剪、分帧处理。3.根据权利要求1所述的基于多模态深度学习的文本分类方法,其特征在于,所述“转写所述有效语音数据为语音文本数据”,具体包括:提取所述有效语音数据特征,得到语音特征;将所述语音特征输入语音识别多通道多尺寸深度卷积神经网络模型转写得到第一语音文本数据;基于连接时序分类方法输出所述语音特征和所述第一语音文本数据的对齐关系,以得到第二语音文本数据;基于注意力机制,获取所述第二语音文本数据的关键特征或所述关键特征的权重信息;将所述第二语音文本数据以及其关键特征或关键特征的权重信息经全连接层组合后,再经过分类函数计算得分得到所述语音文本数据。4.根据权利要求3所述的基于多模态深度学习的文本分类方法,其特征在于,所述“提取所述有效语音数据特征”,具体包括:提取所述有效语音数据特征,获取其梅尔频率倒谱系数特征。5.根据权利要求1所述的基于多模态深度学习的文本分类方法,其特征在于,所述“获取所述有效视频数据中局部区域的视频图像,并转写所述视频图像为图像文本数据”,具体包括:根据所述视频数据,获取嘴唇区域的视频图像;
将所述嘴唇区域的视频图像输入3D卷积神经网络模型计算,得到图像特征;基于图像唇语识别方法,将所述图像特征输入多通道多尺寸时间深度卷积神经网络模型转写,获得第一图像文本数据;基于连接时序分类方法输出所述图像特征和所述第一图像文本数据的对齐关系,以得到第二图像文本数据;将所述第二图像文本数据经全连接层组合后,再经过分类函数计算得分得到所述图像文本数据。6.根据权利要求5所述的基于多模态深度学习的文本分类方法,其特征在于,所述“将所述嘴唇区域的视频图像输入3D卷积神经网络模型计算,得到图像特征”,具体包括:对嘴唇局部视频数据分割成连续嘴唇图片帧;将所述连续嘴唇图片帧输入3D卷积神经网络模型计算,提取多种特征,得到所述图像特征。7.根据权利要求6所述的基于多模态深度学习的文本分类方法,其特征在于,所述“基于图像唇语识别方法,将所述图像特征输入多通道多尺寸时间深度卷积神经网络模型转写,获得第一图像文本数据”,具体包括:将所述图像特征输入所述多通道多尺寸时间深度卷积神经网络计算,得到时序图像特征;根据所述图像唇语识别方法,将所述时序图像特征映射为拼音语句的拼音序列;再将所述拼音序列翻译为对应汉字语句的汉字序列。8.根据权利要求1所述的基于多模态深度学习的文本分类方...

【专利技术属性】
技术研发人员:李华刚曾谁飞孔令磊张景瑞李敏刘卫强
申请(专利权)人:海尔智家股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1