用于多模态数据的文本分类方法及装置、制冷设备、介质制造方法及图纸

技术编号:39146960 阅读:13 留言:0更新日期:2023-10-23 14:57
本申请涉及数据处理技术领域,公开一种用于多模态数据的文本分类方法,包括:根据多模态数据,获得文本信息、语音信息以及图像信息;根据语音信息以及图像信息,获得语音文本特征向量以及图像文本特征向量;对文本信息、语音文本特征向量以及图像文本特征向量进行文本预处理,获得短文本数据。本申请能够获得高质量的短文本,提升多模态数据短文本提取的有效性。本申请还公开一种用于多模态数据的文本分类装置及制冷设备、介质。介质。介质。

【技术实现步骤摘要】
用于多模态数据的文本分类方法及装置、制冷设备、介质


[0001]本申请涉及数据处理
,例如涉及一种用于多模态数据的文本分类方法及装置、制冷设备、介质。

技术介绍

[0002]目前,随着多模态语音降噪技术、语音识别技术和信号处理技术的快速发展,从多模态数据中提取出用以实现交互的语音或者文本成为工业界的研究热点。在智能家居场景下,针对用户交互场景,智能认知与感知存在交互慢和反馈信息错误率高的问题,影响用户的产品体验。因此,如何从多模态数据中提取获得高质量的短文本,成为当前亟需解决的技术难题。
[0003]相关技术公开一种基于多模态深度学习的文本分类方法,包括:S01,获取实时音视频数据和历史音视频数据。S02,对实时音视频数据和历史音视频数据进行预处理,获取有效的语音数据和视频数据。S03,转写有效语音数据为语音文本数据。S04,获取有效视频数据中局部区域的视频图像,并转写视频图像为图像文本数据。S05,根据语音文本数据和图像文本数据,获得该文本数据的上下文信息和文本语义特征的权重信息。S06,将上下文信息和权重信息经全连接层组合后,输出至分类器计算得分得到分类结果信息,并判断音视频数据生成文本的类型信息。S07,输出生成文本的类别信息。
[0004]在实现本公开实施例的过程中,发现相关技术中至少存在如下问题:
[0005]相关技术选取实时音视频数据和历史音视频数据作为参考数据,通过参考数据生成交互场景的文本。虽然实时音视频数据和历史音视频数据包含有文本特征,但是,多模态数据的数据来源不限于音视频数据。如此,仅采用音视频数据作为文本提取的参考数据,无法充分挖掘出多模态数据中其他数据来源的短文本特征,影响短文本提取的有效性。
[0006]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0007]为了对披露的实施例的一些方面有基本的理解,下面给出了简单的概括。所述概括不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围,而是作为后面的详细说明的序言。
[0008]本公开实施例提供了一种用于多模态数据的文本分类方法、装置、制冷设备和介质,以解决提升多模态数据短文本提取的有效性。
[0009]在一些实施例中,所述方法包括:根据多模态数据,获得文本信息、语音信息以及图像信息;根据语音信息以及图像信息,获得语音文本特征向量以及图像文本特征向量;对文本信息、语音文本特征向量以及图像文本特征向量进行文本预处理,获得短文本数据。
[0010]在一些实施例中,所述根据语音信息以及图像信息,获得语音文本特征向量以及图像文本特征向量,包括:对语音信息进行预处理,获得有效语音数据以及有效视频数据;
对有效语音数据进行语音识别处理,获得语音文本特征向量;根据有效视频数据以及图像信息,获得图像文本特征向量。
[0011]在一些实施例中,所述根据有效视频数据以及图像信息,获得图像文本特征向量,包括:对有效视频数据进行帧提取处理,获得第二图像数据;对图像信息进行过滤处理,获得第一图像数据;对第一图像数据以及第二图像数据进行图像合成处理,获得图像数据;输入图像数据至第一深度神经网络模型进行模型训练,获得图像文本特征向量。
[0012]在一些实施例中,所述第一深度神经网络模型包括迁移与蒸馏扩散深度融合模型。
[0013]在一些实施例中,所述对有效语音数据进行语音识别处理,获得语音文本特征向量,包括:输入有效语音数据至编码器进行语音编码,获得语音编码数据;输入语音编码数据至解码器进行语音解码,获得语音文本特征向量。
[0014]在一些实施例中,所述所述对文本信息、语音文本特征向量以及图像文本特征向量进行文本预处理,获得短文本数据,包括:提取文本信息、语音文本特征向量以及图像文本特征向量各自的短文本信息;汇集文本信息、语音文本特征向量以及图像文本特征向量各自的短文本信息,获得短文本数据。
[0015]在一些实施例中,所述方法还包括:对短文本数据进行数据标注处理,获得待质检数据;在待质检数据满足质检要求的情况下,利用已训练完成的Bert模型对待质检数据进行文本特征提取,获得目标短文本特征数据;利用Focal Loss损失函数对目标短文本特征数据进行短文本分类处理,获得目标短文本数据。
[0016]在一些实施例中,按照以下方式训练Bert模型:以基准网络参数对初始Bert模型进行模型训练,获得模型训练后的网络参数以及排序信息;根据模型训练后的网络参数以及排序信息,确定网络参数的目标数量;利用目标数量的网络参数训练初始Bert模型,获得已训练完成的Bert模型。
[0017]在一些实施例中,所述利用目标数量的网络参数训练初始Bert模型,获得已训练完成的Bert模型,包括:利用目标数量的网络参数训练初始Bert模型,获得基准Bert模型;利用知识蒸馏技术将教师网络模型迁移至学生网络模型,获得基准学生网络模型。
[0018]在一些实施例中,所述利用知识蒸馏技术将教师网络模型迁移至学生网络模型,获得基准学生网络模型之后,还包括:获得基准学生网络模型的所有编码器的层数以及各编码器的权重;根据所有编码器的层数以及各编码器的权重,确定编码器的目标层数;利用目标层数的编码器训练基准学生网络模型,获得已训练完成的Bert模型。
[0019]在一些实施例中,所述装置,包括:语音预处理单元,被配置为对多模态数据相关联的语音信息进行预处理,获得有效语音数据;模型训练单元,被配置为利用第一深度神经网络模型对图像数据进行模型训练,获得图像文本特征向量;语音识别单元,被配置为对有效语音数据进行语音识别处理,获得语音文本特征向量;文本预处理单元,被配置为对文本信息、语音文本特征向量以及图像文本特征向量进行文本预处理,获得短文本数据。
[0020]在一些实施例中,所述语音预处理单元还被配置为对音视频信息进行预处理,获得有效视频数据,所述装置还包括:图像帧提取单元,被配置为对有效视频数据进行帧提取处理,获得第二图像数据;图像过滤单元,被配置为对图像信息进行过滤处理,获得第一图像数据;图像融合单元,被配置为对第一图像数据以及第二图像数据进行图像合成处理,获
得图像数据。
[0021]在一些实施例中,所述装置还包括:数据标注单元,被配置为对短文本数据进行数据标注处理,获得待质检数据;数据质检单元,被配置为在待质检数据满足质检要求的情况下,利用已训练完成的Bert模型对待质检数据进行文本特征提取,获得目标短文本特征数据;文本分类单元,被配置为利用Focal Loss损失函数对目标短文本特征数据进行短文本分类处理,获得目标短文本数据。
[0022]在一些实施例中,所述装置包括:处理器和存储有程序指令的存储器,所述处理器被配置为在运行所述程序指令时,执行如前述的用于多模态数据的文本分类方法。
[0023]在一些实施例中,所述制本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于多模态数据的文本分类方法,其特征在于,包括:根据多模态数据,获得文本信息、语音信息以及图像信息;根据语音信息以及图像信息,获得语音文本特征向量以及图像文本特征向量;对文本信息、语音文本特征向量以及图像文本特征向量进行文本预处理,获得短文本数据。2.根据权利要求1所述的方法,其特征在于,所述根据语音信息以及图像信息,获得语音文本特征向量以及图像文本特征向量,包括:对语音信息进行预处理,获得有效语音数据以及有效视频数据;对有效语音数据进行语音识别处理,获得语音文本特征向量;根据有效视频数据以及图像信息,获得图像文本特征向量。3.根据权利要求2所述的方法,其特征在于,所述根据有效视频数据以及图像信息,获得图像文本特征向量,包括:对有效视频数据进行帧提取处理,获得第二图像数据;对图像信息进行过滤处理,获得第一图像数据;对第一图像数据以及第二图像数据进行图像合成处理,获得图像数据;输入图像数据至第一深度神经网络模型进行模型训练,获得图像文本特征向量。4.根据权利要求3所述的方法,其特征在于,所述第一深度神经网络模型包括迁移与蒸馏扩散深度融合模型。5.根据权利要求2所述的方法,其特征在于,所述对有效语音数据进行语音识别处理,获得语音文本特征向量,包括:输入有效语音数据至编码器进行语音编码,获得语音编码数据;输入语音编码数据至解码器进行语音解码,获得语音文本特征向量。6.根据权利要求1至5任一项所述的方法,其特征在于,所述对文本信息、语音文本特征向量以及图像文本特征向量进行文本预处理,获得短文本数据,包括:提取文本信息、语音文本特征向量以及图像文本特征向量各自的短文本信息;汇集文本信息、语音文本特征向量以及图像文本特征向量各自的短文本信息,获得短文本数据。7.根据权利要求1至5任一项所述的方法,其特征在于,还包括:对短文本数据进行数据标注处理,获得待质检数据;在待质检数据满足质检要求的情况下,利用已训练完成的Bert模型对待质检数据进行文本特征提取,获得目标短文本特征数据;利用FocalLoss损失函数对目标短文本特征数据进行短文本分类处理,获得目标短文本数据。8.根据权利要求7所述的方法,其特征在于,按照以下方式训练Bert模型:以基准网络参数对初始Bert模型进行模型训练,获得模型训练后的网络参数以及排序信息;根据模型训练后的网络参数以及排序信息,确定网络参数的目标数量;利用目标数量的网络参数训练初始Bert模型,获得已训练完成的Bert模型。9.根据权利要求8所述的方法,其特征在于,所述利用目标数量的网络参...

【专利技术属性】
技术研发人员:曾谁飞刘卫强李敏孔令磊张景瑞谢充吴国章窦振东谭夏霞李京昌葛宗玉魏倩马全亭
申请(专利权)人:青岛海尔智能技术研发有限公司海尔智家股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1