基于多模态知识图谱的文本分类方法、设备及存储介质技术

技术编号：37715292 阅读：7 留言：0更新日期：2023-06-02 00:10

本发明专利技术公开了一种基于多模态知识图谱的文本分类方法，包括以下步骤：获取实时音视频数据、实时和历史文本数据；对所述实时音视频数据进行预处理，获取实时语音和实时视频数据；转写实时语音数据为语音文本数据并提取其文本特征；转写所述实时视频数据为图像文本数据并提取其文本特征；提取所述实时和历史文本数据的实体特征；根据所述实时语音数据文本特征、实时视频数据文本特征和实体特征，获取该文本数据的上下文信息和文本语义特征的权重信息；将所述上下文信息和权重信息经全连接层组合后，输出至分类器计算得分得到分类结果信息并输出。该方法有效的提高了文本分类的准确率和泛化能力，提升用户的体验效果。提升用户的体验效果。提升用户的体验效果。

全部详细技术资料下载

【技术实现步骤摘要】
基于多模态知识图谱的文本分类方法、设备及存储介质

[0001]本专利技术涉及计算机
，具体地涉及一种基于多模态知识图谱的文本分类方法、设备及存储介质。

技术介绍

[0002]目前，文本分类算法没有充分利用语音、视频和用户对食材的偏好、喜爱和评论数据等多模态数据的语义信息表示能力，导致文本分类效果不佳。而且，这些文本数据都是基于传统机器学习方法或机器学习与神经网络浅层特征信息相结合方法，这些方法容易出现泛化、数据理解能力不足、构建模型的鲁棒性较弱，进而影响文本分类能力不足。
[0003]因此，如何借助知识图谱构建多模态的文本分类方法成为文本分类准确率提高的关键技术。而智能冰箱交互离不开实时语音、视频和实时文本以及历史文本等多源异构数据，故针对所述多源异构数据如何基于多模态或跨模态数据实现最优的特征信息提取和文本分类，从而优化智能冰箱文本分类准确率，进而提升冰箱使用的体验效果。

技术实现思路

[0004]本专利技术的目的在于提供一种基于多模态知识图谱的文本分类方法、设备及存储介质。
[0005]本专利技术提供种基于多模态知识图谱的生成文本分类方法，包括步骤：
[0006]获取实时音视频数据，获取实时和历史文本数据；对所述实时音视频数据进行预处理，获取实时语音数据和实时视频数据；转写所述实时语音数据为语音文本数据，提取所述语音文本数据的文本特征；转写所述实时视频数据为图像文本数据，提取所述图像文本数据的文本特征；提取所述实时和历史文本数据的实体特征；根据所述实时语音数据文本特征...

【技术保护点】

【技术特征摘要】
1.一种基于多模态知识图谱的文本分类方法，其特征在于，包括步骤：获取实时音视频数据，获取实时和历史文本数据；对所述实时音视频数据进行预处理，获取实时语音数据和实时视频数据；转写所述实时语音数据为语音文本数据，提取所述语音文本数据的文本特征；转写所述实时视频数据为图像文本数据，提取所述图像文本数据的文本特征；提取所述实时和历史文本数据的实体特征；根据所述实时语音数据文本特征、实时视频数据文本特征和实体特征，获取该文本数据的上下文信息和文本语义特征的权重信息；将所述上下文信息和权重信息经全连接层组合后，输出至分类器计算得分得到分类结果信息；输出所述分类结果信息。2.根据权利要求1所述的基于多模态知识图谱的文本分类方法，其特征在于，所述“对所述实时音视频数据进行预处理，获取实时语音数据和视频数据”，具体包括：对所述实时音视频数据进行数据清洗、格式解析、格式转换和数据存储，获得有效的音视频数据；采用脚本或第三方工具将所述有效音视频数据进行语音和视频分离，以获得所述实时语音数据和实时视频数据；对所述实时语音数据和视频数据进行预处理，包括：对所述实时语音数据进行分帧和加窗处理，对所述实时视频数据进行裁剪、分帧处理；对所述实时和历史文本数据进行预处理，包括：分词、去除停用词、去重复词。3.根据权利要求1所述的基于多模态知识图谱的文本分类方法，其特征在于，所述“转写所述实时语音数据为语音文本数据”，具体包括：提取所述实时语音数据特征，得到语音特征；将所述语音特征输入语音识别多通道多尺寸深度卷积神经网络模型转写得到第一语音文本数据；基于连接时序分类方法输出所述语音特征和所述第一语音文本数据的对齐关系，以得到第二语音文本数据；基于注意力机制，获取所述第二语音文本数据的关键特征或所述关键特征的权重信息；将所述第二语音文本数据以及其关键特征或关键特征的权重信息经全连接层组合后，再经过分类函数计算得分得到所述语音文本数据。4.根据权利要求3所述的基于多模态知识图谱的文本分类方法，其特征在于，所述“提取所述实时语音数据特征”，具体包括：提取所述实时语音数据特征，获取其梅尔频率倒谱系数特征。5.根据权利要求1所述的基于多模态知识图谱的文本分类方法，其特征在于，所述“转写所述实时视频数据为图像文本数据”，具体包括：将所述实时视频数据输入3D深度卷积神经网络计算，得到图像特征；将所述图像特征输入多通道多尺寸时间卷积网络转写，获得第一图像文本数据；基于连接时序分类方法输出所述图像特征和所述第一图像文本数据的对齐关系，以得
到第二图像文本数据；将所述第二图像文本数据经全连接层组合后，再经过分类函数计算得分得到所述图像文本数据。6.根据权利要求1所述的基于多模态知识图谱的文本分类方法，其特征在于，所述“提取所述实时和历史文本数据的实体特征”，具体包括：采用实体链接方法对所述文本数据进行实体抽取，以得到多个食材实体；基于每个食材实体查询食材知识图谱，获得对应的实体向量表示；将所述实体向量表示输入多头注意力机制计算，得到实体特征向量。7.根据权利要求6所述的基于多模态知识图谱的文本分类方法，其特征在于，所述“基于每个食材实体查询食材知识图谱，获得对应的实体向量表示”，具体包括：采用实体三元组形式将所述实体转换为对应的实体向量表示；采用神经网络的分布式向量表示方法来实现所述实体向量表示。8.根据权利要求1所述的基于多模态知识图谱的文本分类方法，其特征在于，所述“根据所述实时语音数据文本特征、实时视频数据文本特征和实体特征，获取该文本数据的上下文信息和文本语义特征的权重信息”，具体包括：将所述实时语音文本...

【专利技术属性】
技术研发人员：曾谁飞，孔令磊，张景瑞，李敏，刘卫强，
申请(专利权)人：海尔智家股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人