基于藏文的多模态情感计算方法及系统技术方案

技术编号：21771744 阅读：25 留言：0更新日期：2019-08-03 21:34

本发明专利技术实施例提供了一种基于藏文的多模态情感计算方法、系统及服务器。本发明专利技术实施例的方法中，首先，获取待分类的藏文数据，并从该藏文数据中采集视频信号、语音信号和文本信息，然后，分别提取出高层视频特征、高层语音特征和文本特征，并基于深度学习模型进行学习，获得高层融合特征，最后，基于SVM在分类情感语料库中将高层融合特征进行分类后，存入分类情感语料库。从而可以填补藏文在情感分析中的空白状态，为藏文多模态情感分析提供基础语料，有利于藏文多模态情感分析的发展，还可以推动藏文的自然语言处理能力和智能情感识别能力，提高藏文的人工智能信息处理能力，另外在三模态相互融合的情况下，可有效提升藏文数据的情感识别率。

Multi-modal Emotion Computing Method and System Based on Tibetan Language

全部详细技术资料下载

【技术实现步骤摘要】
基于藏文的多模态情感计算方法及系统
本专利技术涉及计算机
，尤其涉及一种基于藏文的多模态情感计算方法及系统。
技术介绍
情感语料库是情感分析技术的基础，目前以单模态的情感语料库较多而且较全备。单模态语料库以文本、语音、人脸表情为主，有些语料库涉及身体手势、生理数据等。但无论是哪一种单模态语料库在进行情感识别时，均具有各自的局限性，所以构建多模态情感语料库是极为必要的。而藏文作为一种重要的语言在情感分析基本处于空白状态，基于藏文的多模态情感语料库的构建可以为藏文多模态情感分析提供基础语料，有利于藏文多模态情感分析的发展，还可以推动藏文的自然语言处理能力和智能情感识别能力，提高藏文的人工智能信息处理能力。
技术实现思路
有鉴于此，本专利技术实施例提供了一种基于藏文的多模态情感计算方法、系统及服务器。第一方面，本专利技术实施例提供了一种基于藏文的多模态情感计算方法，该方法包括：获取待分类的藏文数据，并从该藏文数据中采集视频信号、语音信号和文本信息；从所述视频信号、语音信号和文本信息中分别提取出高层视频特征、高层语音特征和文本特征；基于深度学习模型对高层视频特征、高层语音特征和文本特征进行学习，获得高层融合特征；基于SVM在分类情感语料库中将所述高层融合特征进行分类。如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述分类情感语料库通过如下方法进行构建：采集原始藏文数据；基于预设数据结构将所述原始藏文数据切分并处理为视频数据、语音数据和文本数据；对所述视频数据、语音数据和文本数据进行情感类别标记后，存入分类情感语料库。如上所述的方面和任一可能的实现方...

【技术保护点】
1.一种基于藏文的多模态情感计算方法，其特征在于，所述方法包括：获取待分类的藏文数据，并从该藏文数据中采集视频信号、语音信号和文本信息；从所述视频信号、语音信号和文本信息中分别提取出高层视频特征、高层语音特征和文本特征；基于深度学习模型对高层视频特征、高层语音特征和文本特征进行学习，获得高层融合特征；基于SVM在分类情感语料库中将所述高层融合特征进行分类。

【技术特征摘要】
1.一种基于藏文的多模态情感计算方法，其特征在于，所述方法包括：获取待分类的藏文数据，并从该藏文数据中采集视频信号、语音信号和文本信息；从所述视频信号、语音信号和文本信息中分别提取出高层视频特征、高层语音特征和文本特征；基于深度学习模型对高层视频特征、高层语音特征和文本特征进行学习，获得高层融合特征；基于SVM在分类情感语料库中将所述高层融合特征进行分类。2.根据权利要求1所述的方法，其特征在于，所述分类情感语料库通过如下方法进行构建：采集原始藏文数据；基于预设数据结构将所述原始藏文数据切分并处理为视频数据、语音数据和文本数据；对所述视频数据、语音数据和文本数据进行情感类别标记后，存入分类情感语料库。3.根据权利要求1所述的方法，其特征在于，从所述视频信号中提取出高层视频特征，具体包括：对所述视频信号进行分帧处理后，将按照时序将相邻两帧图像合并为一张帧图像；基于人脸识别算法对全部所述帧图像进行人脸检测以识别出人脸图像；对人脸图像进行纹理特征提取，以获得高层视频特征。4.根据权利要求1所述的方法，其特征在于，从所述语音信号中提取出高层语音特征，具体包括：对所述语音信号进行预处理后，通过语音分析工具进行分析梅尔频率倒谱的特征提取，以获得高层语音特征。5.根据权利要求1所述的方法，其特征在于，通过深度学习模型对高层视频特征、高层语音特征和文本特征进行学习，得出高层融合特征，具体包括：将同一藏文数据的高层视频特征、高层语音特征和文本特征三种模态拼接为统一特征向量，以得出三模态的高层融合特征；以及，通过自动编码器算法将同一藏文数据对应的高层视频特征与高层语音特征、高层视频特征与文本特征、高层语音特征与文本特征两种模态分别进行学习，以得出三种双模态高层融合特征；通过自动编码器算法将同一藏文数据对应的高层视频特征、高层语音特征和文本特征分别进行学习，以得出三种单模态高层融合特征；所述高层融合特征包括一种三模态的高层融合特征、三种双...

【专利技术属性】
技术研发人员：田芳，梁丽，孙本旺，
申请(专利权)人：青海大学，
类型：发明
国别省市：青海,63

全部详细技术资料下载我是这个专利的主人