一种基于多模态融合的社交情感分类方法技术

技术编号：20655103 阅读：626 留言：0更新日期：2019-03-23 06:48

本发明专利技术提出了一种基于多模态融合的社交情感分类方法，涉及音频、视觉和文本形式的信息。情感计算分析研究大部分仅通过分析单模信息来提取情感信息，忽视了信息源之间的联系。本发明专利技术对于视频信息，提出3DCLS(3D CNN‑ConvLSTM)模型，通过三维卷积神经网络(C3D)和卷积长短期记忆递归神经网络(ConvLSTM)的级联组合来为情感识别任务建立时空信息。对于文本信息，通过CNN‑RNN混合模型进行文本情感分类。利用决策级融合对视觉、音频、文本进行异质性融合。本发明专利技术学到的深时空特征有效地模拟了视觉外观和运动信息，在融合文本和音频信息后，有效的提高了情感分析的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多模态融合的社交情感分类方法
本专利技术涉及一种基于多模态融合的社交情感分类方法，主要从文本、视觉、音频信息源中提取情感特征，使用决策级融合对视觉、音频、文本进行异质性融合，产生最终的情感分类结果。
技术介绍
情感在我们的日常生活中起着至关重要的作用。他们在以人为中心的环境中帮助决策，学习，交流。过去二十多年来，人工智能研究人员一直试图赋予机器认知能力，以识别，解释和表达情感。所有这些努力都可以归结为情感计算，情感分析也成为社交媒体的一个新趋势，有力地帮助用户了解在不同平台上表达的意见。在过去的几年里，文本情感分析已经取得了很大的进展，人们正逐渐从文本转换为视频表达对产品或服务的意见，因为他们现在更容易、更快地生产和共享多模式内容。例如，消费者倾向于使用网络摄像机记录他们对产品的评论和意见，并将其上传到YouTube或Facebook等社交媒体平台，向用户表达他们的观点。出于同样的原因，潜在客户现在更倾向于浏览他们感兴趣的产品的视频评论，而不是寻找冗长的文本评论。这样做的另一个原因是，可信的文本评论很难找到，但是搜索好的视频评论却很容易。视频可以成为情感分析的绝佳资源，但媒体也面临着需要克服的重大挑战。例如，意见的表达在人与人之间差别很大，有些人委婉的表达自己的观点，有些人直观地表达意见，有些人则完全依赖逻辑表达情绪。当一个人用更多的声音调节来表达个人的意见时，音频数据通常会包含大部分表示意见的线索。当一个人通过面部表情表达个人意见时，情感分析所需的大部分数据往往可以通过面部表情分析来确定。因此，这些个人差异促使我们需要寻找一个通用的情感分析框架。...

【技术保护点】
1.一种基于多模态融合的社交情感分类方法，其特征在于：包括情感特征提取和融合两个步骤；所述情感特征提取步骤包括：利用CNN‑RNN混合模型提取文本信息中的情感特征并进行分类处理；利用3DCLS模型提取视觉信息中的时空特征，卷积LSTM对时空特征序列进行分类处理；利用OpenSMILE工具提取音频特征，再进行情感分类预测；所述融合步骤为将特征提取获得的结果利用决策融合方法进行异质性融合。

【技术特征摘要】
1.一种基于多模态融合的社交情感分类方法，其特征在于：包括情感特征提取和融合两个步骤；所述情感特征提取步骤包括：利用CNN-RNN混合模型提取文本信息中的情感特征并进行分类处理；利用3DCLS模型提取视觉信息中的时空特征，卷积LSTM对时空特征序列进行分类处理；利用OpenSMILE工具提取音频特征，再进行情感分类预测；所述融合步骤为将特征提取获得的结果利用决策融合方法进行异质性融合。2.根据权利要求1所述一种基于多模态融合的社交情感分类方法，其特征在于：所述CNN-RNN混合模型对文本信息的处理包括以下步骤：S11：对输入的文本信息进行预处理，并将其标记为一个单词序列；S12：将句子向量视为图像，并通过线性过滤器对其进行卷积；S13：对卷积后的每个输出序列tj应用一个非线性激活函数f来产生一个特征映射；S14：将S13进行特征映射后获得的特征向量馈送到CNN的下一层以进一步卷积，卷积过程与S13一样，将卷积后的结果作为RNN的输入；S15：将隐藏状态的输出看作是RNN的最后一步，使用softmax层对文本进行预测分类，然后将交叉熵损耗从RNN反向传播到CNN以更新CNN-RNN模型的权重。3.根据权利要求1所述一种基于多模态融合的社交情感分类方法，其特征在于：视觉信息...

【专利技术属性】
技术研发人员：徐光侠，李伟凤，刘俊，吴涛，王天羿，吴佳健，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：重庆,50

全部详细技术资料下载我是这个专利的主人