一种基于深度学习的图片情感极性分析方法技术

技术编号：15704893 阅读：349 留言：0更新日期：2017-06-26 10:17

一种基于深度学习的图片情感极性分析方法涉及图像内容理解和大数据分析技术领域。传统方法图片情感分析方法由于模型和特征简单使得最终预测精度不理想。目前使用深度学习的方法在大规模训练集中进行训练，但是训练集的噪音过大，使得最终的性能受限。本发明专利技术采用直接从网络中获取数据的方式，从数据规模大。只有在数据准备时需要得到的一个常用词语的情感极性信息可能需要人工标注。之后在整个的图像获取和清洗工作全都可以自动完成，需要的人工成本很低。在数据获取阶段，引入了两次数据清洗过程，可以清除很大一部分图片与标签不一致的噪音。本发明专利技术将先验知识用于训练集对训练集进行过滤，使得训练集的噪音减少，并辅以改进的网络结构，使图片情感预测准确率得到提升。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的图片情感极性分析方法
本专利技术涉及图像内容理解和大数据分析
，特别是涉及一种图片情感分析方法。
技术介绍
随着互联网的发展和智能手机的普及，社交网络在人的日常生活中有着不可替代的地位。越来越多的人开始通过社交网络平台表达自己观点，大量的用户生成数据也因此而生成。用户生成数据(UserGeneratedContent，UGC)，是指由用户上传的原创内容，这些内容来源于用户，最终又服务于用户。在web2.0时代，用户不在被动的接受互联网内容，而是作为主体参与其中，在充当使用者的角色之外，也成为了生产者和传播者。面对庞大的用户生成数据，如何有效利用就成了现在急需解决的问题。针对于这些数据，意见挖掘和情感分析的相关研究开始成为研究热点。它们分析UGC数据去做舆情分析，分析民众对于某个事件的反应，预测票房、预测股票走势等等。但是目前这些研究和方法普遍基于文本信息。而在社交网络中，用户数据是多元的，不但包括文字，还包括图片，视频等。对于文字，不同地域不同背景的人可能有不同的理解，但是对于图片，人们的反应往往具有一致性。而且现在用于图形计算的设备越来越...
一种基于深度学习的图片情感极性分析方法

【技术保护点】
一种基于深度学习的图片情感极性分析方法，该方法分为三个阶段，数据获取，深度学习模型训练以及图片情感极性分析阶段；其特征在于具体步骤如下：数据获取具体步骤如下：1.1.先验知识准备需要准备一个情感词汇主要情感极性的情感字典，这一情感字典需要通过手工标注的方式来构建或者使用现有的公开字典，情感字典中的词以(词，情感强度)的方式构建；1.2.检索词选取选择从网络收集检索词的策略；具体步骤如下：1.2.1使用包含明确情感极性的词语作为初始检索词去图片网站中检索，收集检索结果并提取其中的描述文字，描述文字是指有关于图片的描述信息，包括图片的标签，介绍，上下文文本信息；1.2.2利用分词工具将描述文字进行...

【技术特征摘要】
1.一种基于深度学习的图片情感极性分析方法，该方法分为三个阶段，数据获取，深度学习模型训练以及图片情感极性分析阶段；其特征在于具体步骤如下：数据获取具体步骤如下：1.1.先验知识准备需要准备一个情感词汇主要情感极性的情感字典，这一情感字典需要通过手工标注的方式来构建或者使用现有的公开字典，情感字典中的词以(词，情感强度)的方式构建；1.2.检索词选取选择从网络收集检索词的策略；具体步骤如下：1.2.1使用包含明确情感极性的词语作为初始检索词去图片网站中检索，收集检索结果并提取其中的描述文字，描述文字是指有关于图片的描述信息，包括图片的标签，介绍，上下文文本信息；1.2.2利用分词工具将描述文字进行分词处理并去除停用词，对其中的独立词进行词性分析，提取其中的名词和形容词；并将名词和形容词进行一一配对；将配对后的结果按照(形容词，名词)的方式存放来作为初始的检索词库；1.2.3把1.2.2中得到的初始的检索词库进行一次数据清洗；利用1.1得到的情感字典，分析每一个检索词库中的形容词名词的极性关系，并将其中发生冲突的去除，对于检索词库中的任一个(形容词，名词)对，该规则的形式化表示如下：f1(A,N)＝Sen(A)+Sen(N)(1)其中A代表词对中的形容词，N代表词对中的名词；Sen(x)函数表示从在1.1中得到情感字典中获取词语x的情感极性，即如果情感强度在(0,1]则Sen()函数返回1，如果情感强度在[-1,0)则Sen()函数返回-1，如果情感字典中不存在词语x则认为x不包含情感，函数返回0；如果f1为0，则说明这对形容词名词间存在冲突或者不包含情感，应该去除；如果f1非0则说明不存在冲突，应该予以保留；1.2.4利用1.1得到的情感字典对筛选后的检索词库进行情感标注并生成最终的检索词库；检索词库中每个(形容词，名词)对的情感标签由形容词和名词的情感强度相加得到；1.3.利用检索词进行检索利用1.2.4得到的检索词库进行图像检索，具体的步骤如下：(1)从检索词库中取出一对情感词；(2)在网站中进行检索得到检索结果；(3)从检索结果中提取图片以及对应的描述文字，描述文字是指有关于图片的描述信息，包括图片的标签，介绍，上下文文本信息；(4)利用分词工具将描述文字进行分词处理并去除停用词，将其中的独立词作为描述信息；(5)将用于此次检索的情感词对应的情感标注信息作为提取得到图片的标签；(6)将(图片，描述信息，标签)作为三元组存放在数据库中；(7)重复步骤(1)-(6)直到检索词库中所有词都被使用过；至此...

【专利技术属性】
技术研发人员：毋立芳，刘爽，祁铭超，张磊，简萌，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人