一种基于深度学习的图片情感极性分析方法技术

技术编号:15704893 阅读:344 留言:0更新日期:2017-06-26 10:17
一种基于深度学习的图片情感极性分析方法涉及图像内容理解和大数据分析技术领域。传统方法图片情感分析方法由于模型和特征简单使得最终预测精度不理想。目前使用深度学习的方法在大规模训练集中进行训练,但是训练集的噪音过大,使得最终的性能受限。本发明专利技术采用直接从网络中获取数据的方式,从数据规模大。只有在数据准备时需要得到的一个常用词语的情感极性信息可能需要人工标注。之后在整个的图像获取和清洗工作全都可以自动完成,需要的人工成本很低。在数据获取阶段,引入了两次数据清洗过程,可以清除很大一部分图片与标签不一致的噪音。本发明专利技术将先验知识用于训练集对训练集进行过滤,使得训练集的噪音减少,并辅以改进的网络结构,使图片情感预测准确率得到提升。

【技术实现步骤摘要】
一种基于深度学习的图片情感极性分析方法
本专利技术涉及图像内容理解和大数据分析
,特别是涉及一种图片情感分析方法。
技术介绍
随着互联网的发展和智能手机的普及,社交网络在人的日常生活中有着不可替代的地位。越来越多的人开始通过社交网络平台表达自己观点,大量的用户生成数据也因此而生成。用户生成数据(UserGeneratedContent,UGC),是指由用户上传的原创内容,这些内容来源于用户,最终又服务于用户。在web2.0时代,用户不在被动的接受互联网内容,而是作为主体参与其中,在充当使用者的角色之外,也成为了生产者和传播者。面对庞大的用户生成数据,如何有效利用就成了现在急需解决的问题。针对于这些数据,意见挖掘和情感分析的相关研究开始成为研究热点。它们分析UGC数据去做舆情分析,分析民众对于某个事件的反应,预测票房、预测股票走势等等。但是目前这些研究和方法普遍基于文本信息。而在社交网络中,用户数据是多元的,不但包括文字,还包括图片,视频等。对于文字,不同地域不同背景的人可能有不同的理解,但是对于图片,人们的反应往往具有一致性。而且现在用于图形计算的设备越来越便宜而且性能也越来越强,这使得做大规模的图形计算变得可能。目前对于图片的情感分析问题,目前普遍采用监督学习的方法。即先收集一个带标注的图片集,然后利用机器学习方法训练模型,最后利用训练好的模型对新图片进行情感分析。早期的方法利用手工收集的图片集并使用简单分类器进行分类,例如:JianboYuan在2013年发表的文章“Sentribute:imagesentimentanalysisfromamid-levelperspective”中使用了SUN这一手工标注数据集,其中包括14340张手工标注图像,利用SVM作为学习工具并辅以人脸表情识别对图像进行情感分析。随着机器学习模型的复杂,小规模数据集已经不能满足训练要求。所以在最新的工作中普遍采用网络收集数据集的方式获取数据集。例如:StefanSiersdorfer在2010年发表的文章“AnalyzingandPredictingSentimentofImagesontheSocialWeb”中使用SentiWordNet情感词典中正负情感强度前1000的词语作为检索词在Flickr中检索得到了586000图像用于情感分析模型的训练;DamianBorth在2013年发表的文章“Large-scaleVisualSentimentOntologyandDetectorsUsingAdjectiveNounPairs”中利用1200形容词名词对作为检索词在Flickr中进行检索并整理形成一个大规模情感分析数据集Sentibank。Sentibank是目前使用比较广泛的情感分析数据集,但是由于其中的图片是直接从网络中获取然后保存,所以噪音很大,严重制约着后续的情感分析精度。最新的方法有一些是利用深度学习的方法。例如:QuanzengYou在2015年发表的文章“RobustImageSentimentAnalysisUsingProgressivelyTrainedandDomainTransferredDeepNetworks”中利用Sentibank数据集并利用自学习的思想改进深度学习网络,构建了PCNN网络,可以在一定程度上抵抗网络数据集中的噪音问题,但是由于自学习理论的内在限制,所以其性能提升有限。综上所述,传统的图片情感分析方法需要的数据集较小,但是由于模型和特征简单使得最终预测精度不理想。目前的一些使用深度学习的方法在大规模训练集中进行训练,但是由于训练集的噪音过大,使得最终的性能受限。本专利技术提出一种基于深度学习的图片情感极性分析方法,将先验知识用于训练集对训练集进行过滤,使得训练集的噪音减少,并辅以改进的网络结构,使图片情感预测准确率得到提升。
技术实现思路
本专利技术的目的是提供一种基于深度学习的图片情感极性分析方法,其框架如图1所示。该方法分为三个阶段,数据获取,深度学习模型训练以及图片情感极性分析阶段。该方法首先利用一些情感词汇作为检索词来从图片网站获取相关图片,然后将情感词汇对应情感极性作为图片标签得到初始数据集。接着利用检索词的情感极性,图片标签,图片描述文字的情感一致性对数据集进行过滤从而得到一个更纯净的数据集。接着利用深度学习方法,使用得到的数据集对CNN模型进行训练得到情感极性分类模型。最后利用上一步训练好的CNN模型对图片进行情感极性分析。上述的图片情感分析方法具体步骤如下:1、数据获取本方法可以应用于大多数带有图片搜索功能的图片社交网站。由于这类网站普遍存在检索数量最大值限制,而且为了保证数据的丰富度和均衡度,所以在本方法中我们使用大量检索词进行检索来获取图片。1.1.先验知识准备为了对检索词的情感极性准确度有足够的保证,所以在进行数据获取之前,要准备一个词语情感极性的情感字典。在本方法中,我们使用情感词汇主要情感极性情感字典,可以提供常用词汇的主要情感极性。所谓一个词语的主要情感极性就是该词语在常用语境下所表达的情感极性。这一情感字典需要通过手工标注的方式来构建或者使用现有的公开字典,情感字典中的词以(词,情感强度)的方式构建,其中情感强度的取值范围为[-1,1],情感强度越接近1代表该词语的情感极性越积极,反之如果情感极性越接近-1,则代表该词语的情感极性越消极,一些具体的例子如:悔恨-0.9暴怒-0.9从容0.7千刀万剐-0.7乐滋滋0.5五体投地0.51.2.检索词选取为了从网络获取数据,首先需要准备的就是检索词,在本方法中,我们选择从网络收集检索词的策略。具体步骤如下:1.2.1使用包含明确情感极性的词语(如:高兴,伤心)作为初始检索词去图片网站中检索,收集检索结果并提取其中的描述文字,描述文字是指有关于图片的描述信息,可以是图片的标签,介绍,上下文文本信息。1.2.2利用分词工具将描述文字进行分词处理并去除停用词,对其中的独立词进行词性分析,提取其中的名词和形容词。并将名词和形容词进行一一配对(取笛卡尔积)。将配对后的结果按照(形容词,名词)的方式存放来作为初始的检索词库。1.2.3把1.2.2中得到的初始的检索词库进行一次数据清洗,本次清洗的目标是去除检索词库中那些形容词和名词情感极性有冲突的部分。利用1.1得到的情感字典,分析每一个检索词库中的形容词名词的极性关系,并将其中发生冲突的去除,对于检索词库中的任一个(形容词,名词)对,该规则的形式化表示如下:f1(A,N)=Sen(A)+Sen(N)(1)其中A代表词对中的形容词,N代表词对中的名词。Sen(x)函数表示从情感字典(在1.1中得到)中获取词语x的情感极性,即如果情感强度在(0,1]则Sen()函数返回1,如果情感强度在[-1,0)则Sen()函数返回-1,如果情感字典中不存在词语x则认为x不包含情感,函数返回0。如果f1为0,则说明这对形容词名词间存在冲突或者不包含情感,应该去除。如果f1非0则说明不存在冲突,应该予以保留。1.2.4利用1.1得到的情感字典对筛选后的检索词库进行情感标注并生成最终的检索词库。检索词库中每个(形容词,名词)对的情感标签由形容词和名词的情感强度相加得到。具本文档来自技高网
...
一种基于深度学习的图片情感极性分析方法

【技术保护点】
一种基于深度学习的图片情感极性分析方法,该方法分为三个阶段,数据获取,深度学习模型训练以及图片情感极性分析阶段;其特征在于具体步骤如下:数据获取具体步骤如下:1.1.先验知识准备需要准备一个情感词汇主要情感极性的情感字典,这一情感字典需要通过手工标注的方式来构建或者使用现有的公开字典,情感字典中的词以(词,情感强度)的方式构建;1.2.检索词选取选择从网络收集检索词的策略;具体步骤如下:1.2.1使用包含明确情感极性的词语作为初始检索词去图片网站中检索,收集检索结果并提取其中的描述文字,描述文字是指有关于图片的描述信息,包括图片的标签,介绍,上下文文本信息;1.2.2利用分词工具将描述文字进行分词处理并去除停用词,对其中的独立词进行词性分析,提取其中的名词和形容词;并将名词和形容词进行一一配对;将配对后的结果按照(形容词,名词)的方式存放来作为初始的检索词库;1.2.3把1.2.2中得到的初始的检索词库进行一次数据清洗;利用1.1得到的情感字典,分析每一个检索词库中的形容词名词的极性关系,并将其中发生冲突的去除,对于检索词库中的任一个(形容词,名词)对,该规则的形式化表示如下:f

【技术特征摘要】
1.一种基于深度学习的图片情感极性分析方法,该方法分为三个阶段,数据获取,深度学习模型训练以及图片情感极性分析阶段;其特征在于具体步骤如下:数据获取具体步骤如下:1.1.先验知识准备需要准备一个情感词汇主要情感极性的情感字典,这一情感字典需要通过手工标注的方式来构建或者使用现有的公开字典,情感字典中的词以(词,情感强度)的方式构建;1.2.检索词选取选择从网络收集检索词的策略;具体步骤如下:1.2.1使用包含明确情感极性的词语作为初始检索词去图片网站中检索,收集检索结果并提取其中的描述文字,描述文字是指有关于图片的描述信息,包括图片的标签,介绍,上下文文本信息;1.2.2利用分词工具将描述文字进行分词处理并去除停用词,对其中的独立词进行词性分析,提取其中的名词和形容词;并将名词和形容词进行一一配对;将配对后的结果按照(形容词,名词)的方式存放来作为初始的检索词库;1.2.3把1.2.2中得到的初始的检索词库进行一次数据清洗;利用1.1得到的情感字典,分析每一个检索词库中的形容词名词的极性关系,并将其中发生冲突的去除,对于检索词库中的任一个(形容词,名词)对,该规则的形式化表示如下:f1(A,N)=Sen(A)+Sen(N)(1)其中A代表词对中的形容词,N代表词对中的名词;Sen(x)函数表示从在1.1中得到情感字典中获取词语x的情感极性,即如果情感强度在(0,1]则Sen()函数返回1,如果情感强度在[-1,0)则Sen()函数返回-1,如果情感字典中不存在词语x则认为x不包含情感,函数返回0;如果f1为0,则说明这对形容词名词间存在冲突或者不包含情感,应该去除;如果f1非0则说明不存在冲突,应该予以保留;1.2.4利用1.1得到的情感字典对筛选后的检索词库进行情感标注并生成最终的检索词库;检索词库中每个(形容词,名词)对的情感标签由形容词和名词的情感强度相加得到;1.3.利用检索词进行检索利用1.2.4得到的检索词库进行图像检索,具体的步骤如下:(1)从检索词库中取出一对情感词;(2)在网站中进行检索得到检索结果;(3)从检索结果中提取图片以及对应的描述文字,描述文字是指有关于图片的描述信息,包括图片的标签,介绍,上下文文本信息;(4)利用分词工具将描述文字进行分词处理并去除停用词,将其中的独立词作为描述信息;(5)将用于此次检索的情感词对应的情感标注信息作为提取得到图片的标签;(6)将(图片,描述信息,标签)作为三元组存放在数据库中;(7)重复步骤(1)-(6)直到检索词库中所有词都被使用过;至此...

【专利技术属性】
技术研发人员:毋立芳刘爽祁铭超张磊简萌
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1