【技术实现步骤摘要】
一种基于深度学习的图片情感极性分析方法
本专利技术涉及图像内容理解和大数据分析
,特别是涉及一种图片情感分析方法。
技术介绍
随着互联网的发展和智能手机的普及,社交网络在人的日常生活中有着不可替代的地位。越来越多的人开始通过社交网络平台表达自己观点,大量的用户生成数据也因此而生成。用户生成数据(UserGeneratedContent,UGC),是指由用户上传的原创内容,这些内容来源于用户,最终又服务于用户。在web2.0时代,用户不在被动的接受互联网内容,而是作为主体参与其中,在充当使用者的角色之外,也成为了生产者和传播者。面对庞大的用户生成数据,如何有效利用就成了现在急需解决的问题。针对于这些数据,意见挖掘和情感分析的相关研究开始成为研究热点。它们分析UGC数据去做舆情分析,分析民众对于某个事件的反应,预测票房、预测股票走势等等。但是目前这些研究和方法普遍基于文本信息。而在社交网络中,用户数据是多元的,不但包括文字,还包括图片,视频等。对于文字,不同地域不同背景的人可能有不同的理解,但是对于图片,人们的反应往往具有一致性。而且现在用于图形计算的设备越来越便宜而且性能也越来越强,这使得做大规模的图形计算变得可能。目前对于图片的情感分析问题,目前普遍采用监督学习的方法。即先收集一个带标注的图片集,然后利用机器学习方法训练模型,最后利用训练好的模型对新图片进行情感分析。早期的方法利用手工收集的图片集并使用简单分类器进行分类,例如:JianboYuan在2013年发表的文章“Sentribute:imagesentimentanalysisfromami ...
【技术保护点】
一种基于深度学习的图片情感极性分析方法,该方法分为三个阶段,数据获取,深度学习模型训练以及图片情感极性分析阶段;其特征在于具体步骤如下:数据获取具体步骤如下:1.1.先验知识准备需要准备一个情感词汇主要情感极性的情感字典,这一情感字典需要通过手工标注的方式来构建或者使用现有的公开字典,情感字典中的词以(词,情感强度)的方式构建;1.2.检索词选取选择从网络收集检索词的策略;具体步骤如下:1.2.1使用包含明确情感极性的词语作为初始检索词去图片网站中检索,收集检索结果并提取其中的描述文字,描述文字是指有关于图片的描述信息,包括图片的标签,介绍,上下文文本信息;1.2.2利用分词工具将描述文字进行分词处理并去除停用词,对其中的独立词进行词性分析,提取其中的名词和形容词;并将名词和形容词进行一一配对;将配对后的结果按照(形容词,名词)的方式存放来作为初始的检索词库;1.2.3把1.2.2中得到的初始的检索词库进行一次数据清洗;利用1.1得到的情感字典,分析每一个检索词库中的形容词名词的极性关系,并将其中发生冲突的去除,对于检索词库中的任一个(形容词,名词)对,该规则的形式化表示如下:f
【技术特征摘要】
1.一种基于深度学习的图片情感极性分析方法,该方法分为三个阶段,数据获取,深度学习模型训练以及图片情感极性分析阶段;其特征在于具体步骤如下:数据获取具体步骤如下:1.1.先验知识准备需要准备一个情感词汇主要情感极性的情感字典,这一情感字典需要通过手工标注的方式来构建或者使用现有的公开字典,情感字典中的词以(词,情感强度)的方式构建;1.2.检索词选取选择从网络收集检索词的策略;具体步骤如下:1.2.1使用包含明确情感极性的词语作为初始检索词去图片网站中检索,收集检索结果并提取其中的描述文字,描述文字是指有关于图片的描述信息,包括图片的标签,介绍,上下文文本信息;1.2.2利用分词工具将描述文字进行分词处理并去除停用词,对其中的独立词进行词性分析,提取其中的名词和形容词;并将名词和形容词进行一一配对;将配对后的结果按照(形容词,名词)的方式存放来作为初始的检索词库;1.2.3把1.2.2中得到的初始的检索词库进行一次数据清洗;利用1.1得到的情感字典,分析每一个检索词库中的形容词名词的极性关系,并将其中发生冲突的去除,对于检索词库中的任一个(形容词,名词)对,该规则的形式化表示如下:f1(A,N)=Sen(A)+Sen(N)(1)其中A代表词对中的形容词,N代表词对中的名词;Sen(x)函数表示从在1.1中得到情感字典中获取词语x的情感极性,即如果情感强度在(0,1]则Sen()函数返回1,如果情感强度在[-1,0)则Sen()函数返回-1,如果情感字典中不存在词语x则认为x不包含情感,函数返回0;如果f1为0,则说明这对形容词名词间存在冲突或者不包含情感,应该去除;如果f1非0则说明不存在冲突,应该予以保留;1.2.4利用1.1得到的情感字典对筛选后的检索词库进行情感标注并生成最终的检索词库;检索词库中每个(形容词,名词)对的情感标签由形容词和名词的情感强度相加得到;1.3.利用检索词进行检索利用1.2.4得到的检索词库进行图像检索,具体的步骤如下:(1)从检索词库中取出一对情感词;(2)在网站中进行检索得到检索结果;(3)从检索结果中提取图片以及对应的描述文字,描述文字是指有关于图片的描述信息,包括图片的标签,介绍,上下文文本信息;(4)利用分词工具将描述文字进行分词处理并去除停用词,将其中的独立词作为描述信息;(5)将用于此次检索的情感词对应的情感标注信息作为提取得到图片的标签;(6)将(图片,描述信息,标签)作为三元组存放在数据库中;(7)重复步骤(1)-(6)直到检索词库中所有词都被使用过;至此...
【专利技术属性】
技术研发人员:毋立芳,刘爽,祁铭超,张磊,简萌,
申请(专利权)人:北京工业大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。