一种基于迁移学习的话题自适应的微博情感分析方法技术

技术编号:17939757 阅读:93 留言:0更新日期:2018-05-15 20:09
本发明专利技术公开了一种基于迁移学习的话题自适应的微博情感分析方法,其涉及社交媒体的数据挖掘技术领域,本发明专利技术方法首先结合临床心理学情绪检测表抽取情感词初始化情感分析向量,其次利用话题信息之间的语义相似度,话题域之间的领域特征分布相似度,以及实例之间的特征分布相似度,作为衡量外源域实例数据的可迁移性的度量标准。最后基于设计的方法,设计了在实际应用中使用该方法进行微博情感分析的策略。本发明专利技术能够解决特定话题下的微博数据情感标注缺失的问题,从而能够训练适应话题的情感分类器。这种方法不直接作用于分类模型本身,而是改变了训练样本的分布,进一步保证分类模型的独立同分布假设,从而使得情感分类模型能够取得更好的效果。

A topic adaptive micro-blog sentiment analysis method based on Transfer Learning

The invention discloses a topic adaptive micro-blog emotion analysis method based on migration learning, which involves the field of data mining in social media. The invention first combines the emotional words of clinical psychology to extract emotional words to initialize the emotional analysis vector, then uses the semantic similarity between the topic information, and then the semantic similarity between the topic information is used. The similarity between the domain features and the distribution of features between the domains is the measure of the mobility of the instance data of the foreign domain. Finally, based on the design method, a strategy of micro-blog sentiment analysis in the practical application is designed. The invention can solve the problem of missing emotion data in micro-blog data under specific topic, thus training the emotion classifier adapted to the topic. This method does not directly affect the classification model itself, but changes the distribution of training samples, and further guarantees the independent and distribution hypothesis of the classification model, thus making the emotional classification model can achieve better results.

【技术实现步骤摘要】
一种基于迁移学习的话题自适应的微博情感分析方法
本专利技术属于社交媒体数据挖掘领域,尤其涉及一种基于迁移学习的话题自适应的微博情感分析方法。
技术介绍
互联网日益在大众生活中扮演着越来越重要的角色。人们通过网络联系他人,展示自己,分享自己的状态和见解是当前最为流行的互动方式。由此衍生出来的各类交友网站、论坛、贴吧、微博及微信,均以信息发布平台作为媒介,构建用于社会互联性质的应用服务。用户可以分享自己即刻的心情,也能就某一公共话题或社会现象发表自己的看法。作为近年来快速发展的新兴社会化媒体发布平台,微博凭借其短小灵活和快速的优点,受到广大互联网用户的推崇。微博虽微,但其传播信息的能力却十分强大。每天都有大量的信息通过微博产生和传播。官方数据显示,仅新浪微博用户平均每天发布的微博数量就高达一亿多条。除此之外,微博已成为继QQ、MSN等传统网络联系工具后的用户沟通新方式。微博强大的影响力也吸引着越来越多的人成为新加入的微博用户。从最初的主打年轻人市场的互联网应用服务到如今蔓延至社会各阶层和组织日常重要生活工具,其覆盖人群仍在不断扩大。用户数量增长迅速的同时,其应用领域也不断得到扩展。从最初小范围的Geek应用到如今已成为渗透至社会各领域的主流应用。无论你在现实生活中的身份如何,你都可以通过微博真实表达自己的理念,使得言语表达更加自由、随性。用户间的互粉既可以加深老朋友间的情谊,也能够结识和了解素昧谋面的陌生好友。企业能通过微博发布自己最新的动态来更加及时地传达消息给老顾客并吸引新顾客。政府和机构也能让群众更全面详实了解其运作和流程。如此之多传统博客所不具备的特点,是微博成为大众新宠的重要原因之一。如此庞大的信息流动看似琐碎而繁杂,可隐藏其中的巨大潜在价值却不容小视。用户的发言和用户间的互动,往往包含着当前时刻该用户的情感表达,于是便可以对其发言内容作情感分析。通过整合情感分析的结果,用户可以扩大自己的选择范围,必要时候可以保障和维护自身利益;企业可以了解消费者的心理需求,有助于作出积极的应对措施,提升自己的品牌效益;政府机关能够知晓民众意见,掌握民众心理,有助于进行舆情监控和妥善处理社会问题。情感分析,又称意见挖掘,是对带有情感色彩的主观性文本进行分析、处理归纳和推理的过程。目前情感分析的主要研究点在于对文本的倾向性进行分析,即挖掘网络文本内容蕴含的各种情感、信念、态度、意见和情绪等属性信息。迄今为止,语气挖掘方面的研究大体可以分为两类:一类是语气挖掘的基础理论研究,包括词的倾向性分析、句子的倾向性分析、篇章的倾向性分析;另一类是语气挖掘的应用研究,如产品比较、语气摘要、观点抽取等。目前国内外对于文本倾向性的研究从方法上可大致分为两类:基于统计的文本倾向性研究方法和基于语义规则的文本倾向性研究方法。而基于语义规则的方法天然具有局限性,无法取得进一步的准确度,目前研究已经较少。基于统计监督学习的方法是目前的主流方法。基于统计的文本倾向性研究方法的采用监督学习的方法,是将已标注情感标签的文档作为训练集,再通过机器学习的方法构造一个褒贬两类分类器。最后使用构造好的褒贬两类分类器对待分析文档进行分类,从而识别出该文档的倾向性。Pang等使用标准的机器学习技术对文本分类工作进行了研究。比较了朴素贝叶斯(NativeBayes)、最大熵(MaximumEntropy)及支持向量机(SupportVectorMachines)方法文本分类上的效果。之后,他提出了将分类结果按照语义倾向性强度进行细分的方法,并通过一系列的实验证明了其方法的可行性。但是一般的监督学习情感分析方法,都是将情感分析视作一个文本分类的问题。其设计目标面对的都是一般性的文本,其中没有考虑特定领域文本的特性。而传统的机器学习分类模型都必需满足一个假设——训练数据与带预测目标数据具有相同或相近的特征分布。而现实应用中针对微博的情感分析任务的目标通常是一些特定主题的文本数据,例如分析美国大选的情感,分析人们对新出的iphone7的情感。这样的目标主题由随着应用需求而变化。微博在线社交文本,往往由于人们讨论的主题不同而具有动态变化,表达形式多样的特点。分析目标主题的变化导致了目标微博数据的结构和特征的差异和变化,使得情感分析产生困难,这很像情感分析任务中的领域适应性问题。因此,微博这一领域更像是无数个领域混杂的领域。传统的情感分析模型,没有考虑特定主题下的情感特征,也没有考虑实际应用微博情感分析时目标主题的动态变化导致的领域适应性问题,这些都是微博情感分析相比于其他领域更复杂的地方。不论使用什么样的模型方法,如果要适应不同话题下的情感特征,模型都需要有不同话题下的训练数据来学习。而微博领域又具有一个严重的问题就是没有天然的标注数据。
技术实现思路
本专利技术的目的在于至少解决上述问题之一。为实现本专利技术的目的,本专利技术的具体技术方案如下:一种基于迁移学习的话题自适应的微博情感分析方法,其具体包括以下步骤:步骤1)构造一个大规模的同时具有话题标注和情感标注短文本语料库;步骤2)为所述语料库中的每一个话题及其话题背景信息的文本提取出其对应的分布式词向量特征,得到语料库中领域的特征;步骤3)对于特定话题下的微博情感分析任务,获取相应的待分析目标数据及其话题;通过话题词映射的词向量,按照特定方式获取标注语料特征库中相似话题下的实例数据,用这些数据训练得到一个分类模型;步骤4)所述步骤3)得到的分类模型具有话题相关性,加上现有的人工标注的微博数据训练得到的分类模型,得到最终的情感分类模型,输出对目标微博进的情感分类。作为本专利技术技术方案的优选,所述步骤1)具体包括从互联网上搜集现有的能够公开活动并且具有情感标签的数据,对数据进行整理和处理,从而构造所述语料库。作为本专利技术技术方案的优选,步骤2)具体包括基于word2vec方法为所述语料库中的每一个话题及其话题背景信息的文本提取出其对应的分布式词向量特征,并为这些词打上词性标注,存储这些特征数据,同时存储每一个话题下的实例的词频分布特征以得到语料库中领域的特征。作为本专利技术技术方案的优选,其中步骤3)包括以下步骤:步骤3-1)分别从词向量特征库中提取与目标话题相似的10个词作为话题词的背景补充信息,并标注词性,与语料库中的话题信息对同词性的词计算余弦相似度并求和;分别将目标话题词与语料库中的话题类别信息计算余弦相似度,取其中最大的相似度。将两次得到的相似度相乘得到最终的话题信息相似度;步骤3-2)计算目标话题下微博数据的词频分布特征,计算其与语料库中的话题下实例的词频分布特征之间的Jensen-Shannondivergence(杰森-香农散度);与步骤3-1)得到的话题信息相似度一起作为衡量领域可迁移性的度量;步骤3-3)找到语料库中最适合迁移的m个话题,对这些话题下的实例数据按照其与目标话题下微博数据的特征分布相似性排序,取出需要的前n个实例数据用来训练分类模型。与现有技术相比,本专利技术的优点在于:本专利技术提出基于迁移学习的一种话题自适应的微博数据情感分析方法,能够解决特定话题下的微博数据情感标注缺失的问题,从而能够训练适应话题的情感分类器。这种方法不直接作用于分类模型本身,而是改变了训练样本的分布,进一步保证分类模型的独立同本文档来自技高网
...
一种基于迁移学习的话题自适应的微博情感分析方法

【技术保护点】
一种基于迁移学习的话题自适应的微博情感分析方法,其特征在于,所述方法具体包括以下步骤:步骤1)构造一个大规模的同时具有话题标注和情感标注短文本语料库;步骤2)为所述语料库中的每一个话题及其话题背景信息的文本提取出其对应的分布式词向量特征,得到语料库中领域的特征;步骤3)对于特定话题下的微博情感分析任务,获取相应的待分析目标数据及其话题;通过话题词映射的词向量,按照特定方式获取标注语料特征库中相似话题下的实例数据,用这些数据训练得到一个分类模型;步骤4)所述步骤3)得到的分类模型具有话题相关性,加上现有的人工标注的微博数据训练得到的分类模型,得到最终的情感分类模型,输出对目标微博进的情感分类。

【技术特征摘要】
1.一种基于迁移学习的话题自适应的微博情感分析方法,其特征在于,所述方法具体包括以下步骤:步骤1)构造一个大规模的同时具有话题标注和情感标注短文本语料库;步骤2)为所述语料库中的每一个话题及其话题背景信息的文本提取出其对应的分布式词向量特征,得到语料库中领域的特征;步骤3)对于特定话题下的微博情感分析任务,获取相应的待分析目标数据及其话题;通过话题词映射的词向量,按照特定方式获取标注语料特征库中相似话题下的实例数据,用这些数据训练得到一个分类模型;步骤4)所述步骤3)得到的分类模型具有话题相关性,加上现有的人工标注的微博数据训练得到的分类模型,得到最终的情感分类模型,输出对目标微博进的情感分类。2.根据权利要求1所述一种基于迁移学习的话题自适应的微博情感分析方法,其特征在于,所述步骤1)具体包括从互联网上搜集现有的能够公开活动并且具有情感标签的数据,对数据进行整理和处理,从而构造所述语料库。3.根据权利要求1所述一种基于迁移学习的话题自适应的微博情感分析方法,其特征在于,步骤2)具体包括基于word2vec方法为所述语料库中的每一...

【专利技术属性】
技术研发人员:童咏之贾焰周斌杨树强李爱平黄九鸣韩伟红江荣全拥邓璐刘强张涛胡玥刘心
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1