The invention discloses a topic adaptive micro-blog emotion analysis method based on migration learning, which involves the field of data mining in social media. The invention first combines the emotional words of clinical psychology to extract emotional words to initialize the emotional analysis vector, then uses the semantic similarity between the topic information, and then the semantic similarity between the topic information is used. The similarity between the domain features and the distribution of features between the domains is the measure of the mobility of the instance data of the foreign domain. Finally, based on the design method, a strategy of micro-blog sentiment analysis in the practical application is designed. The invention can solve the problem of missing emotion data in micro-blog data under specific topic, thus training the emotion classifier adapted to the topic. This method does not directly affect the classification model itself, but changes the distribution of training samples, and further guarantees the independent and distribution hypothesis of the classification model, thus making the emotional classification model can achieve better results.
【技术实现步骤摘要】
一种基于迁移学习的话题自适应的微博情感分析方法
本专利技术属于社交媒体数据挖掘领域,尤其涉及一种基于迁移学习的话题自适应的微博情感分析方法。
技术介绍
互联网日益在大众生活中扮演着越来越重要的角色。人们通过网络联系他人,展示自己,分享自己的状态和见解是当前最为流行的互动方式。由此衍生出来的各类交友网站、论坛、贴吧、微博及微信,均以信息发布平台作为媒介,构建用于社会互联性质的应用服务。用户可以分享自己即刻的心情,也能就某一公共话题或社会现象发表自己的看法。作为近年来快速发展的新兴社会化媒体发布平台,微博凭借其短小灵活和快速的优点,受到广大互联网用户的推崇。微博虽微,但其传播信息的能力却十分强大。每天都有大量的信息通过微博产生和传播。官方数据显示,仅新浪微博用户平均每天发布的微博数量就高达一亿多条。除此之外,微博已成为继QQ、MSN等传统网络联系工具后的用户沟通新方式。微博强大的影响力也吸引着越来越多的人成为新加入的微博用户。从最初的主打年轻人市场的互联网应用服务到如今蔓延至社会各阶层和组织日常重要生活工具,其覆盖人群仍在不断扩大。用户数量增长迅速的同时,其应用领域也不断得到扩展。从最初小范围的Geek应用到如今已成为渗透至社会各领域的主流应用。无论你在现实生活中的身份如何,你都可以通过微博真实表达自己的理念,使得言语表达更加自由、随性。用户间的互粉既可以加深老朋友间的情谊,也能够结识和了解素昧谋面的陌生好友。企业能通过微博发布自己最新的动态来更加及时地传达消息给老顾客并吸引新顾客。政府和机构也能让群众更全面详实了解其运作和流程。如此之多传统博客所不具备的特点 ...
【技术保护点】
一种基于迁移学习的话题自适应的微博情感分析方法,其特征在于,所述方法具体包括以下步骤:步骤1)构造一个大规模的同时具有话题标注和情感标注短文本语料库;步骤2)为所述语料库中的每一个话题及其话题背景信息的文本提取出其对应的分布式词向量特征,得到语料库中领域的特征;步骤3)对于特定话题下的微博情感分析任务,获取相应的待分析目标数据及其话题;通过话题词映射的词向量,按照特定方式获取标注语料特征库中相似话题下的实例数据,用这些数据训练得到一个分类模型;步骤4)所述步骤3)得到的分类模型具有话题相关性,加上现有的人工标注的微博数据训练得到的分类模型,得到最终的情感分类模型,输出对目标微博进的情感分类。
【技术特征摘要】
1.一种基于迁移学习的话题自适应的微博情感分析方法,其特征在于,所述方法具体包括以下步骤:步骤1)构造一个大规模的同时具有话题标注和情感标注短文本语料库;步骤2)为所述语料库中的每一个话题及其话题背景信息的文本提取出其对应的分布式词向量特征,得到语料库中领域的特征;步骤3)对于特定话题下的微博情感分析任务,获取相应的待分析目标数据及其话题;通过话题词映射的词向量,按照特定方式获取标注语料特征库中相似话题下的实例数据,用这些数据训练得到一个分类模型;步骤4)所述步骤3)得到的分类模型具有话题相关性,加上现有的人工标注的微博数据训练得到的分类模型,得到最终的情感分类模型,输出对目标微博进的情感分类。2.根据权利要求1所述一种基于迁移学习的话题自适应的微博情感分析方法,其特征在于,所述步骤1)具体包括从互联网上搜集现有的能够公开活动并且具有情感标签的数据,对数据进行整理和处理,从而构造所述语料库。3.根据权利要求1所述一种基于迁移学习的话题自适应的微博情感分析方法,其特征在于,步骤2)具体包括基于word2vec方法为所述语料库中的每一...
【专利技术属性】
技术研发人员:童咏之,贾焰,周斌,杨树强,李爱平,黄九鸣,韩伟红,江荣,全拥,邓璐,刘强,张涛,胡玥,刘心,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:湖南,43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。