当前位置: 首页 > 专利查询>苏州大学专利>正文

基于微博的情感词提取收集方法技术

技术编号:6953272 阅读:565 留言:0更新日期:2012-04-11 18:40
本发明专利技术实施例公开了一种基于微博的情感词提取收集方法,其步骤包括:接收情绪图标,并获取与所述情绪图标相对应的情绪图标极性;利用所述情绪图标以及主题关键词搜索并收集微博语料;根据所述情绪图标极性对微博语料进行情感分类;对所述微博语料进行分词,并获取所述词的词性标注;使用特征提取方法从所述微博语料中提取情感词,并收集;本实施例提供的提取收集方法利于保障提取收集的情感词的规模和时效性,同时也大大提高了收集的情感词的正确率。

【技术实现步骤摘要】

本专利技术属于自然语言处理
,具体地说,是涉及一种。
技术介绍
随着互联网的不断发展,人们越来越习惯于在网络上表达自己的观点和情感。在网络上存在大量的带有情感倾向性的文本,这些带有情感倾向性文本往往以商品评论、论坛评论、博客的形式存在。为了自动获取和分析此类主观信息,文本情感分析(Sentiment Analysis)的研究得到了迅速发展,受到学术界和商业界的密切关注。情感词典构建是情感分析任务中的一个基础任务。情感词典有助于帮助自动分类句子级别或者篇章级别的情感极性(例如,正和负,褒和贬等),是众多情感分类方法的基础资源。情感词典的构建的任务可以理解为将词语按照情感倾向分为褒义、中性或者贬义, 它是文本情感分析研究中的一个重要的基础任务。目前,微博是《吐2. 0时代新兴起的一种集成化、开放化的互联网社交服务。它打通了移动通信网和互联网的界限,用户可以通过手机、IM软件和外部API接口等途径,即时向外发布140字以内的文本,越来越受到互联网用户的青睐。数据显示,截止到2011年5 月底,仅在Twitter网上的微博注册用户就已达3亿。以新浪微博为例,从2009年8月新浪微博开始发布到2011年4月,仅20个月的时间,新浪微博注册用户便达到1. 42亿,用户平均每天要发布近5000万条微博内容。随着微博用户的迅速增长,微博的发布量也在急速增长。重要的是,如此大规模的微博文本中包含了大量的评论文本,这些评论文本中包含的大量情感词,都能很好的反映人们对该微博文本的看法和意见,为文本情感分析的研究提供了丰富的资源。可是在实际收集工作中,大部分都是基于人工的收集方法,即给定词后,人工判断词语的情感极性。这种方法一个明显的不足就是人工对情感极性的标注代价比较大,不管是时间和经济方面,都需要付出很多。除了人工标注的方法外,也有些是使用自动判断的方法,例如使用HowNet资源的方法进行自动获取词语的情感倾向。但是,这些方法两个共同的不足,一是由于情感词的极性分类效果欠佳,获得的情感词极性正确率不高,二是由于资源的有限性,不能够及时对情感词进行更新。
技术实现思路
鉴于以上不足,本专利技术实施例提供了一种,即以微博为数据来源,结合情感图标收集评论文本,并使用特征提取方法收集情感词,实现情感词极性的正确率的提高。本专利技术提供的一种,其包括步骤接收情绪图标, 并获取与所述情绪图标相对应的情绪图标极性;利用所述情绪图标以及主题关键词搜索并收集微博语料;根据所述情绪图标极性对微博语料进行情感分类;对所述微博语料进行分4词,并获取所述词的词性标注;从使用特征提取方法所述微博语料中提取情感词,并收集。从以上技术方案可以看出,本专利技术实施例提供的情感词提取收集方法,主要是以微博为资源来源,利用少量情绪图标及其极性收集大量的情感语料,再结合特征提取方法抽取情感词,由于微博的文本资源极性丰富,牵涉的领域非常多,并且内容更新速度快,这样收集有利于保障提取收集的情感词的规模和时效性;而且由于情感图标表达情感极性的歧义小,结合特征提取方法,大大提高了收集的情感词的正确率。附图说明图1为本专利技术提供的一种中一实施例的方法流程图;图2为图1所述的提取收集方法中另一实施例的方法流程图。 具体实施例方式下面结合附图,对本专利技术实施例提供了一种作详细说明。本专利技术实施例提供的一种,请参考图1,其步骤包括101、接收情绪图标,并获取与情绪图标相对应的情绪图标极性;接收从至少一个微博文本中收集到的情绪图标,其中,情绪图标(Emotion Image) 是指微博文本中用来表达用户情绪的图标,接着,在接收这些收集到的情绪图标之后,根据预置的情绪图标及其情感极性的对应关系表,获取与收集到的情绪图标相对应的情绪图标极性。需要提出的是,情绪图标包括正面情绪图标和负面情绪图标,同样,所述情绪图标极性包括正面和负面。可以理解的是,在中文微博中会经常出现一些情绪图标,这些情绪图标用于表达用户的情绪,在一些评论博客文本中,这些情绪图标还可以表达明显的情感极性信息。例如表示失望的图标,在评论文本中出现这个图标同时也表示强烈的负面情感极性。由于这些情绪图标在不同领域都会出现,而且表达的情感信息一般比较一致,使用它们对文本情感极性进行分类具有领域独立性。为便于理解,本专利技术在预置的情绪图标及其情感极性的对应关系表中,从大量的情绪图标里选取了正面表情与负面表情各八种情绪倾向比较明确的情绪图标,具体如表1 中图标所示。表本文档来自技高网
...

【技术保护点】
1.一种基于微博的情感词提取收集方法,其特征在于,包括步骤:接收情绪图标,并获取与所述情绪图标相对应的情绪图标极性;利用所述情绪图标以及主题关键词搜索并收集微博语料;根据所述情绪图标极性对微博语料进行情感分类;对所述微博语料进行分词,并获取所述词的词性标注;使用特征提取方法从所述微博语料中提取情感词,并收集。

【技术特征摘要】
1.一种基于微博的情感词提取收集方法,其特征在于,包括步骤接收情绪图标,并获取与所述情绪图标相对应的情绪图标极性;利用所述情绪图标以及主题关键词搜索并收集微博语料;根据所述情绪图标极性对微博语料进行情感分类;对所述微博语料进行分词,并获取所述词的词性标注;使用特征提取方法从所述微博语料中提取情感词,并收集。2.根据权利要求1所述的提取收集方法,其特征在于,所述接收情绪图标,并获取与所述情绪图标相对应的情绪图标极性具体包括接收从微博文本中收集到的情绪图标,根据预置的情绪图标及其情感极性的对应关系表,获取与所述情绪图标相对应的情绪图标极性。3.根据权利要求1所述的提取收集方法,其特征在于,所述利用所述情绪图标以及主题关键词搜索并收集微博语料包括利用所述情绪图标以及主题关键词,并借助微博搜索平台,搜索并收集包含所述情绪图标以及主题关键词的微博语料。4.根据权利要求1所述的提取收集方法,其特征在于所述情绪图标包括正面情绪图标和负面情绪图标;所述情绪图标极性包括正面和负面。5.根据权利要求4所述的提取收集方法,其特征在于,所述根据所述情绪图标极性对微博语料进行情感分类包括根据所述情绪图标极性,若微博语料中仅出现了正面情绪图标,则将该微博语料分为正类微博语料;若仅出现负面情绪图标,则将该微博语料分为负类微博语料。6.根据权利要求1所述的提取收集方法,其特征在于,所述对所述微博语料进行分词, 并获取所述词的词性标注具体包括使用最大概率法或最大匹配法或条件随机场方法,...

【专利技术属性】
技术研发人员:李寿山王红玲周国栋
申请(专利权)人:苏州大学
类型:发明
国别省市:32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1