【技术实现步骤摘要】
本专利技术属于自然语言处理
,具体地说,是涉及一种。
技术介绍
随着互联网的不断发展,人们越来越习惯于在网络上表达自己的观点和情感。在网络上存在大量的带有情感倾向性的文本,这些带有情感倾向性文本往往以商品评论、论坛评论、博客的形式存在。为了自动获取和分析此类主观信息,文本情感分析(Sentiment Analysis)的研究得到了迅速发展,受到学术界和商业界的密切关注。情感词典构建是情感分析任务中的一个基础任务。情感词典有助于帮助自动分类句子级别或者篇章级别的情感极性(例如,正和负,褒和贬等),是众多情感分类方法的基础资源。情感词典的构建的任务可以理解为将词语按照情感倾向分为褒义、中性或者贬义, 它是文本情感分析研究中的一个重要的基础任务。目前,微博是《吐2. 0时代新兴起的一种集成化、开放化的互联网社交服务。它打通了移动通信网和互联网的界限,用户可以通过手机、IM软件和外部API接口等途径,即时向外发布140字以内的文本,越来越受到互联网用户的青睐。数据显示,截止到2011年5 月底,仅在Twitter网上的微博注册用户就已达3亿。以新浪微博为例,从2009年8月新浪微博开始发布到2011年4月,仅20个月的时间,新浪微博注册用户便达到1. 42亿,用户平均每天要发布近5000万条微博内容。随着微博用户的迅速增长,微博的发布量也在急速增长。重要的是,如此大规模的微博文本中包含了大量的评论文本,这些评论文本中包含的大量情感词,都能很好的反映人们对该微博文本的看法和意见,为文本情感分析的研究提供了丰富的资源。可是在实际收集工作中,大部分都是基于人工的 ...
【技术保护点】
1.一种基于微博的情感词提取收集方法,其特征在于,包括步骤:接收情绪图标,并获取与所述情绪图标相对应的情绪图标极性;利用所述情绪图标以及主题关键词搜索并收集微博语料;根据所述情绪图标极性对微博语料进行情感分类;对所述微博语料进行分词,并获取所述词的词性标注;使用特征提取方法从所述微博语料中提取情感词,并收集。
【技术特征摘要】
1.一种基于微博的情感词提取收集方法,其特征在于,包括步骤接收情绪图标,并获取与所述情绪图标相对应的情绪图标极性;利用所述情绪图标以及主题关键词搜索并收集微博语料;根据所述情绪图标极性对微博语料进行情感分类;对所述微博语料进行分词,并获取所述词的词性标注;使用特征提取方法从所述微博语料中提取情感词,并收集。2.根据权利要求1所述的提取收集方法,其特征在于,所述接收情绪图标,并获取与所述情绪图标相对应的情绪图标极性具体包括接收从微博文本中收集到的情绪图标,根据预置的情绪图标及其情感极性的对应关系表,获取与所述情绪图标相对应的情绪图标极性。3.根据权利要求1所述的提取收集方法,其特征在于,所述利用所述情绪图标以及主题关键词搜索并收集微博语料包括利用所述情绪图标以及主题关键词,并借助微博搜索平台,搜索并收集包含所述情绪图标以及主题关键词的微博语料。4.根据权利要求1所述的提取收集方法,其特征在于所述情绪图标包括正面情绪图标和负面情绪图标;所述情绪图标极性包括正面和负面。5.根据权利要求4所述的提取收集方法,其特征在于,所述根据所述情绪图标极性对微博语料进行情感分类包括根据所述情绪图标极性,若微博语料中仅出现了正面情绪图标,则将该微博语料分为正类微博语料;若仅出现负面情绪图标,则将该微博语料分为负类微博语料。6.根据权利要求1所述的提取收集方法,其特征在于,所述对所述微博语料进行分词, 并获取所述词的词性标注具体包括使用最大概率法或最大匹配法或条件随机场方法,...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。