基于句法分析的微博情感分类方法和系统技术方案

技术编号:28035543 阅读:163 留言:0更新日期:2021-04-09 23:17
一种基于句法分析的微博情感分类方法,包括:S1:获取用于情感分析的微博短文本,根据情感极性进行文本类别标注并划分为训练集和测试集;S2:分别对训练集和测试集进行数据预处理;S3:对预处理后的每个样本进行依存句法分析,结合外部情感特征词典构建特征词库;S4:根据预先构建的情感特征词库,分别对训练集和测试集的初始特征集合进行特征扩展,使用TFIDF计算每个特征词的特征权值并向量化表示文本;S5:根据所述扩展后的训练样本集训练贝叶斯分类器,根据所述贝叶斯分类模型对扩展后的测试样本进行分类操作,得到微博情感分类结果。本发明专利技术还包括基于句法分析的微博情感分类系统。

【技术实现步骤摘要】
基于句法分析的微博情感分类方法和系统
本专利技术涉及中文短文本分类
,尤其是涉及一种基于句法分析的微博情感分类方法和系统。
技术介绍
作为当代最热门的社交软件之一,微博从发展至今拥有了上亿的用户群,由于微博信息发布速度快、传播范围广,成为了最受民众欢迎社交网络平台。在微博上,每一个人都可以畅所欲言,发表一些生活动态以及对时事新闻、娱乐八卦的看法,同时也可以快速获取我们想要了解的信息。微博传播的高效性、实时性在为我们带来了便利的同时,也会给社会带来一些消极负面的影响。微博短文本的情感分析,重点在于通过文本中包含的立场、观点、态度等主观信息对微博正负情感倾向性进行判断,实质上是一种中文短文本的分类问题。微博由于文本字数的限制(最多不超过140字),导致文本信息内容简短、情感特征稀疏,使得难以对其进行高效的分类。目前,微博情感分析的分类方法主要有两类:一类是基于外部语料库的方法,通过引入外部语料库对微博情感特征进行语义特征扩展,虽然能提高分类效果,但是很大程度上依赖于语料库的质量;另一类是基于深度学习的分类方法,使用深度学习模型进行情感本文档来自技高网...

【技术保护点】
1.一种基于句法分析的微博情感分类方法,包含以下步骤:/nS1:获取用于情感分析的微博短文本,根据情感极性进行文本类别标注并划分为训练集和测试集;/nS2:分别对训练集和测试集进行数据预处理,包括中文分词、去停用词;/nS3:对预处理后的每个样本进行依存句法分析,得到依存句法树;根据所述依存句法树采用基于句法路径的匹配算法进行微博情感特征选择,提取出具有明显情感倾向性的词汇作为初始特征集合,并结合外部情感特征词典构建特征词库;/nS4:根据预先构建的情感特征词库,分别对训练集和测试集的初始特征集合进行特征扩展,使用TFIDF计算每个特征词的特征权值并向量化表示文本;/nS5:根据所述扩展后的训...

【技术特征摘要】
1.一种基于句法分析的微博情感分类方法,包含以下步骤:
S1:获取用于情感分析的微博短文本,根据情感极性进行文本类别标注并划分为训练集和测试集;
S2:分别对训练集和测试集进行数据预处理,包括中文分词、去停用词;
S3:对预处理后的每个样本进行依存句法分析,得到依存句法树;根据所述依存句法树采用基于句法路径的匹配算法进行微博情感特征选择,提取出具有明显情感倾向性的词汇作为初始特征集合,并结合外部情感特征词典构建特征词库;
S4:根据预先构建的情感特征词库,分别对训练集和测试集的初始特征集合进行特征扩展,使用TFIDF计算每个特征词的特征权值并向量化表示文本;
S5:根据所述扩展后的训练样本集训练贝叶斯分类器,得到贝叶斯分类模型;根据所述贝叶斯分类模型对扩展后的测试样本进行分类操作,得到微博情感分类结果。


2.如权利要求1所述的基于句法分析的微博情感分类方法,其特征在于:步骤S1具体包含:
S11:在新浪微博等社交平台上,通过爬虫软件爬取一定数量且包含不同情感类别的微博短文本数据;
S12:将获取的文本数据进行数据清洗:删除空文本等无效样本数据,并通过正则表达式剔除微博短文本中包含的表情、链接、图片等噪声数据;
S13:根据微博文本内容,对每个微博样本的情感正负倾向性进行类别标注,微博情感主要划分为积极、中性以及消极三种情感类别;
S14:将微博短文本数据按3:1划分为训练集和测试集,训练集用于训练分类模型,测试集用于验证分类模型的有效性。


3.如权利要求1所述的基于句法分析的微博情感分类方法,其特征在于:步骤S2具体包含:
S21:利用中文分词工具,分别对训练集和测试集进行中文分词处理,并标注词性;
S22:根据预先建立的停用词表,剔除文本数据中出现的停用词,即一些无实际意义的字词、标点以及特殊符号。


4.如权利要求1所述的基于句法分析的微博情感分类方法,其特征在于:所述步骤S3具体包含:
S31:训练集数据以句子为单位,利用句法分析工具进行句法依存分析,得到文本的句法依存结构即依存关系,以及依存句法树;
S32:根据句法依存关系采用基于句法路径的匹配算法进行微博情感特征选择,提取出具有明显情感倾向性的词汇作为初始特征集合;
S33:结合外部情感特征词典,利用初始特征集合构建情感特征词库,用于扩展微博短文本的情感特征。


5.如权利要求1所述的基于句法分析的微博情感分类方法,其特征在于:所述步骤S4具体包含:
S41:根据所述预先构建的情感特征词库,分别对训练集和测试集的初始特征集合进行特征扩展;
S42:使用TFIDF对扩展后的训练集和测试集计算每个特征词的特征权值,TFIDF的具体计算公式为:



其中nij表示某一类别dj中字词wi出现的次数,而表示在该类dj中所有字词出现的次数之和,|D|表示语料库中的类目总数,|{j:wj∈dj}|表示包含字词wi的类目数;
S43:根据所述特征权值即ITIDF值,将训练集和测试集文本以向量化形式进行文本表示。


6.如权利要求1所述的基于句法分析的微博情感分类方法,其特征在于:所述步骤S5具体包含:
S51:通过扩展后的训练样本集训练贝叶斯分类器,得到贝叶斯分类模型;
S52:根据所述分类模型对扩展后的测试样本进行分类操作,得到微博情感分类结果。


7.一种基于句法分析的微博情感分类系统,其特征在于:包括:
数据获取模块,用于在新浪微博等社交平台上利用爬虫软件获取微博文本数据,根据微博内容进行情感标注并划分为训练集和测试集;
数据预处理模块:用于对微博文本数据进行预处理,包括文本清洗、中文分词以及去停用词等;

【专利技术属性】
技术研发人员:季白杨郑晓辉
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1