当前位置: 首页 > 专利查询>天津大学专利>正文

能同时过滤无关评论和对相关评论进行情感分类的方法技术

技术编号:23446301 阅读:34 留言:0更新日期:2020-02-28 20:21
本发明专利技术公开一种能同时过滤无关评论和对相关评论进行情感分类的方法,主要步骤:首先,对短文本进行预处理;其次,利用HSSWE模型训练词向量;再次,利用WMD模型获得文档之间的距离;最后,利用分类器对目标文档进行分类。利用短文本种类的判别和情感技术,可以精确的得出群众的满意度,对于后续政策的制定具有重要的意义。较现有的技术来说具有明显的优势,它能够在判断短文本情感的时候,自动的过滤掉无关的文本,提高了分类算法的精度。

A method that can filter irrelevant comments and classify related comments at the same time

【技术实现步骤摘要】
能同时过滤无关评论和对相关评论进行情感分类的方法
本专利技术属于计算机自然语言处理领域,具体涉及的是一种能同时过滤无关评论和对相关评论进行情感分类的方法。
技术介绍
随着社会和计算机技术的发展,人们更倾向于在网络上表达自己的看法。及时的获取和挖掘人们的观点,对于舆情的把控和商品的改进都具有重要的意义。在现有的技术中,在对文本情感分类时,大部分情况下对无关的评论是不做任何处理,这在统计的结果上会造成精度的损失。本专利技术是一种能够同时过滤无关评论和对相关评论进行情感分类的技术,主要涉及情感分类和短文本的种类划分两方面的技术,下面介绍目前这两种技术的发展。最近几年,在短文本情感分类方面有很多的研究。主要目标是将短文本的情感分成正性,负性,和中性。使用的方法主要有基于机器学习的方法和基于情感词典的方法。在机器学习方面,Pangetal[8]通过手动的标注部分短文本的情感作为特征,然后使用SVM,NativeBayes,MaximumEntropy分类算法,实现了短文本的情感分类。在这个方向上,主要关注于设计有效的特征,进而获得更好的分类表现。本文档来自技高网...

【技术保护点】
1.能同时过滤无关评论和对相关评论进行情感分类的方法,其特征在于,该方法包括如下步骤:/n1)对短文本进行预处理;/n2)利用HSSWE模型训练词向量;/n3)利用WMD模型获得文档之间的距离;/n4)利用分类器对目标文档进行分类。/n

【技术特征摘要】
1.能同时过滤无关评论和对相关评论进行情感分类的方法,其特征在于,该方法包括如下步骤:
1)对短文本进行预处理;
2)利用HSSWE模型训练词向量;
3)利用WMD模型获得文档之间的距离;
4)利用分类器对目标文档进行分类。


2.根据权利要求1所述的能同时过滤无关评论和对相关评论进行情感分类的方法,其特征在于,所述步骤1)具体为:
(1)爬取目标网站的评论数据,组成实验中的语料库;
(2)去除语料库中无关的符号,标点符号包括。?!,、;:“”‘’()-……《》;
(3)使用分词工具对获取的评论数据进行分词处理;
(4)去除分词后语料库中无关的停用词;
(5)根据短文本中的表情符号对每个文本进行情感标注,对于没有情感符号的短文本,选择去除;
对于出现多个表情符号的短文本,选择最后一个表情符号作为短文本情感的极性;
(6)根据SO-PMI对每个词进行情感标注。


3.根据权利要求1所述的能同时过滤无关评论和对相关评论进行情感分类的方法,其特征在于,所述步骤2)具体步骤如下:
(1)取一个短文本t1,t2,……tn-1,tn将它作为输入;
(2)将评论中的每一个词向量化,根据词向量矩阵En*m,将每一个词ti映射成它所对应的向量ei,其中En*m是随机初始化的一个词向量矩阵,在后续步骤中将使用BP算法更新该词向量矩阵;
(3)通过词向量ei得到短文本向量de,这里使用如下公式得到de,



de是一个1*m维的向量,d代表一个短文本中词的个数;
(4)根据短文本的词向量de和下面的公式,表示出该短文本分别是正向情感和负向情感的概率:
p(+|de)=softmax(θd·de+bd)
p(-|de)=1-softmax(θd·de+bd)
θd是Softmax函数的权重参数,bd是Softmax函数的偏置参数;
(5)根据步骤(4)得出来的概率,采用交叉熵函数定义文档级别的损失函数:



N表示的是短文本的个数;
(6)对于每一个词,分别算出其属于正向情感和负向情感的概率:
p(+|e)=softmax(θt·e+bt)
p(-|...

【专利技术属性】
技术研发人员:沈幸博孙越恒
申请(专利权)人:天津大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1