基于机器学习的影评情感倾向性分析的训练方法技术

技术编号:19424895 阅读:19 留言:0更新日期:2018-11-14 10:32
基于机器学习的影评情感倾向性分析的训练方法,属于自然语言处理领域,为了解决提高现有情感词典的影评情感分析准确性的问题,技术要点是:对影评进行下载;选取特征词;使用特征词集将每一条影评均以特征向量表示;将特征向量文本随机划分出训练集,并为训练集的每一特征向量添加积极或消极标签,训练朴素贝叶斯思想构建的分类器,效果是对于影评中具有等量积极和消极的词语,能更准确判断其整体倾向性。

【技术实现步骤摘要】
基于机器学习的影评情感倾向性分析的训练方法
本专利技术属于自然语言处理领域,涉及一种基于机器学习的影评情感倾向性分析的训练方法。
技术介绍
在各种论坛、购物网站、评论网站、微博等,越来越多的用户在上面发表着自己的意见、看法、态度、情感,如果能分析出用户的情感变化过程,那么这些评论就会为我们提供大量的信息。比如某个电影的评论,某个商品的评价等。根据对带有情感色彩的主观性文本进行分析,识别出用户的态度,是喜欢,讨厌,还是中立。在实际生活中有很多应用,例如通过对微博用户的情感分析,来预测股票走势、预测电影票房、选举结果等,还可以用来了解用户对公司、产品的喜好,分析结果可以被用来改善产品和服务,还可以发现竞争对手的优劣势等等。在现有的技术中,对文本的情感分析主要是基于情感词典的中文情感分析,情感词典中的词语可以是单个字,也可以是词语。根据词典中的情感词情感极性的不同,将情感词典分为褒义词典及贬义词典,根据词典中情感词的极性及情感强度,计算整个句子的情感得分,最后得出句子的情感倾向,然而,该种方法对于一个具有等量的极性不同情感词的影评的情感整体倾向性判断准确性不高。
技术实现思路
为了解决提高现有情感词典的影评情感分析准确性的问题,本专利技术提出如下技术方案:一种基于机器学习的影评情感倾向性分析的训练方法,包括以下步骤:步骤1:对影评进行下载;步骤2:选取特征词,根据已下载的影评,提取有意义的情感词的集合作为特征词集,特征词集中的每个词为特征词;步骤3:对已下载的影评处理,使用特征词集将每一条影评均以特征向量表示,其中,积极特征向量的集合为积极特征文本,消极特征向量的集合为消极特征文本,从中选取相同数量积极特征向量与消极特征向量组成特征向量文本;步骤4:将特征向量文本随机划分出训练集,并为训练集的每一特征向量添加积极或消极标签,训练朴素贝叶斯思想构建的分类器。进一步的,所述训练朴素贝叶斯思想构建的分类器的方法是:将训练集中特征向量分为积极和消极两类,构建为训练集的积极特征向量文本、消极特征向量文本,计算每类出现在训练集中的概率;按类别计算所述特征词集中的特征词在训练集的该类特征向量文本中出现的概率;计算所述特征词集中的特征词分别能够出现在训练集的每类的概率。进一步的,计算每类在训练集中的概率是:计算训练集中的消极分类的特征向量和积极分类的特征向量于训练集中出现的概率,训练集中积极分类的特征向量的集合为训练集积极特征向量文本,消极分类的特征向量的集合为训练集消极特征向量文本;按类别计算所述特征词集中的特征词在训练集的该类特征向量文本中出现的概率是:计算特征词在训练集积极特征向量文本中出现的次数占据训练集积极特征向量文本中的所有特征词数量的比例,计算特征词在训练集消极特征向量文本中出现的次数占据训练集消极特征向量文本中的所有特征词数量的比例。计算所述特征词集中的特征词分别能够出现在训练集的每类的概率是:计算特征词出现在训练集积极特征向量文本占据所述特征词出现在训练集中的比例,计算特征词出现在训练集消极特征向量文本占据所述特征词出现在训练集中的比例。进一步的,所述使用特征词集将每一条影评均以特征向量表示的方法是:判断特征词集中的每一个特征词是否在该影评中出现,如果出现标注1,否则标注0,形成该影评的数组,将每条影评都转化为特征表示形式,作为特征向量。进一步的,计算每类在训练集中的概率:计算p(Ci),其包括消极类概率与积极类概率:消极类概率:积极类概率:Ci表示分类的特征向量文本,i=0,1。按类别计算所述特征词集中的特征词在训练集的该类特征向量文本中出现的概率:计算p(wj|Ci),其包括特征词在训练集中消极特征向量文本中出现的概率与特征词在训练集中积极特征向量文本中出现的概率:特征词在训练集中消极特征向量文本中出现的概率:p(wj|C0)=[p(w0|C0),p(w1|C0),p(w2|C0),…,p(wn|C0)]特征词在训练集中积极特征向量文本中出现的概率:p(wj|C1)=[p(w0|C1),p(w1|C1),p(w2|C1),…,p(wn|C1)]Ci表示分类的特征向量文本,i=0,1,wj表示特征词集中的特征词,j=1,2…n,n是特征词集中的特征词的数量。进一步的,计算所述特征词集中的特征词能够分别出现在训练集的每类向量文本中的概率:计算p(Ci|wj),其包括特征词能够出现在训练集的消极类中的概率与特征词能够出现在训练集的积极类中的概率:特征词能够出现在训练集的消极类中的概率:p(C0|wj)=[p(C0|w0),p(C0|w1),p(C0|w2),…,p(C0|wn)]特征词能够出现在训练集的积极类中的概率:p(C1|wj)=[p(C1|w0),p(C1|w1),p(C1|w2),…,p(C1|wn)]Ci表示分类的特征向量文本,i=0,1,wj表示特征词集中的特征词,j=1,2…n,n是特征词集中的特征词的数量。有益效果:本专利技术训练方法是影评情感分析的前序步骤,该步骤的提出确立了使用机器学习方法对影评情感分析,并适应性提出相应的适合于影评的训练步骤,其中,使用特征词集将每一条影评均以特征向量表示,将特征向量文本随机划分出训练集,训练朴素贝叶斯思想构建的分类器,在分析中,对于影评中具有等量积极和消极的词语,能更准确判断其整体倾向性。附图说明图1为实施例1中基于机器学习的影评情感倾向性分析方法的流程图;图2为jieba分词提取主干处理结果图;图3为分类结果与伯努利朴素贝叶斯分类结果比较图;其中:实线为本专利技术的分类结果、虚线为伯努利朴素贝叶斯分类的结果;y轴为准确率、x轴为不同测试样本;图4为分类器构建示意图。具体实施方式实施例1:本实施例针对中文影评的情感倾向性分析,其提出了一种情感倾向的判别方法,主要包括训练方法、测试方法、分析方法,该方案使用机器学习的手段提取特征词、将文本转化为特征表示形式、通过朴素贝叶斯思想构建分类器,其转特征提取采用词性选取,避免因为影评少而没有提取出有意义的特征。本实施例公开的技术方案如下:一种基于机器学习的影评情感倾向性分析方法,包括以下步骤:步骤1:编写爬虫对豆瓣电影影评进行下载,下载的影评形成语料库;步骤(a):获取豆瓣中待下载电影的网址。步骤(b):下载每个电影对应的影评、电影名、评价人、评分、评论时间等信息,保存为csv格式。步骤2:提取特征,形成该语料库的特征集合:根据以下载的影评(即语料库中的各影评),提取语料库中各影评的有意义的情感词作为特征词,该步骤中,如果采用单一的方法,会导致无法提取较多有价值的特征词,所以在一种实施例中,结合下面两种方式提取特征词,能够提高对有价值特征词对提取率。步骤(a):使用jieba分词对语料库中所有影评进行分词处理,并提取出形容词、成语、区别词、动词的词语作为特征集合。步骤(b):使用jieba分词对语料库中所有影评进行提取主干处理,并提取其中主干词语加入特征集合。步骤(c):特征集合中可能存在停用词,因而使用停用词典去除停用词。步骤3:对影评进行处理,形成特征表示文本:步骤(a):使用jieba分词对语料库中每个影评进行分词,使用步骤2中得到的特征集合,判断特征集合中的每一个特征词是否在该影评中出现,如果出现标注1,否则本文档来自技高网...

【技术保护点】
1.一种基于机器学习的影评情感倾向性分析的训练方法,其特征在于,包括以下步骤:步骤1:对影评进行下载;步骤2:选取特征词,根据已下载的影评,提取有意义的情感词的集合作为特征词集,特征词集中的每个词为特征词;步骤3:对已下载的影评处理,使用特征词集将每一条影评均以特征向量表示,其中,积极特征向量的集合为积极特征文本,消极特征向量的集合为消极特征文本,从中选取相同数量积极特征向量与消极特征向量组成特征向量文本;步骤4:将特征向量文本随机划分出训练集,并为训练集的每一特征向量添加积极或消极标签,训练朴素贝叶斯思想构建的分类器。

【技术特征摘要】
1.一种基于机器学习的影评情感倾向性分析的训练方法,其特征在于,包括以下步骤:步骤1:对影评进行下载;步骤2:选取特征词,根据已下载的影评,提取有意义的情感词的集合作为特征词集,特征词集中的每个词为特征词;步骤3:对已下载的影评处理,使用特征词集将每一条影评均以特征向量表示,其中,积极特征向量的集合为积极特征文本,消极特征向量的集合为消极特征文本,从中选取相同数量积极特征向量与消极特征向量组成特征向量文本;步骤4:将特征向量文本随机划分出训练集,并为训练集的每一特征向量添加积极或消极标签,训练朴素贝叶斯思想构建的分类器。2.如权利要求1所述的基于机器学习的影评情感倾向性分析的训练方法,其特征在于,所述训练朴素贝叶斯思想构建的分类器的方法是:将训练集中特征向量分为积极和消极两类,构建为训练集的积极特征向量文本、消极特征向量文本,计算每类出现在训练集中的概率;按类别计算所述特征词集中的特征词在训练集的该类特征向量文本中出现的概率;计算所述特征词集中的特征词分别能够出现在训练集的每类的概率。3.如权利要求2所述的基于机器学习的影评情感倾向性分析的训练方法,其特征在于,计算每类在训练集中的概率是:计算训练集中的消极分类的特征向量和积极分类的特征向量于训练集中出现的概率,训练集中积极分类的特征向量的集合为训练集积极特征向量文本,消极分类的特征向量的集合为训练集消极特征向量文本;按类别计算所述特征词集中的特征词在训练集的该类特征向量文本中出现的概率是:计算特征词在训练集积极特征向量文本中出现的次数占据训练集积极特征向量文本中的所有特征词数量的比例,计算特征词在训练集消极特征向量文本中出现的次数占据训练集消极特征向量文本中的所有特征词数量的比例。计算所述特征词集中的特征词分别能够出现在训练集的每类的概率是:计算特征词出现在训练集积极特征向量文本占据所述特征词出现在训练集中的比例,计算特征词出现在训练集消极特征向量文本占据所述特征词出现在训练集中的比例。4.如权利要求1所述的基于机器学习的影评情感倾向性分析的训练方法...

【专利技术属性】
技术研发人员:赵丹丹高宠
申请(专利权)人:大连民族大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1