一种评论文本的情感倾向分析方法及装置制造方法及图纸

技术编号:22330175 阅读:32 留言:0更新日期:2019-10-19 12:17
本发明专利技术公开了一种评论文本的情感倾向分析方法及装置,方法包括:读取评论文本;将所述评论文本进行去重处理,得到第一文本集;将第一文本集通过TF‑IDF算法得到特征词的特征向量;将特征向量代入基于贝叶斯模型的情感分析模型得到情感分析值;根据情感分析值判断评论文本的情感倾向性,当情感分析值≥0.5且≤1时,则认为所述评论文本属于积极评论,当情感分析值≥0且<0.5时,则认为所述评论文本属于消极评论。装置包括:评论文本读取模块、去重处理模块、特征向量得到模块、情感分析值计算模块和判断模块;通过基于贝叶斯模型的情感分析模型对评论文本的情感倾向进行有效的分析。该方法和装置主要用于数据挖掘领域。

A method and device of sentiment analysis for comment text

【技术实现步骤摘要】
一种评论文本的情感倾向分析方法及装置
本专利技术涉及数据挖掘
,特别涉及一种评论文本的情感倾向分析方法及装置。
技术介绍
近年来互联网平台或者网站的评论多种多样,这些评论往往会影响用户对平台或者网站的情感倾向性。对于普通人来讲,面对海量的评论数据,如果人为逐条来看,既费时又费力。
技术实现思路
本专利技术的目的:提供了一种评论文本的情感倾向分析方法及装置,可以对海量的评论文本数据进行情感分析。本专利技术解决其技术问题的解决方案是:一种评论文本的情感倾向分析方法,包括:步骤1、读取评论文本;步骤2、将所述评论文本进行去重处理,得到第一文本集;步骤3、将第一文本集通过TF-IDF算法得到特征词的特征向量;步骤4、将特征向量代入基于贝叶斯模型的情感分析模型得到情感分析值;步骤5、根据情感分析值判断步骤1中读取的评论文本的情感倾向性,当情感分析值≥0.5且≤1时,则认为所述评论文本属于积极评论,当情感分析值≥0且<0.5时,则认为所述评论文本属于消极评论。进一步,在步骤4中,基于贝叶斯模型的情感分析模型为:其中,P(w1,····,wn)=P(w1,····,wn∣c1)·P(c1)+P(w1,····,wn∣c2)·P(c2),C1和C2表示为两个类别,wn表示为特征词的特征向量,n为自然数。进一步,在步骤2中,第一文本集的得到方法包括:步骤2.1、创建一个空的list表;步骤2.2、将评论文本以分隔标点符号进行分行,输出评论文本的行数j;步骤2.3、读取第i行的评论文本;步骤2.4、判断第i行的评论文本在list表是否存在,存在则转至步骤2.5,不存在则转至步骤2.6;步骤2.5、i=i+1,当i=j时,则进入步骤2.7,当i≠j时,则返回步骤2.3;步骤2.6、将第i行的评论文本加入list表数据,i=i+1,当i=j时,则进入步骤2.7,当i≠j时,则返回步骤2.3;步骤2.7、当i=j时,则将list表保存,并将保存后的list表记为第一文本集;其中,所述分隔标点符号包括:逗号、分号和句号,i和j均为自然数,i的初始值为1。进一步,在步骤1中,所述评论文本的读取方法包括:通过爬虫软件从网站讨论区中读取。一种评论文本的情感倾向性分析装置,包括:评论文本读取模块、去重处理模块、特征向量得到模块、情感分析值计算模块和判断模块;所述评论文本读取模块用于读取评论文本,并将读取的评论文本传递给去重处理模块;所述去重处理模块用于将所述评论文本进行去重处理,得到第一文本集,并将第一文本集传递给特征向量得到模块;所述特征向量得到模块用于将所述第一文本集通过TF-IDF算法得到特征词的特征向量,并将所述特征向量传递给情感分析值计算模块;所述情感分析值计算模块将所述特征向量代入基于贝叶斯模型的情感分析模型得到情感分析值,并将情感分析值传递给判断模块;所述判断模块用于根据情感分析值判断步骤1中读取的评论文本的情感倾向性,当情感分析值≥0.5且≤1时,则认为所述评论文本属于积极评论,当情感分析值≥0且<0.5时,则认为所述评论文本属于消极评论。进一步,所述基于贝叶斯模型的情感分析模型为:其中,P(w1,····,wn)=P(w1,····,wn∣c1)·P(c1)+P(w1,····,wn∣c2)·P(c2),C1和C2表示为两个类别,wn表示为特征词的特征向量,n为自然数。进一步,所述评论文本读取模块包括爬虫软件,所述爬虫软件用于从网站讨论区中读取评论文本。本专利技术的有益效果是:本方法和装置通过基于贝叶斯模型的情感分析模型对评论文本的情感倾向进行有效的分析,该方法和装置可以用于对评论文本的情感进行倾向性分析。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单说明。显然,所描述的附图只是本专利技术的一部分实施例,而不是全部实施例,本领域的技术人员在不付出创造性劳动的前提下,还可以根据这些附图获得其他设计方案和附图。图1是情感倾向分析方法的步骤流程图;图2是第一文本集的得到方法的步骤流程图;图3是情感倾向性分析装置的连接框图。具体实施方式以下将结合实施例和附图对本专利技术的构思、具体结构及产生的技术效果进行清楚、完整地描述,以充分地理解本专利技术的目的、特征和效果。显然,所描述的实施例只是本专利技术的一部分实施例,而不是全部实施例,基于本专利技术的实施例,本领域的技术人员在不付出创造性劳动的前提下所获得的其他实施例,均属于本专利技术保护的范围。另外,文中所提到的所有联接/连接关系,并非单指构件直接相接,而是指可根据具体实施情况,通过添加或减少联接辅件,来组成更优的联接结构。本专利技术创造中的各个技术特征,在不互相矛盾冲突的前提下可以交互组合。实施例一,参考图1,一种评论文本的情感倾向分析方法,包括:步骤S100、读取评论文本;步骤S200、将所述评论文本进行去重处理,得到第一文本集;步骤S300、将第一文本集通过TF-IDF算法得到特征词的特征向量;步骤S400、将特征向量代入基于贝叶斯模型的情感分析模型得到情感分析值;步骤S500、根据情感分析值判断步骤S100中读取的评论文本的情感倾向性,当情感分析值≥0.5且≤1时,则认为所述评论文本属于积极评论,当情感分析值≥0且<0.5时,则认为所述评论文本属于消极评论。其中,在步骤S400中,基于贝叶斯模型的情感分析模型为:其中,P(w1,····,wn)=P(w1,····,wn∣c1)·P(c1)+P(w1,…·,wn∣c2)·P(c2),C1和C2表示为两个类别,wn表示为特征词的特征向量,n为自然数。参考图2,在步骤S200中,第一文本集的得到方法包括:步骤S210、创建一个空的list表;步骤S220、将评论文本以分隔标点符号进行分行,输出评论文本的行数j;步骤S230、读取第i行的评论文本;步骤S240、判断第i行的评论文本在list表是否存在,存在则转至步骤S250,不存在则转至步骤S260;步骤S250、i=i+1,当i=j时,则进入步骤S270,当i≠j时,则返回步骤S230;步骤S260、将第i行的评论文本加入list表数据,i=i+1,当i=j时,则进入步骤S270,当i≠j时,则返回步骤S230;步骤S270、当i=j时,则将list表保存,并将保存后的list表记为第一文本集;其中,所述分隔标点符号包括:逗号、分号和句号,i和j均为自然数,i的初始值为1。在步骤S100中,所述评论文本的读取方法包括:通过爬虫软件从网站讨论区中读取。以将本申请的方法应用在金融贷款类平台的评论为例,其中,评论文本选用的是互联网金融平台用户评价讨论区的文本数据。得到文本数据后,需要进行一些预处理,需要对文本数据使用去重处理,本文使用python语言中的xlrd与xlwt库对表格数据进行处理,通过建立一个新的list表,往里面加入数据,通过遍历数据集与list表中的进行比对,没有重复则加入list的方法来进行去重处理,实现了数据清洗的过程。具体步骤如图2所示。在步骤S300中,TF-IDF算法(TermFrequency–InverseDocumentFrequency)是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF算法是一种统计方法,用以评估一字词对于本文档来自技高网...

【技术保护点】
1.一种评论文本的情感倾向分析方法,其特征在于,包括:步骤1、读取评论文本;步骤2、将所述评论文本进行去重处理,得到第一文本集;步骤3、将第一文本集通过TF‑IDF算法得到特征词的特征向量;步骤4、将特征向量代入基于贝叶斯模型的情感分析模型得到情感分析值;步骤5、根据情感分析值判断步骤1中读取的评论文本的情感倾向性,当情感分析值≥0.5且≤1时,则认为所述评论文本属于积极评论,当情感分析值≥0且<0.5时,则认为所述评论文本属于消极评论。

【技术特征摘要】
1.一种评论文本的情感倾向分析方法,其特征在于,包括:步骤1、读取评论文本;步骤2、将所述评论文本进行去重处理,得到第一文本集;步骤3、将第一文本集通过TF-IDF算法得到特征词的特征向量;步骤4、将特征向量代入基于贝叶斯模型的情感分析模型得到情感分析值;步骤5、根据情感分析值判断步骤1中读取的评论文本的情感倾向性,当情感分析值≥0.5且≤1时,则认为所述评论文本属于积极评论,当情感分析值≥0且<0.5时,则认为所述评论文本属于消极评论。2.根据权利要求1所述的一种评论文本的情感倾向分析方法,其特征在于,在步骤4中,基于贝叶斯模型的情感分析模型为:其中,P(w1,····,wn)=P(w1,····,wn∣c1)·P(c1)+P(w1,····,wn∣c2)·P(c2),C1和C2表示为两个类别,wn表示为特征词的特征向量,n为自然数。3.根据权利要求1所述的一种评论文本的情感倾向分析方法,其特征在于,在步骤2中,第一文本集的得到方法包括:步骤2.1、创建一个空的list表;步骤2.2、将评论文本以分隔标点符号进行分行,输出评论文本的行数j;步骤2.3、读取第i行的评论文本;步骤2.4、判断第i行的评论文本在list表是否存在,存在则转至步骤2.5,不存在则转至步骤2.6;步骤2.5、i=i+1,当i=j时,则进入步骤2.7,当i≠j时,则返回步骤2.3;步骤2.6、将第i行的评论文本加入list表数据,i=i+1,当i=j时,则进入步骤2.7,当i≠j时,则返回步骤2.3;步骤2.7、当i=j时,则将list表保存,并将保存后的list表记为第一文本集;其中,所述分隔标...

【专利技术属性】
技术研发人员:曾政多
申请(专利权)人:佛山科学技术学院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1