文本情感分析方法、装置及介质制造方法及图纸

技术编号:20680945 阅读:31 留言:0更新日期:2019-03-27 18:53
本发明专利技术实施例公开一种文本情感分析方法、装置及介质,该方法包括:获取待分析的单句文本;从所述单句文本中查找评价词,所述评价词为所述单句文本中与预设的关键词表达式匹配的字符串;从所述单句文本中查找出与所述评价词对应的评价对象;根据所述评价词的极性,记录所述评价词对应的评价对象的分数。采用上述技术方案中的文本情感分析方法,可以查找出更有针对性、极性更加准确的评价词,同时减少评价词与评价对象张冠李戴的情况,进而提升情感分析结果准确率。

【技术实现步骤摘要】
文本情感分析方法、装置及介质
本专利技术涉及情感分析
,具体涉及一种文本的情感分析方法、装置以及介质。
技术介绍
伴随电子商务的发展,大众对于商品、服务的态度都可以通过网络直接表达出来,这就产生了海量带有评价性的文本。如何解析这些文本,挖掘其中包含的情感倾向,对于各行各业来说都有着重要的意义。文本情感分析(sentimentanalysis),又被称为观点挖掘,主要是指对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。其目的是从文本中分析出人们对于实体或者实体的属性的情感倾向,例如评价、态度、情绪等。文本情感分析方法一般采用基于语义词典的方法,或者采用有监督地分类学习的方法。其中,基于语义词典的方法,需要事先建立语义词典,语义词典中包括许多情感词,以及与情感词对应的分值。一般来说,一个情感词对应的分值是正值,表示该情感词的情感倾向是正向的、积极的,即该情感词的极性为正评价;相反地,一个情感词对应的分值是负值,表示该情感词的情感倾向是负向的、消极的,即该情感词的极性为负评价。在分析时,一般先将待分析文本与语义词典中的情感词进行匹配;如果待分析文本中的一个字符串能够与某一个情感词匹配上,就把该字符串提取出来作为评价词,并将该情感词对应的分值赋予给该评价词。最后,计算该待分析文本的总分,就作为该待分析文本的情感分析结果。其分析结果所针对的评价对象往往是事先确定的,或者通过其他方法单独从文本中提取出来的。当事先确定的或者单独提取的评价对象存在多个时,利用上述的基于语义词典的情感分析方法,对评价对象的情感分析结果准确率较低,这是本领域技术人员亟待解决的问题。
技术实现思路
为解决上述技术问题,本申请提供一种文本情感分析方法,以提高情感分析结果的准确率。第一方面,提供一种文本情感分析方法,包括:获取待分析的单句文本;从所述单句文本中查找评价词,所述评价词为所述单句文本中与预设的关键词表达式匹配的字符串;从所述单句文本中查找出与所述评价词对应的评价对象;根据所述评价词的极性,记录所述评价词对应的评价对象的分数。结合第一方面,在第一方面第一种可能的实现方式中,从所述单句文本中查找出与所述评价词对应的评价对象的步骤,包括:根据所述评价词在所述单句文本中的位置,确定第一查找区域;从所述第一查找区域中查找出与所述评价词对应的评价对象。结合第一方面的第一种实现方式,在第一方面第二种可能的实现方式中,根据所述评价词在所述单句文本中的位置,确定第一查找区域的步骤,包括:根据所述评价词所匹配的关键词表达式,确定与所述关键词表达式对应的区域确定规则;根据所述区域确定规则,以及所述评价词在所述单句文本中的位置,确定第一查找区域。结合第一方面及上述可能的实现方式,在第一方面第三种可能的实现方式中,从所述第一查找区域中查找出与所述评价词对应的评价对象的步骤,包括:如果从所述第一查找区域中查找出多个评价对象,则判断所述多个评价对象之间的关系是否为并列关系;如果是并列关系,则分别构建所述多个评价对象与所述评价词之间的对应关系。结合第一方面及上述可能的实现方式,在第一方面第四种可能的实现方式中,确定所述评价词的极性的步骤,包括:根据所述评价词匹配的关键词表达式对应的极性,确定所述评价词的极性。结合第一方面及上述可能的实现方式,在第一方面第五种可能的实现方式中,确定所述评价词的极性的步骤,还包括:如果所述关键词表达式对应预设的第一标识,则根据所述评价词在所述单句文本中的位置,确定第二查找区域;如果所述第二查找区域中包含预设的否定词,则将所述评价词的极性更新为与当前相反的极性。结合第一方面及上述可能的实现方式,在第一方面第六种可能的实现方式中,所述关键词表达式对应预设的评价维度;根据所述评价词的极性,记录所述评价词对应的评价对象的分数的步骤,包括:根据所述评价词匹配的关键词表达式对应的评价维度,确定所述评价词对应的评价维度;根据所述评价词的极性,记录所述评价词对应的评价对象在所述评价维度上的分数。结合第一方面及上述可能的实现方式,在第一方面第七种可能的实现方式中,获取待分析的单句文本的步骤,包括:获取待分析文本;利用训练好的分类器对待分析文本分类,其中,分类的类别包括评价类别,所述分类器通过带类别标注的文本训练分类模型而得到;如果待分析文本属于评价类别,则根据预设的分隔符,将所述待分析文本分割为至少一个单句文本。第二方面,提供一种文本情感分析装置,包括:获取模块,用于获取待分析的单句文本;处理模块,用于从所述单句文本中查找评价词;从所述单句文本中查找出与所述评价词对应的评价对象;以及,根据所述评价词的极性,记录所述评价词对应的评价对象的分数,其中,所述评价词为所述单句文本中与预设的关键词表达式匹配的字符串。第三方面,提供一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时,使得所述计算机执行第一方面的任一种方法。上述的情感分析方法,首先获取待分析的单句文本,然后利用关键词表达式从单句文本中查找出评价词。再从单句文本中查找出与评价词对应的评价对象,根据评价词的极性,记录评价词对应的评价对象的分数。通过这样的方法,一方面,由于关键词表达式中可以考虑到词语的不同组合或者多种不同的句式,从而能够查找出更有针对性、极性更加准确的评价词;另一方面,根据评价词的极性为评价词对应的评价对象打分,减少评价词与评价对象张冠李戴的情况,进而提升情感分析结果准确率。附图说明为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请文本情感分析方法的一个具体实施方式的流程图;图2为本申请文本情感分析方法的一个具体实施方式中,S300步骤的其中一种实现方式的流程图;图3为本申请文本情感分析方法的一个具体实施方式中,S310步骤的其中一种实现方式的流程图;图4为本申请文本情感分析方法的一个具体实施方式中,S320步骤的其中一种实现方式的流程图;图5为本申请文本情感分析方法的一个具体实施方式中,确定评价词的极性的步骤的其中一种实现方式的流程图;图6为本申请文本情感分析方法的一个具体实施方式中,S400步骤的其中一种实现方式的流程图;图7为本申请文本情感分析装置的一个具体实施方式的结构示意图。具体实施方式下面对本申请的实施例作详细说明。当事先确定的或者单独提取的评价对象存在多个时,利用基于语义词典的情感分析方法,对评价对象的情感分析结果准确率较低,其原因主要有两个。第一,语义词典中的情感词均是单个的词语,在查找评价词时,仅仅将待分析文本词简单地与情感词进行匹配,而未考虑词语组合以及句式的不同对于文本的情感倾向的影响。例如,在物流领域的文本中,“送货慢”是一个负评价的词,“及时”是一个正评价的词。而像“还不到”、“X天”这样的词,由于本身并没有表示正向或者负向的情感倾向,因而并没有被收录在语义词典中。对于文本1“快递等了五天还不到”来说,其不能与语义词典中的任何一个情感词匹配上。因而利用基于语义词典的方法,会无法得到文本1的情感分析结果,或者将文本1确定为中性的评价。但是文本1实际上通过“X天”和“还不到”的组合,表达本文档来自技高网
...

【技术保护点】
1.一种文本情感分析方法,其特征在于,包括:获取待分析的单句文本;从所述单句文本中查找评价词,所述评价词为所述单句文本中与预设的关键词表达式匹配的字符串;从所述单句文本中查找出与所述评价词对应的评价对象;根据所述评价词的极性,记录所述评价词对应的评价对象的分数。

【技术特征摘要】
1.一种文本情感分析方法,其特征在于,包括:获取待分析的单句文本;从所述单句文本中查找评价词,所述评价词为所述单句文本中与预设的关键词表达式匹配的字符串;从所述单句文本中查找出与所述评价词对应的评价对象;根据所述评价词的极性,记录所述评价词对应的评价对象的分数。2.根据权利要求1所述的文本情感分析方法,其特征在于,从所述单句文本中查找出与所述评价词对应的评价对象的步骤,包括:根据所述评价词在所述单句文本中的位置,确定第一查找区域;从所述第一查找区域中查找出与所述评价词对应的评价对象。3.根据权利要求2所述的文本情感分析方法,其特征在于,根据所述评价词在所述单句文本中的位置,确定第一查找区域的步骤,包括:根据所述评价词所匹配的关键词表达式,确定与所述关键词表达式对应的区域确定规则;根据所述区域确定规则,以及所述评价词在所述单句文本中的位置,确定第一查找区域。4.根据权利要求2所述的文本情感分析方法,其特征在于,从所述第一查找区域中查找出与所述评价词对应的评价对象的步骤,包括:如果从所述第一查找区域中查找出多个评价对象,则判断所述多个评价对象之间的关系是否为并列关系;如果是并列关系,则分别构建所述多个评价对象与所述评价词之间的对应关系。5.根据权利要求1所述的文本情感分析方法,其特征在于,确定所述评价词的极性的步骤,包括:根据所述评价词匹配的关键词表达式对应的极性,确定所述评价词的极性。6.根据权利要求5所述的文本情感分析方法,其特征在于,确定所述...

【专利技术属性】
技术研发人员:任宁晋耀红李德彦
申请(专利权)人:北京神州泰岳软件股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1