一种文本的情感分析方法、装置、电子设备及存储介质制造方法及图纸

技术编号:21361369 阅读:18 留言:0更新日期:2019-06-15 09:20
本发明专利技术实施例涉及数据处理领域,公开了一种文本的情感分析方法、装置、电子设备及存储介质。本申请的部分实施例中,文本的情感分析方法,包括:获取待分析文本中的词汇;根据情感词典,确定待分析文本中属于情感词典的词汇的极性分数;针对待分析文本中的每个不属于情感词典的词汇,分别进行以下操作:确定情感词典中与不属于情感词典的词汇最接近的单词;根据最接近的单词的极性分数,确定不属于情感词典的词汇的极性分数;根据待分析文本中的每个词汇的极性分数,确定待分析文本的情感分析结果。该实现中,根据最接近的单词的极性分数,为文本中不属于情感词典的词汇赋予极性分数,提高了文本的情感分析的准确性。

A Text Emotional Analysis Method, Device, Electronic Equipment and Storage Media

The embodiment of the present invention relates to the field of data processing, and discloses an emotional analysis method, device, electronic device and storage medium for text. In some embodiments of the present application, the emotional analysis method of the text includes: acquiring the words in the text to be analyzed; determining the polarity score of the words belonging to the emotional dictionary in the text to be analyzed according to the emotional dictionary; and performing the following operations for each word not belonging to the emotional dictionary in the text to be analyzed: determining the most important words in the emotional dictionary and those not belonging to the emotional dictionary. According to the polarity scores of the nearest words, the polarity scores of words that do not belong to the emotional dictionary are determined. According to the polarity scores of each word in the text to be analyzed, the emotional analysis results of the text to be analyzed are determined. In this implementation, according to the polarity score of the nearest word, the polarity score is given to words that are not part of the emotional dictionary in the text, which improves the accuracy of the emotional analysis of the text.

【技术实现步骤摘要】
一种文本的情感分析方法、装置、电子设备及存储介质
本专利技术实施例涉及数据处理领域,特别涉及一种文本的情感分析方法、装置、电子设备及存储介质。
技术介绍
目前,社交媒体上有大量关于产品和服务的用户评论或评价,它已经成为用户日常决策的信息来源。由于对某个产品的大量不同意见,用户可能很难根据这些评论或评价总结出总体的情感。情感词典(SentiWordNet)被认为是一种有效的情感分析词汇资源。SentiWordNet中的每个术语都与一组表示其积极性、消极性和中性的分数相关联。分数可以取决于术语的词性标记。它通常用于情感分析,它是确定文本情感取向(积极、消极或中性)的方法的集合。然而,专利技术人发现现有技术中至少存在如下问题:目前,SentiWordNet是确定文本极性的最常用的情感词典。然而,若需要分析的文本中的词汇里有大量的词汇没有出现在SentiWordNet中,这将限制情感分析的结果的正确率。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本专利技术实施方式的目的在于提供一种文本的情感分析方法、装置、电子设备及存储介质,使得能够确定文本的情感。为解决上述技术问题,本专利技术的实施方式提供了一种文本的情感分析方法,包括以下步骤:获取待分析文本中的词汇;根据情感词典,确定待分析文本中属于情感词典的词汇的极性分数;其中,情感词典用于确定情感词典所包含的单词的极性分数;针对待分析文本中的每个不属于情感词典的词汇,分别进行以下操作:确定情感词典中与不属于情感词典的词汇最接近的单词;根据最接近的单词的极性分数,确定不属于情感词典的词汇的极性分数;根据待分析文本中的每个的极性分数,确定待分析文本的情感分析结果。本专利技术的实施方式还提供了一种文本的情感分析装置,包括:获取模块、第一确定模块、第二确定模块和第三确定模块;获取模块用于获取待分析文本中的词汇;第一确定模块用于根据情感词典,确定待分析文本中属于情感词典的词汇的极性分数;其中,情感词典用于确定情感词典所包含的单词的极性分数;第二确定模块用于针对待分析文本中的每个不属于情感词典的词汇,分别进行以下操作:确定情感词典中与不属于情感词典的词汇最接近的单词;根据最接近的单词的极性分数,确定不属于情感词典的词汇的极性分数;第三确定模块用于根据待分析文本中的词汇的极性分数,确定待分析文本的情感分析结果。本专利技术的实施方式还提供了一种电子设备,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述实施方式提及的文本的情感分析方法。本专利技术的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现上述实施方式提及的文本的情感分析方法。本专利技术实施方式相对于现有技术而言,根据情感词典中与待分析文本的不属于情感词典的词汇最接近的单词的极性分数,为待分析文本中不属于情感词典的词汇赋予极性分数,使得待分析文本中的词汇都能够具有极性分数,进而提高了对待分析文本的情感分析结果的准确性。另外,确定情感词典中与不属于情感词典的词汇最接近的单词,具体包括:确定不属于情感词典的词汇的第一词向量,以及情感词典的每个单词的第二词向量;确定每个第二词向量各自与第一词向量之间的距离;将与第一词向量距离最近的第二词向量所对应的单词,作为与不属于情感词典的词汇最接近的单词。该实现中,根据词向量之间的距离确定与不属于情感词典的词汇最接近的单词,使得能够从多维度考虑不属于情感词典的词汇与情感词典中的单词的相似性。另外,确定每个第二词向量各自与第一词向量之间的距离,具体包括:针对每个第二词向量,分别进行以下操作:按照公式a计算第二词向量与第一词向量的距离;其中,公式a为:其中,ai表示第二词向量,j表示第一词向量,‖A‖[F]表示第一词向量与第二词向量之间的距离,abs是绝对值函数。另外,确定不属于情感词典的词汇的第一词向量,以及情感词典的每个单词的第二词向量,具体包括:使用词向量模型Word2VEC方法,确定第一词向量,以及第二词向量。该实现中,通过Word2VEC方法能够快速有效地将一个词语表达成向量形式,提高了电子设备的处理速度。另外,根据情感词典,确定待分析文本中属于情感词典的词汇的极性分数,具体包括:确定属于情感词典的词汇在待分析文本中的词性;查询情感词典,确定属于情感词典的词汇在待分析文本中的词性对应的极性分数的平均值;将属于情感词典的词汇在待分析文本中的词性对应的极性分数的平均值,作为词汇的极性分数。另外,根据待分析文本中的词汇的极性分数,确定待分析文本的情感分析结果,具体包括:计算待分析文本中的所有词汇的极性分数的平均值;根据所有词汇的极性分数的平均值,确定待分析文本的情感分析结果。另外,在根据最接近的单词的极性分数,确定不属于情感词典的词汇的极性分数之后,文本的情感分析方法还包括:根据不属于情感词典的词汇,以及不属于情感词典的词汇的极性分数,更新情感词典。该实现中,能够在情感词典的使用过程中,不断丰富情感词典,提高情感词典的词汇量。附图说明一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。图1是本专利技术的第一实施方式的文本的情感分析方法的流程图;图2是本专利技术的第二实施方式的文本的情感分析方法的流程图;图3是本专利技术的第三实施方式的文本的情感分析装置的结构示意图;图4是本专利技术的第四实施方式的电子设备的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本专利技术各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。本专利技术的第一实施方式涉及一种文本的情感分析方法,应用于电子设备,例如,电脑、手机等各种移动终端。如图1所示,该情感分析方法包括以下步骤:步骤101:获取待分析文本中的词汇。具体地说,电子设备可以通过分词工具,例如,结巴分词,提取待分析文本中的词汇。需要说明的是,本领域技术人员可以理解,本实施方式仅为举例说明,实际应用中,可以根据需要选择用于提取待分析文本中的词汇的工具,本实施方式不限定提取待分析文本中的词汇的方法。步骤102:根据情感词典,确定待分析文本中属于情感词典的词汇的极性分数。具体地说,情感词典用于确定情感词典所包含的单词的极性分数,情感词典中包括N个单词,N个正整数。其中,极性分数也可以称为情感分数。在一个例子中,情感词典为sentiwordnet,包括其所记录的每个单词的词性、单词的身份标识、积极得分、消极得分、单词的含义和单词的同义词等。在一个例子中,电子设备确定待分析文本中属于情感词典的词汇的极性分数的方法为:电子设备确定属于情感词典的词汇在待分析文本中的词性;查询情感词典,确定属于情感词典的词汇在待分本文档来自技高网...

【技术保护点】
1.一种文本的情感分析方法,其特征在于,包括:获取待分析文本中的词汇;根据情感词典,确定所述待分析文本中属于所述情感词典的词汇的极性分数;其中,所述情感词典用于确定所述情感词典所包含的单词的极性分数;针对所述待分析文本中的每个不属于所述情感词典的词汇,分别进行以下操作:确定所述情感词典中与所述不属于所述情感词典的词汇最接近的单词;根据所述最接近的单词的极性分数,确定所述不属于所述情感词典的词汇的极性分数;根据所述待分析文本中的词汇的极性分数,确定所述待分析文本的情感分析结果。

【技术特征摘要】
2018.12.29 CN 201811633385X1.一种文本的情感分析方法,其特征在于,包括:获取待分析文本中的词汇;根据情感词典,确定所述待分析文本中属于所述情感词典的词汇的极性分数;其中,所述情感词典用于确定所述情感词典所包含的单词的极性分数;针对所述待分析文本中的每个不属于所述情感词典的词汇,分别进行以下操作:确定所述情感词典中与所述不属于所述情感词典的词汇最接近的单词;根据所述最接近的单词的极性分数,确定所述不属于所述情感词典的词汇的极性分数;根据所述待分析文本中的词汇的极性分数,确定所述待分析文本的情感分析结果。2.根据权利要求1所述文本的情感分析方法,其特征在于,所述确定所述情感词典中与所述不属于所述情感词典的词汇最接近的单词,具体包括:确定所述不属于所述情感词典的词汇的第一词向量,以及所述情感词典的每个单词的第二词向量;确定每个所述第二词向量各自与所述第一词向量之间的距离;将与所述第一词向量距离最近的第二词向量所对应的单词,作为与所述不属于所述情感词典的词汇最接近的单词。3.根据权利要求2所述的文本的情感分析方法,其特征在于,所述确定每个所述第二词向量各自与所述第一词向量之间的距离,具体包括:针对每个第二词向量,分别进行以下操作:按照公式a计算所述第二词向量与所述第一词向量的距离;其中,公式a为:其中,ai表示所述第二词向量,j表示所述第一词向量,‖A‖[F]表示所述第一词向量与所述第二词向量之间的距离,abs是绝对值函数。4.根据权利要求2所述的文本的情感分析方法,其特征在于,所述确定所述不属于所述情感词典的词汇的第一词向量,以及所述情感词典的每个单词的第二词向量,具体包括:使用词向量模型Word2VEC方法,确定所述第一词向量,以及所述第二词向量。5.根据权利要求1所述的文本的情感分析方法,其特征在于,所述根据情感词典,确定所述待分析文本中属于所述情感词典的词汇的极性分数,具体包括:确定所述属于所述情感词典的词汇在所述待分析文本中的词性;查...

【专利技术属性】
技术研发人员:陈海波
申请(专利权)人:深兰科技上海有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1