当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于句子结构及上下文的短文本情感值计算方法技术

技术编号:19646989 阅读:26 留言:0更新日期:2018-12-05 20:30
本发明专利技术涉及一种基于句子结构及上下文的短文本情感值计算方法。拿到任何一个待分析的文本数据;通过基于Java的分词程序,对文本数据进行分词处理;通过计算机编程,结合字符串匹配算法,确定待分析文本的句子结构;将待分析的文本对应到相应的句子结构,计算每一子句的情感得分;实现待分析文本的上下文情感得分;一部分是出现在该文本之前的评论数据,依据距离当前数据的距离,计算对当前数据造成的影响,另一部分就是新闻本身所产生的情感值;本发明专利技术的情感词典的建立基于开源的情感词典:大连理工大学情感词汇本体。结合情感词典,计算短文本的情感值,这种方法计算出的情感值准确率更高,用于舆情分析等领域的效果会更好。

A Method for Computing Emotional Value of Short Text Based on Sentence Structure and Context

The present invention relates to a method for calculating emotional value of short text based on sentence structure and context. Get any text data to be analyzed; process the text data by Java-based word segmentation program; determine the sentence structure of the text to be analyzed by computer programming combined with string matching algorithm; correspond the text to be analyzed to the corresponding sentence structure and calculate the emotional score of each sentence; Realize the contextual emotional score of the text to be analyzed; one part is the commentary data appearing before the text, calculating the impact on the current data according to the distance from the current data; the other part is the emotional value generated by the news itself; the establishment of the emotional Dictionary of the present invention is based on the open source emotional dictionary: The ontology of emotional vocabulary in LIT. Combining with emotional dictionary, the method calculates the emotional value of short text, which has higher accuracy and better effect in public opinion analysis and other fields.

【技术实现步骤摘要】
一种基于句子结构及上下文的短文本情感值计算方法
本专利技术涉及自然语言处理技术,特别是涉及一种基于句子结构及上下文的短文本情感值计算方法。
技术介绍
对文本的情感分析是自然语言处理领域的一个重要的问题,因此关于文本情感值的计算在文本情感分析中发挥着很重要的作用。尤其是近几年,随着微博等社交媒体的蓬勃发展,关于短文本的情感分析被越来越广泛的用于学术研究。目前对文本情感分析的方法主要有两种,一种是机器学习的方法,另一种是基于规则的分类方法。机器学习分类方法主要是将情感词作为分类特征,依据情感词典实现对文本的分类。主要方法有朴素贝叶斯(NB)、支持向量机(SVM)和最大熵模型(ME),依据其中一种方法,可以实现情感的分类任务。基于规则的方法,主要是依据句子中的情感词的极性决定整个句子的情感极性,且评估单元的情感识别来保证方法准确性。但是,由于更深层次的情感分析涉及到对句子的语义分析,因此更多的方法被提出,如:一种基于句法规则的短文本情感分析方法以及基于上下文的短文本的情感分析方法,前者依据情感词典以及句子的结构以及各整句话中各从句之间的关系计算整个句子的情感值,从而反映句子的情感倾向及情感强弱。后者主要是考虑到社交媒体的评论者之间的互相影响,在计算当前评论者情感值时考虑到其上下楼评论情感倾向以及原始博文的情感值对目标评论数据的影响。但是,因为句子的语义收句子本身结构的影响,同时也与句子上下文内容相关,目前,并没有一种方法既考虑句子的结构又考虑句子的上下文关系,因此本专利技术提出一种基于句子结构及上下文的短文本情感值计算方法,既考虑句子的结构,又考虑上下文对句子本身的影响,实现句子情感值的计算,实现短文本的情感分析。
技术实现思路
现有方案基本上基于情感词典和机器学习的方法进行短文本情感值的计算,该方案综合考虑了句子结构以及句子上下文信息,结合情感词典,计算短文本的情感值,这种方法计算出的情感值准确率更高,用于舆情分析等领域的效果会更好。本专利技术的技术方案如下:一种基于句子结构及上下文的短文本情感值计算方法,所描述的情感分析方法包括:1)拿到任何一个待分析的文本数据;2)通过基于Java的分词程序,对文本数据进行分词处理,其中,分词程序基于实现已经构建好的情感词典,存储在计算机中,分词的开始,需要读取存储在计算机中的情感词典,情感词典中的情感词共有七种词性;情感词典中的情感词性见下表描述:3)通过计算机编程,结合字符串匹配算法,确定待分析文本的句子结构;本专利技术所描述的句子结构考虑三种;4)通过计算机编程,将待分析的文本对应到相应的句子结构,计算每一子句的情感得分,其中:确定文本的结构属于并列关系时,计算各个子句的情感值得分:将字句中出现的情感词的情感值进行叠加,整个文本的基于结构计算的情感值为各个子句乘以子句总数的倒数(权重系数),再累加;确定文本的结构属于递进关系是,计算各个子句的情感值得分:将字句中出现的情感词的情感值进行叠加,整个文本的基于结构计算的情感值为各个子句乘以规定的权重系数(递进部分的权重系数更大,因为突出强调),再累加;确定文本的结构属于转折,无需计算转折词之前的子句情感得分,自己算转折词之后的子句的情感得分,整个文本的基于句子结构的得分就是只考虑转折词后面各子句所得的情感值得分;5)通过计算机编程,实现待分析文本的上下文情感得分,其中:主要考虑两部分,一部分是出现在该文本之前的评论数据,依据距离当前数据的距离,计算对当前数据造成的影响,另一部分就是新闻本身所产生的情感值;没有子句时,整段文本的情感值即文本中出现的各个情感词的情感值进行累加。所描述的句子为爬取的数据中一个人在同一时间发表的整段文字;通过计算机编程,对数据进行爬取、拆分得到。情感词典的建立基于开源的情感词典:大连理工大学情感词汇本体。待分析的文本属于某一特定领域,因此词典的建立需要基于爬取的该领域的数据。所使用的分词方法基于计算机程序,主要的匹配算法为基于树的搜索算法。待分析文本的句子结构确定,主要基于字符串匹配算法,事先将代表各个句子结构的关键字存储在计算机中,匹配之前进行读取。待分析文本的上下文关系的确定:需要所考虑的最远的范围,在此范围之内,计算待分析文本的情感值得分。如果当前评论数据为第一条,那么其不存在上下文评论数据部分的影响,只考虑原始新闻对其的影响。具体说明如下:一种基于句子结构及上下文的短文本情感值计算方法,所描述的情感分析方法包括:1)拿到任何一个待分析的文本数据;2)通过基于Java的分词程序,对文本数据进行分词处理,其中,分词程序基于实现已经构建好的情感词典,存储在计算机中,分词的开始,需要读取存储在计算机中的情感词典,情感词典中的情感词共有七种词性;情感词典中的情感词性见下表描述:3)通过计算机编程,结合字符串匹配算法,确定待分析文本的句子结构;本专利技术所描述的句子结构考虑三种;见下表:4)通过计算机编程,将待分析的文本对应到相应的句子结构,计算每一子句的情感得分,其中:确定文本的结构属于并列关系时,计算各个子句的情感值得分:将字句中出现的情感词的情感值进行叠加,整个文本的基于结构计算的情感值为各个子句乘以子句总数的倒数(权重系数),再累加。确定文本的结构属于递进关系是,计算各个子句的情感值得分:将字句中出现的情感词的情感值进行叠加,整个文本的基于结构计算的情感值为各个子句乘以规定的权重系数(递进部分的权重系数更大,因为突出强调),再累加。确定文本的结构属于转折,无需计算转折词之前的子句情感得分,自己算转折词之后的子句的情感得分,整个文本的基于句子结构的得分就是只考虑转折词后面各子句所得的情感值得分。5)通过计算机编程,实现待分析文本的上下文情感得分,其中:主要考虑两部分,一部分是出现在该文本之前的评论数据,依据距离当前数据的距离,计算对当前数据造成的影响,另一部分就是新闻本身所产生的情感值。本专利技术首先专利技术了一部针对研究领域的情感词典,其依据是大连理工开源情感词典,在其基础上,通过与从本专利技术需要的数据中分词得到的结果取交集,进而得到相关的情感词典。词典的格式见下表:表1:情感词典示例上表中,每一个情感词对应一种词性、情感分类,具有某种情感强度以及情感极性。情感分类主要依据大连理工大学情感词汇本体的分类方法,共分为7大类和21小类。词性共七类,分别是名词(noun)、动词(verb)、形容词(adj)、副词(adv)、网络词语(nw)、成语(idiom)、介词短语(prep)。情感强度分为1、3、5、7、9五个档次,数值越大,情感轻度越强。情感极性分为4种,分别是褒义、贬义、中性、以及兼具褒义和贬义。其次,是本专利技术提出的一种基于句子结构和上下文的短文本情感值计算的方法。文本的情感值由两部分组成,一部分是基于句子结构计算出的情感值,一部分是基于句子上下文计算出的情感值。这两部分的情感值计算的基础均为上述所提及的情感词典。另外,对于句子结构,通过与关键词语进行字符串匹配的方法,编程实现句子结构的判断。如,在句子中,出现“但,但是,可,可是,却,然而,不过”等字眼,可以判定句子的子句之间是一种转折关系;出现“而且,同时,也,既,又”等字眼,可以判断句子的子句之间是一种并列关系;同理,出现“不但,不仅,不光,而且,本文档来自技高网
...

【技术保护点】
1.一种基于句子结构及上下文的短文本情感值计算方法,其特征在于,所描述的情感分析方法包括:1)拿到任何一个待分析的文本数据;2)通过基于Java的分词程序,对文本数据进行分词处理,其中,分词程序基于实现已经构建好的情感词典,存储在计算机中,分词的开始,需要读取存储在计算机中的情感词典,情感词典中的情感词共有七种词性;情感词典中的情感词性见下表描述:

【技术特征摘要】
1.一种基于句子结构及上下文的短文本情感值计算方法,其特征在于,所描述的情感分析方法包括:1)拿到任何一个待分析的文本数据;2)通过基于Java的分词程序,对文本数据进行分词处理,其中,分词程序基于实现已经构建好的情感词典,存储在计算机中,分词的开始,需要读取存储在计算机中的情感词典,情感词典中的情感词共有七种词性;情感词典中的情感词性见下表描述:3)通过计算机编程,结合字符串匹配算法,确定待分析文本的句子结构;本发明所描述的句子结构考虑三种;4)通过计算机编程,将待分析的文本对应到相应的句子结构,计算每一子句的情感得分,其中:确定文本的结构属于并列关系时,计算各个子句的情感值得分:将字句中出现的情感词的情感值进行叠加,整个文本的基于结构计算的情感值为各个子句乘以子句总数的倒数(权重系数),再累加;确定文本的结构属于递进关系是,计算各个子句的情感值得分:将字句中出现的情感词的情感值进行叠加,整个文本的基于结构计算的情感值为各个子句乘以规定的权重系数(递进部分的权重系数更大,因为突出强调),再累加;确定文本的结构属于转折,无需计算转折词之前的子句情感得分,自己算转折词之后的子句的情感得分,整个文本的基于句子结构的得分就是只考虑转折词后面各子句所得的情感值得分;5)通过计算机编程,实现待分析文本的上下文情感得分...

【专利技术属性】
技术研发人员:孙越恒刘玉雪
申请(专利权)人:天津大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1