一种基于句子结构及上下文的短文本情感值计算方法技术

技术编号：19646989 阅读：26 留言：0更新日期：2018-12-05 20:30

本发明专利技术涉及一种基于句子结构及上下文的短文本情感值计算方法。拿到任何一个待分析的文本数据；通过基于Java的分词程序，对文本数据进行分词处理；通过计算机编程，结合字符串匹配算法，确定待分析文本的句子结构；将待分析的文本对应到相应的句子结构，计算每一子句的情感得分；实现待分析文本的上下文情感得分；一部分是出现在该文本之前的评论数据，依据距离当前数据的距离，计算对当前数据造成的影响，另一部分就是新闻本身所产生的情感值；本发明专利技术的情感词典的建立基于开源的情感词典：大连理工大学情感词汇本体。结合情感词典，计算短文本的情感值，这种方法计算出的情感值准确率更高，用于舆情分析等领域的效果会更好。

A Method for Computing Emotional Value of Short Text Based on Sentence Structure and Context

The present invention relates to a method for calculating emotional value of short text based on sentence structure and context. Get any text data to be analyzed; process the text data by Java-based word segmentation program; determine the sentence structure of the text to be analyzed by computer programming combined with string matching algorithm; correspond the text to be analyzed to the corresponding sentence structure and calculate the emotional score of each sentence; Realize the contextual emotional score of the text to be analyzed; one part is the commentary data appearing before the text, calculating the impact on the current data according to the distance from the current data; the other part is the emotional value generated by the news itself; the establishment of the emotional Dictionary of the present invention is based on the open source emotional dictionary: The ontology of emotional vocabulary in LIT. Combining with emotional dictionary, the method calculates the emotional value of short text, which has higher accuracy and better effect in public opinion analysis and other fields.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于句子结构及上下文的短文本情感值计算方法
本专利技术涉及自然语言处理技术，特别是涉及一种基于句子结构及上下文的短文本情感值计算方法。
技术介绍
对文本的情感分析是自然语言处理领域的一个重要的问题，因此关于文本情感值的计算在文本情感分析中发挥着很重要的作用。尤其是近几年，随着微博等社交媒体的蓬勃发展，关于短文本的情感分析被越来越广泛的用于学术研究。目前对文本情感分析的方法主要有两种，一种是机器学习的方法，另一种是基于规则的分类方法。机器学习分类方法主要是将情感词作为分类特征，依据情感词典实现对文本的分类。主要方法有朴素贝叶斯(NB)、支持向量机(SVM)和最大熵模型(ME)，依据其中一种方法，可以实现情感的分类任务。基于规则的方法，主要是依据句子中的情感词的极性决定整个句子的情感极性，且评估单元的情感识别来保证方法准确性。但是，由于更深层次的情感分析涉及到对句子的语义分析，因此更多的方法被提出，如：一种基于句法规则的短文本情感分析方法以及基于上下文的短文本的情感分析方法，前者依据情感词典以及句子的结构以及各整句话中各从句之间的关系计算整个句子的情感值，从而反映句子的情感倾向及情感强弱。后者主要是考虑到社交媒体的评论者之间的互相影响，在计算当前评论者情感值时考虑到其上下楼评论情感倾向以及原始博文的情感值对目标评论数据的影响。但是，因为句子的语义收句子本身结构的影响，同时也与句子上下文内容相关，目前，并没有一种方法既考虑句子的结构又考虑句子的上下文关系，因此本专利技术提出一种基于句子结构及上下文的短文本情感值计算方法，既考虑句子的结构，又考虑上下文对句子本...

【技术保护点】
1.一种基于句子结构及上下文的短文本情感值计算方法，其特征在于，所描述的情感分析方法包括：1)拿到任何一个待分析的文本数据；2)通过基于Java的分词程序，对文本数据进行分词处理，其中，分词程序基于实现已经构建好的情感词典，存储在计算机中，分词的开始，需要读取存储在计算机中的情感词典，情感词典中的情感词共有七种词性；情感词典中的情感词性见下表描述：

【技术特征摘要】
1.一种基于句子结构及上下文的短文本情感值计算方法，其特征在于，所描述的情感分析方法包括：1)拿到任何一个待分析的文本数据；2)通过基于Java的分词程序，对文本数据进行分词处理，其中，分词程序基于实现已经构建好的情感词典，存储在计算机中，分词的开始，需要读取存储在计算机中的情感词典，情感词典中的情感词共有七种词性；情感词典中的情感词性见下表描述：3)通过计算机编程，结合字符串匹配算法，确定待分析文本的句子结构；本发明所描述的句子结构考虑三种；4)通过计算机编程，将待分析的文本对应到相应的句子结构，计算每一子句的情感得分，其中：确定文本的结构属于并列关系时，计算各个子句的情感值得分：将字句中出现的情感词的情感值进行叠加，整个文本的基于结构计算的情感值为各个子句乘以子句总数的倒数(权重系数)，再累加；确定文本的结构属于递进关系是，计算各个子句的情感值得分：将字句中出现的情感词的情感值进行叠加，整个文本的基于结构计算的情感值为各个子句乘以规定的权重系数(递进部分的权重系数更大，因为突出强调)，再累加；确定文本的结构属于转折，无需计算转折词之前的子句情感得分，自己算转折词之后的子句的情感得分，整个文本的基于句子结构的得分就是只考虑转折词后面各子句所得的情感值得分；5)通过计算机编程，实现待分析文本的上下文情感得分...

【专利技术属性】
技术研发人员：孙越恒，刘玉雪，
申请(专利权)人：天津大学，
类型：发明
国别省市：天津,12

全部详细技术资料下载我是这个专利的主人