一种中文长文本情感分析方法技术

技术编号：21799350 阅读：22 留言：0更新日期：2019-08-07 10:33

本发明专利技术公开了一种中文长文本情感分析方法，所述方法包括：步骤1：文本预处理；步骤2：条件随机场抽取核心句；步骤3：对核心句进行情感分析；步骤4：定义核心句的情感极性权值；步骤5：扩展当前情感分析所使用的情感词典；步骤6：得到最终情感分析结果；采用条件随机场抽取核心句，引入句子情感极性权值来分析整篇文章，提高中文长文本情感分析的准确率。

An Emotional Analysis Method for Chinese Long Texts

The invention discloses an emotional analysis method for Chinese long text, which includes: step 1: text preprocessing; step 2: conditional random field extraction of core sentences; step 3: emotional analysis of core sentences; step 4: defining the emotional polarity weight of core sentences; step 5: expanding the emotional words currently used in emotional analysis. Step 6: Get the final affective analysis results; use conditional random field to extract the core sentences, and introduce the sentence emotional polarity weight to analyze the whole article, so as to improve the accuracy of affective analysis of Chinese long text.

全部详细技术资料下载

【技术实现步骤摘要】
一种中文长文本情感分析方法
本专利技术涉及自然语言处理领域，具体地，涉及一种中文长文本情感分析方法。
技术介绍
在过去的几十年中，人们的生活越来越离不开互联网，随着“互联网+”的发展，许多传统行业和互联网相结合，互联网也在逐渐改变人民的生活方式，现在的用户已经从以前单纯的从网络获取信息的索取者变为了网络信息的创造者，人们通过微博、朋友圈和论坛等发表着自己的想法观点。近几年互联网的信息也呈现指数性的增长。这些信息往往存在巨大的社会和经济效益，对于个人来说，了解他人的观点可以帮助他们在购物上作出选择或者学习自己未了解的知识；对于商家或者组织来说，可以帮助他们了解市场形势来及时调整战略。但是这些海量信息同时也会造成互联网舆情问题。社会各类信息通过互联网的传播，和以往相比传播的途径更加丰富、传播的效率更加高、覆盖的范围也更加全面了，如果不进行合理的监控与管理，极易在社会上造成不良的影响。而舆情分析的核心同样是情感分析。文本情感分析的结果通常分为三种，即积极、中性和消极，也可以看成一个三分类问题。为了实现海量互联网文本的情感分析，研究者们通过统计的方法、机器学习以及神经网络等方法来自动化分析文本的情感倾向性。目前文本情感分析对于微博等短文本的研究较多，而长文本的研究相对匮乏，而且中文不同于英文有许多复杂的句式，所以在长文本的情感分析上难度更大。目前情感分析的研究主要分为两个方向，一个是基于情感词典的情感分析算法，一个是基于机器学习的情感分析算法。在情感词典的情感分析中，情感词典的质量直接影响到最终的情感分析结果，所以设计一个高质量的情感词典至关重要。在机器学习的情感...

【技术保护点】
1.一种中文长文本情感分析方法，其特征在于，所述方法包括：步骤1：文本预处理：将待情感分析的文章根据标点号进行断句，然后对断句后的每一句话进行分词、过滤停用词操作；步骤2：条件随机场抽取核心句：使用条件随机场得到整篇文章的评价对象，包含该评价对象的句子为该篇文章的核心句；步骤3：对核心句进行情感分析：采用基于情感词典的情感分析算法，分析每句话的情感极性，根据判断结果定义初始情感分数；步骤4：定义核心句的情感极性权值：采用情感极性权值来区分不同句子情感极性的强弱，根据最终的情感权值分数分析整篇文章情感极性；步骤5：扩展当前情感分析所使用的情感词典：采用点互信息率和斯坦福语义树把情感词典中未包含的情感词加入进去，扩展情感词典的使用范围；步骤6：得到最终情感分析结果。

【技术特征摘要】
1.一种中文长文本情感分析方法，其特征在于，所述方法包括：步骤1：文本预处理：将待情感分析的文章根据标点号进行断句，然后对断句后的每一句话进行分词、过滤停用词操作；步骤2：条件随机场抽取核心句：使用条件随机场得到整篇文章的评价对象，包含该评价对象的句子为该篇文章的核心句；步骤3：对核心句进行情感分析：采用基于情感词典的情感分析算法，分析每句话的情感极性，根据判断结果定义初始情感分数；步骤4：定义核心句的情感极性权值：采用情感极性权值来区分不同句子情感极性的强弱，根据最终的情感权值分数分析整篇文章情感极性；步骤5：扩展当前情感分析所使用的情感词典：采用点互信息率和斯坦福语义树把情感词典中未包含的情感词加入进去，扩展情感词典的使用范围；步骤6：得到最终情感分析结果。2.根据权利要求1所述的中文长文本情感分析方法，其特征在于，所述步骤1中文本预处理的具体步骤为：步骤1.1：对输入的非结构化文本进行统一格式处理：去除非结构化文本的首尾非文本部分，获取纯文本部分，若为空文本则跳过；步骤1.2：对待分析的纯文本根据句号、惊叹号、省略号、问号、分号来断句；步骤1.3：将纯文本部分进行词语词性的分词处理，针对词语词性，去除分词结果中的标点符号、拟声词、叹词、助词、连词、介词、副词、数词、量词。3.根据权利要求1所述的中文长文本情感分析方法，其特征在于，所述步骤2中条件随机场抽取核心句的具体步骤包括：步骤2.1：采用评价对象标记模式为抽取评价对象过程中的自定义标记标签，对分词过后的词语进行评价对象标签标记，使用斯坦福解析器分析上面分词过后的句子，得到每个词语相应的语义树标签；步骤2.2：根据分词结果、词性、语义结构设计条件随机场的特征函数模板；步骤2.3：统计整篇文章的...

【专利技术属性】
技术研发人员：王雄，张磊，任婧，徐世中，王晟，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人