基于自然语言处理的文本情感分析方法与系统技术方案

技术编号:17912636 阅读:55 留言:0更新日期:2018-05-10 18:24
本发明专利技术公开了一种基于自然语言处理的文本情感分析方法与系统,所述基于自然语言处理的文本情感分析方法包括采集待识别的文本;对所述待识别的文本进行语义场景分析,获取所述待识别的文本的情感主体和主题;根据预设的情感词汇对照表,分别判断所述待识别的文本的情感主体和主题的情感倾向;根据所述待识别的文本的情感主体和主题的情感倾向,判断所述待识别的文本的情感倾向。通过所述基于自然语言处理的文本情感分析方法能够有效避免文本情感误判的问题,提高复杂文本情感判断的准确性。

【技术实现步骤摘要】
基于自然语言处理的文本情感分析方法与系统
本专利技术涉及自然语言处理领域,具体涉及一种基于自然语言处理的文本情感分析方法。
技术介绍
随着互联网的发展,各种网络应用油然而生。网民在互联网上可以发表各种言论,因此产生了海量的文本信息。这些信息的数据来源可以是博客、论坛、微博等,这些评论信息表达了用户的各种情感色彩和情感倾向性,这不仅为商家提供了一个信息展示的平台,也为消费者(即用户)提供了产品使用体验交流的平台。如何从这些海量文本中提取这一类带有情感的文本,并对其进行文本情感的分析和研究,具有很强的应用价值,例如,用户可以根据商品的评论了解商品的信息,选择合适产品;商家根据用户的评论改进商品的品质,争取更大的市场等。所谓文本情感分析,就是借助计算机帮助用户快速获取、整理和分析相关评价信息,对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程,例如,“我很喜欢这个产品”,通过情感分类,这句话将被分为正面文本,而“这本书实在太差了”,将被分类为负面文本。现有的文本情感分类方法是采用SVM、决策树、词频匹配或相结合的方法,文本情感分类模型相对固定,针对复杂的文本(无情绪词,口语化,正话反说),会出现情绪判断错误的问题。例如“我喜欢这个产品”这句话中,包括一个正面情感词“喜欢”,应用现有的文本分类方法,很可能将这句话分为正面文本,但是这句话有可能是正话反说,表达的是负面情感。因此,通过现有的文本情感分析方法得到的文本情感分析结果容易出现情绪判断错误的问题,分类效果差、准确率低。
技术实现思路
本专利技术的目的是提供一种基于自然语言处理的文本情感分析方法与系统,能够有效避免文本情感误判的问题,提高复杂文本情感判断的准确性。为避免以上技术问题,本专利技术实施例提供一种基于自然语言处理的文本情感分析方法,包括:采集待识别的文本;对所述待识别的文本进行语义场景分析,获取所述待识别的文本的情感主体和主题;根据预设的情感词汇对照表,分别判断所述待识别的文本的情感主体和主题的情感倾向;根据所述待识别的文本的情感主体和主题的情感倾向,判断所述待识别的文本的情感倾向。优选地,所述对所述待识别的文本进行语义场景分析,获取所述待识别的文本的情感主体和主题,具体包括:对所述待识别的文本进行上下文关联分析,获取所述待识别文本的情感主体;对所述待识别的文本进行时间延续分析,获取所述待识别文本的情感主体;对所述待识别的文本进行主题分析,获取所述待识别文本的主题。优选地,所述对所述待识别的文本进行上下文关联分析,获取所述待识别文本的情感主体,具体包括:对所述待识别的文本进行文本分割处理,获得多个句子;根据预设的情感词表,在所述多个句子中查找情感词;获取所述情感词所在的句子、所述情感词所在的句子的上一个句子以及下一个句子;对所述情感词所在的句子、所述情感词所在的句子的上一个句子以及下一个句子进行CRF句法分析,获得所述情感词所在的句子的情感主体。优选地,所述对所述待识别的文本进行时间延续分析,获取所述待识别文本的情感主体,具体包括:采集所述待识别的文本的关联文本;对所述待识别的文本和所述关联文本按照文本发布时间的顺序进行整合处理,获得整合文本;对所述整合文本进行上下文关联分析,获取所述整合文本的情感主体。优选地,所述对所述待识别的文本进行主题分析,获取所述待识别文本的主题,具体包括:通过LDA主题分析模型提取所述待识别的文本的主题。优选地,所述对所述整合文本进行上下文关联分析,获取所述整合文本的情感主体,具体包括:对所述整合文本进行文本分割处理,获得多个句子;根据预设的情感词表,在所述多个句子中查找情感词;获取所述情感词所在的句子、所述情感词所在的句子的上一个句子以及下一个句子;对所述情感词所在的句子、所述情感词所在的句子的上一个句子以及下一个句子进行CRF句法分析,获得所述情感词所在的句子的情感主体。优选地,所述采集所述待识别的文本的关联文本包括:采集与所述待识别的文本具有转发和/回复关系的转发回复文本;从所述转发回复文本中提取与所述待识别的文本的作者相同的文本作为所述关联文本。优选地,所述根据所述待识别的文本的情感主体和主题的情感倾向,判断所述待识别的文本的情感倾向,具体包括:情感倾向包括正面情感、中立情感、负面情感三种类型;综合统计所述待识别的文本的情感主体和主题的情感倾向,得出所述待识别的文本在正面情感、中立情感、负面情感中的最大值;确认所述最大值对应的情感倾向为所述待识别的文本的情感倾向。本专利技术实施例还包括一种基于自然语言处理的文本情感分析系统,包括:文本采集模块,用于采集待识别的文本;语义场景分析模块,用于对所述待识别的文本进行语义场景分析,获取所述待识别的文本的情感主体和主题;第一情感判断模块,用于根据预设的情感词汇对照表,分别判断所述待识别的文本的情感主体和主题的情感倾向;第二情感判断模块,用于根据所述待识别的文本的情感主体和主题的情感倾向,判断所述待识别的文本的情感倾向。优选地,所述语义场景分析模块包括:上下文关联分析模块,用于对所述待识别的文本进行上下文关联分析,获取所述待识别文本的情感主体;时间延续分析模块,用于对所述待识别的文本进行时间延续分析,获取所述待识别文本的情感主体;主题分析模块,用于对所述待识别的文本进行主题分析,获取所述待识别文本的主题。相对于现有技术,本专利技术实施例提供的一种基于自然语言处理的文本情感分析方法的有益效果在于:所述基于自然语言处理的文本情感分析方法包括采集待识别的文本;对所述待识别的文本进行语义场景分析,获取所述待识别的文本的情感主体和主题;根据预设的情感词汇对照表,分别判断所述待识别的文本的情感主体和主题的情感倾向;根据所述待识别的文本的情感主体和主题的情感倾向,判断所述待识别的文本的情感倾向。通过所述基于自然语言处理的文本情感分析方法能够有效避免文本情感误判的问题,提高复杂文本情感判断的准确性。本专利技术实施例还提供一种基于自然语言处理的文本情感分析系统。附图说明图1是本专利技术实施例提供的一种基于自然语言处理的文本情感分析方法的流程图;图2是本专利技术实施例提供的一种基于自然语言处理的文本情感分析系统的示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1,其是本专利技术一种基于自然语言处理的文本情感分析方法的流程图,所述基于自然语言处理的文本情感分析方法包括:S1:采集待识别的文本;S2:对所述待识别的文本进行语义场景分析,获取所述待识别的文本的情感主体和主题;S3:根据预设的情感词汇对照表,分别判断所述待识别的文本的情感主体和主题的情感倾向;S4:根据所述待识别的文本的情感主体和主题的情感倾向,判断所述待识别的文本的情感倾向。通过所述方法,利用语义场景的进行多点定位,包括单点(单篇长、短文本)、多点(多篇长、短文本,上下文),从情感主体和主题两个方面对文本进行情感倾向判断,能够有效避免文本情感误判的问题,提高复杂文本情感判断的准确性。例如文本“今天踩到了狗屎,哈哈哈本文档来自技高网...
基于自然语言处理的文本情感分析方法与系统

【技术保护点】
一种基于自然语言处理的文本情感分析方法,其特征在于,包括:采集待识别的文本;对所述待识别的文本进行语义场景分析,获取所述待识别的文本的情感主体和主题;根据预设的情感词汇对照表,分别判断所述待识别的文本的情感主体和主题的情感倾向;根据所述待识别的文本的情感主体和主题的情感倾向,判断所述待识别的文本的情感倾向。

【技术特征摘要】
1.一种基于自然语言处理的文本情感分析方法,其特征在于,包括:采集待识别的文本;对所述待识别的文本进行语义场景分析,获取所述待识别的文本的情感主体和主题;根据预设的情感词汇对照表,分别判断所述待识别的文本的情感主体和主题的情感倾向;根据所述待识别的文本的情感主体和主题的情感倾向,判断所述待识别的文本的情感倾向。2.如权利要求1所述的基于自然语言处理的文本情感分析方法,其特征在于,所述对所述待识别的文本进行语义场景分析,获取所述待识别的文本的情感主体和主题,具体包括:对所述待识别的文本进行上下文关联分析,获取所述待识别文本的情感主体;对所述待识别的文本进行时间延续分析,获取所述待识别文本的情感主体;对所述待识别的文本进行主题分析,获取所述待识别文本的主题。3.如权利要求2所述的基于自然语言处理的文本情感分析方法,其特征在于,所述对所述待识别的文本进行上下文关联分析,获取所述待识别文本的情感主体,具体包括:对所述待识别的文本进行文本分割处理,获得多个句子;根据预设的情感词表,在所述多个句子中查找情感词;获取所述情感词所在的句子、所述情感词所在的句子的上一个句子以及下一个句子;对所述情感词所在的句子、所述情感词所在的句子的上一个句子以及下一个句子进行CRF句法分析,获得所述情感词所在的句子的情感主体。4.如权利要求2所述的基于自然语言处理的文本情感分析方法,其特征在于,所述对所述待识别的文本进行时间延续分析,获取所述待识别文本的情感主体,具体包括:采集所述待识别的文本的关联文本;对所述待识别的文本和所述关联文本按照文本发布时间的顺序进行整合处理,获得整合文本;对所述整合文本进行上下文关联分析,获取所述整合文本的情感主体。5.如权利要求2所述的基于自然语言处理的文本情感分析方法,其特征在于,所述对所述待识别的文本进行主题分析,获取所述待识别文本的主题,具体包括:通过LDA主题分析模型提取所述待识别的文本的主题。6.如权利要求4所述的基于自然语言处理的文本情感分析方法,其特征在于,所述对所述整合文本进行...

【专利技术属性】
技术研发人员:晋彤张中弦
申请(专利权)人:广州市云润大数据服务有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1