当前位置: 首页 > 专利查询>苏州大学专利>正文

一种文本情绪极性的识别方法及装置制造方法及图纸

技术编号:11351695 阅读:130 留言:0更新日期:2015-04-24 18:13
本申请提供了一种文本情绪极性的识别方法及装置,该方法包括:利用预先构建的分类器,可以确定出待识别文本在不同情绪极性类别中的极性概率值,将最大极性概率值对应的情绪极性确定为待识别文本的情绪极性,从而确定出了待识别文本的情绪极性。并且,预先构建分类器时使用的训练集中包含的语料是从一种语言翻译后的另一种语言,实现了跨语言的训练集的构建,可以有效解决在某种语言场景中已标注语料不足无法构建训练集的问题。进一步地,训练集中还可以加入已确定出情绪极性的文本,扩展了训练集中已标注语料的数量,构建的分类器分类准确率更高。

【技术实现步骤摘要】

本申请涉及自然语言分析
,尤其是一种文本情绪极性的识别方法及装 置。
技术介绍
随着互联网的快速发展,网络中出现了大量对于人物、事件、产品等内容进行的评 论,一些数据监测系统需要收集评论信息,并需要对评论信息进行情绪极性的分析,从而了 解评论者对于被评论对象的观点或态度。 其中,情绪极性指的是评论者通过文本表达出的情绪类型,如褒义情绪(正极性 情绪)或贬义情绪(正极性情绪)。例如,评论内容为"听到昨晚发生的上海外滩踩踏事件, 我感到非常悲痛",该评论文本的情绪极性为贬义情绪。又如,评论内容为"我非常期待这次 产品发布会,因为在会上将发布运用了最新定位技术的导航仪",该评论文本的情绪极性为 褒义情绪。 为了实现数据监测系统对网络文本的监测,需要对网络文本的情绪极性进行识 别。
技术实现思路
有鉴于此,本申请提供了一种文本情绪识别方法及装置,用以实现对文本表达情 绪极性的识别。为实现所述目的,本专利技术提供的技术方案如下: -种文本情绪极性的识别方法,包括: 获取多条待识别文本; 利用预先构建的分类器,分别确定每条所述待识别文本各自的多个极性概率值; 将各自的多个极性概率值中的最大值对应的情绪极性确定为每条所述待识别文 本各自的情绪极性。 可选地,上述的文本情绪极性的识别方法中,所述分类器的构建方法包括: 获取已标注的第一语言类型的语料,并将所述第一语言类型的语料翻译为第二语 言类型的语料;其中,所述已标注的第一语言类型的语料具有情绪极性标签; 当存在已确定出情绪极性的文本时,将所述第二语言类型的语料及所述文本确定 为训练集; 当不存在已确定出情绪极性的文本时,将所述第二语言类型的语料确定为训练 集; 利用预设训练算法,对所述训练集进行训练,获得分类器。 可选地,上述的文本情绪极性的识别方法中,所述第一语言类型的语料为英文语 料,所述第二语言类型的语料为中文语料。 可选地,上述的文本情绪极性的识别方法中,所述利用预先构建的分类器,分别确 定每条所述待识别文本各自的多个极性概率值包括: 利用预先构建的最大熵分类器,分别确定每条所述待识别文本各自的多个极性概 率值。 本申请还提供了一种文本情绪极性的识别装置,包括: 待识别文本获取单元,用于获取多条待识别文本; 分类器分类单元,用于利用预先构建的分类器,分别确定每条所述待识别文本各 自的多个极性概率值; 情绪极性确定单元,用于将各自的多个极性概率值中的最大值对应的情绪极性确 定为每条所述待识别文本各自的情绪极性。 可选地,上述的文本情绪极性的识别装置中,包括分类器构建单元,用于构建分类 器;其中,所述分类器构建单元包括: 第二语料获取子单元,用于获取已标注的第一语言类型的语料,并将所述第一语 言类型的语料翻译为第二语言类型的语料;其中,所述已标注的第一语言类型的语料具有 情绪极性标签; 第一训练集确定子单元,用于当存在已确定出情绪极性的文本时,将所述第二语 言类型的语料及所述文本确定为训练集; 第二训练集确定子单元,用于当不存在已确定出情绪极性的文本时,将所述第二 语言类型的语料确定为训练集; 分类器构建子单元,用于利用预设训练算法,对所述训练集进行训练,获得分类 器。 可选地,上述的文本情绪极性的识别装置中,所述第二语料获取子单元获取到的 第一语言类型的语料为英文语料,所述第二语料获取子单元翻译为的第二语言类型的语料 为中文语料。 可选地,上述的文本情绪极性的识别装置中,所述分类器分类单元包括: 最大熵分类器分类子单元,用于利用预先构建的最大熵分类器,分别确定每条所 述待识别文本各自的多个极性概率值。 与现有技术相比,本专利技术具有以下有益效果: 由以上可知,本专利技术提供的文本情绪极性的识别方法,利用预先构建的分类器,可 以确定出待识别文本在不同情绪极性类别中的极性概率值,将最大极性概率值对应的情绪 极性确定为待识别文本的情绪极性,从而确定出了待识别文本的情绪极性。【附图说明】 为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据 提供的附图获得其他的附图。 图1为本申请提供的文本情绪极性的识别方法的流程图; 图2为本申请提供的构建分类器的流程图; 图3为本申请提供的文本情绪极性的识别装置的结构示意图; 图4为本申请提供的文本情绪极性的识别装置的另一结构示意图。【具体实施方式】 下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于 本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本专利技术保护的范围。 见图1,其示出了本专利技术实施例提供的文本情绪极性的识别方法的流程,具体包括 以下步骤: 步骤S101 :获取多条待识别文本。 其中,待识别文本为从网络中抓取到的文本,如微博、论坛、贴吧等,当然,本实施 并不局限于网络文本,还可以是其他各种载体中的信息文本,如报刊、杂志等。 需要说明的是,待识别文本可以理解为一条语句,如"听到昨晚发生的人群踩踏事 件,我感到非常悲痛",也就是说,本步骤中获取到多条语句。步骤S102 :利用预先构建的分类器,分别确定每条所述待识别文本各自的多个极 性概率值。其中,分类器是利用训练方法对训练集进行学习训练生成的分类模型,可以对输 入的待识别文本进行分类。分类器自身可以识别出多个情绪类别,情绪类别也就是情绪极 性,如正极性情绪、中极性情绪以及负极性情绪。本步骤中,计算待识别文本在每种情绪类 别中的概率值,从而获得多个极性概率值。可见,极性概率值表征的是待识别文本分别属于 各个不同情绪类别的概率。 需要说明的是,针对每个待识别文本,均计算在每种情绪类别中的概率值。从而, 每个待识别文本具有各自的多个极性概率值。例如,待识别文本分别为文本1及文本2,其 中,文本1的多个极性概率值为Pll、P12及P13,文本2的多个极性概率值为P21、P22及 P23〇 步骤S103 :将各自的多个极性概率值中的最大值对应的情绪极性确定为每条所 述待识别文本各自的情绪极性。 其中,针对每个待识别文本,确定各自的多个极性概率值中的最大值,并确定出每 个最大值分别对应的情绪极性,进而,将各个情绪极性分别确定为各自的待识别文本的情 绪极性。需要说明的是,分类器计算出的极性概率值具有情绪极性标签,利用情绪极性标 签,可以确定出极性概率值对应的情绪极性。 例如,文本1的多个极性概率值为P11、P12及P13,最大值为P11,且最大值P11的 情绪极性标签为正情绪极性,进而将正情绪极性确定为文本1的情绪极性。 由以上的技术方案可知,本实施例提供的文本情绪极性的识别方法,利用预先构 建的分类器,可以确定出待识别文本在不同情绪极性类别中的极性概率值,将最大极性概 率值对应的情绪极性确定为待识别文本的情绪极性,从而确定出了待识别文本的情绪极 性。[0当前第1页1 2 本文档来自技高网...
一种<a href="http://www.xjishu.com/zhuanli/55/CN104536953.html" title="一种文本情绪极性的识别方法及装置原文来自X技术">文本情绪极性的识别方法及装置</a>

【技术保护点】
一种文本情绪极性的识别方法,其特征在于,包括:获取多条待识别文本;利用预先构建的分类器,分别确定每条所述待识别文本各自的多个极性概率值;将各自的多个极性概率值中的最大值对应的情绪极性确定为每条所述待识别文本各自的情绪极性。

【技术特征摘要】

【专利技术属性】
技术研发人员:李寿山汪蓉周国栋
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1