一种文本情感标注方法、装置及系统制造方法及图纸

技术编号:14984233 阅读:94 留言:0更新日期:2017-04-03 15:21
本申请提供一种文本情感标注方法、装置及系统,由测试者阅读待分类的文本,采集文本阅读者的脑电信号,再根据脑电信号对该文本进行情感标注,能够从认知神经科学角度真实反映标注者的情绪,具有很高的准确性。并且,本申请不需要对标注人员进行长时间的培训,在开发文本情感分析系统时,能节约大量的时间与资金。

【技术实现步骤摘要】

本专利技术涉及自然语言处理
,具体涉及一种文本情感标注方法、装置及系统
技术介绍
随着互联网技术的蓬勃发展,互联网逐渐采用用户参与的开放式构架理念,因而互联网上产生了大量的用户参与的信息,例如大量对人物、事件、产品等的评论信息。这些评论信息表达了人们的各种情感色彩和情感倾向性,如喜、怒、哀、乐和批评、赞扬等。显然,其余用户就可以通过浏览这些带主观情感的评论来了解大众舆论对于某一事件或产品的看法。而在传统的情感语料库构建过程中,情感标签的生成方法通常是通过人工进行标注。些标注语料由两部分构成:表达情感的原始文本以及与这些文本所对应的情感标签。人工标注的方式主要有以下缺陷:1.一方面,为保证情感语料的标注准确性,需要对每一位参加标注的工作人员进行大量的领域相关知识和情感标注规范的培训,这些培训将消耗大量的时间与资金。另一方面,由于缺乏对情感语料的系统标注规范,在培训结束后也很难保证标注人员能准确高效地对情感语料进行标注。2.不同的标注者常常具有不同的情感认识体验,导致不同标注者对同一语料标注时会出现不同甚至是相反的结果。出现这种情况时,通常需要标注者一起讨论决定最终的标注结果,这一过程往往会消耗标注人员大量的时间与精力,最终会严重拖慢标注进程。综上所述,由于人类情感认识机制的复杂性,标注者往往很难对自身真实情感进行准确的表述与分类,导致语料的标注严重不准确,并且标注的过程十分繁琐,耗费的人力物力巨大。
技术实现思路
本申请提供一种文本情感标注方法、装置及系统,可以准确对文本语料进行情感标注,减少标注的工作量。根据第一方面,一种实施例中提供一种文本情感标注方法,包括:获取传感器输出的文本阅读者的脑电信号;分别计算去噪后的脑电信号在四类频段上的功率均值,作为情感分析的特征向量,所述四类频段为δ波、θ波、α波以及β波;将所述情感分析的特征向量输入至分类模型中,预测得到文本的情感的标注结果。根据第二方面,一种实施例中提供一种文本情感标注装置,包括:获取单元,用于获取传感器输出的文本阅读者的脑电信号;计算单元,用于分别计算去噪后的脑电信号在四类频段上的功率均值,作为情感分析的特征向量,所述四类频段为δ波、θ波、α波以及β波;预测单元,用于将所述情感分析的特征向量输入至分类模型中,预测得到文本的情感的标注结果。根据第三方面,一种实施例中提供一种文本情感标注系统,包括:传感器及处理器;所述传感器,用于采集文本阅读者的脑电信号并输出至所述处理器;所述处理器,用于获取所述传感器输出的文本阅读者的脑电信号,并分别计算去噪后的脑电信号在四类频段上的功率均值,作为情感分析的特征向量,其中,所述四类频段为δ波、θ波、α波以及β波;以及,将所述情感分析的特征向量输入至分类模型中,预测得到文本的情感的标注结果。依据上述实施例的文本情感标注方法、装置及系统,由于由测试者阅读待分类的文本,采集文本阅读者的脑电信号,再根据脑电信号对该文本进行情感标注,能够从认知神经科学角度真实反映标注者的情绪,具有很高的准确性。并且,本申请不需要对标注人员进行长时间的培训,在开发文本情感分析系统时,能节约大量的时间与资金。附图说明图1为本申请实施例的文本情感标注方法的流程图;图2为本申请实施例步骤采集脑电信号的位点结构分布示意图;图3为另一种实施例的文本情感标注方法的流程图;图4为本申请实施例的文本情感标注装置的结构示意图;图5为另一种实施例的文本情感标注装置的结构示意图;图6为本申请实施例的文本情感标注系统的结构示意图。具体实施方式文本情感标注是指:对阅读人员阅读本文后的产生情感(如喜、怒、哀、乐和批评、赞扬等)进行标注,得到文本与情感标签的对应关系。其中,可以对多个文本与对应的情感标签进行存储,从而可以构建得到情感语料库。本申请提供一种文本情感标注方法、装置及系统,由测试者阅读待分类的文本,采集文本阅读者的脑电信号,再根据脑电信号对该文本进行情感标注,能够从认知神经科学角度真实反映标注者的情绪,具有很高的准确性。并且,本申请不需要对标注人员进行长时间的培训,在开发文本情感分析系统时,能节约大量的时间与资金。下面通过具体实施方式结合附图对本专利技术作进一步详细说明。实施例一:请参考图1,本申请实施例提供一种文本情感标注方法,包括以下步骤:101、获取传感器输出的文本阅读者的脑电信号。请一并参阅图3,步骤101、获取传感器输出的文本阅读者的脑电信号前,还包括:101A、将待标注文本通过组块分析技术转换为多个词组的形式,并呈现给文本阅读者。将待标注文本通过组块分析技术转换为多个词组的形式的过程如下:原始语料:“中国体育健儿将在2008年奥运会上为国争光。”组块分析转换的词组形式:“中国体育健儿”、“将”、“在2008年奥运会上”、“为国争光”。又如:原始语料:“小明按时交作业。”组块分析转换的词组形式:“小明”、“按时”、“交作业”。以上对组块分析技术的介绍仅作举例,不作限定。其中,如图2所示,具体可以是:获取传感器从文本阅读者头皮上多个位点采集到的电平信号。其中,位点的个数可以是11个,11个位点按照预设规则设置在文本阅读者头皮上。一种较为简单可行的实施方式,如图2中的Fp1、Fp2、F7、F3、Fz、F4、F8、T3、C3、Cz、C4、T4、T5、p3、pz、p4、T6、o1、o2、A1及A2所示为11个位点的分布示意图。可以理解的是,本实施例也可以采用另外一些方式对位点的分布进行设置,上述位点分布规则的介绍仅作举例,不作限定。由于脑电信号采集自人类头皮的多个位点,而这些采集位点都是根据某种规则在头皮上的一些固定位置设置的,例如图2中的分布规则。人类在进行不同的认知活动时,不同采集位点上的电位具有明显的差异,这些不同空间位置上的电位分布差异就构成了脑电信号的空间结构。102、分别计算去噪后的脑电信号在四类频段上的功率均值,作为情感分析的特征向量。其中,四类频段为δ波、θ波、α波以及β波。如表1所示,是四类频段δ波、θ波、α波以及β波对应的频率以及脑电情绪解释对应表。现有技术中,已经研究得知上述四种频段的脑电波所对应的人脑活动状态。波段频率解释δ波0.5-3Hz极度疲劳或昏睡状态θ波4-7Hz情绪受到压力时,尤其是失望或挫折α波8-15本文档来自技高网
...

【技术保护点】
一种文本情感标注方法,其特征在于,包括:获取传感器输出的文本阅读者的脑电信号;分别计算去噪后的脑电信号在四类频段上的功率均值,作为情感分析的特征向量,所述四类频段为δ波、θ波、α波以及β波;将所述情感分析的特征向量输入至分类模型中,预测得到文本的情感的标注结果。

【技术特征摘要】
1.一种文本情感标注方法,其特征在于,包括:
获取传感器输出的文本阅读者的脑电信号;
分别计算去噪后的脑电信号在四类频段上的功率均值,作为情感分析的特
征向量,所述四类频段为δ波、θ波、α波以及β波;
将所述情感分析的特征向量输入至分类模型中,预测得到文本的情感的标
注结果。
2.如权利要求1所述的文本情感标注方法,其特征在于,所述别计算去噪后
的脑电信号在四类频段上的功率均值前还包括:
将传感器输出的文本阅读者的脑电信号通过独立分量分析法进行投影,得
到多个独立分量;
从所述多个独立分量中识别出噪声分量;
从所述多个独立分量中去除所述噪声分量,得到降噪后的脑电信号;
根据降噪处理后的脑电信号的空间结构信息,对降噪处理后的脑电信号利
用共空间模式算法进行投影,得到降维后的脑电信号。
3.如权利要求1或2所述的文本情感标注方法,其特征在于,所述分类模
型包括:
四类频段上的频谱功率均值与情感标签的对应模型,所述对应模型通过训
练样本进行预训练得到。
4.如权利要求1或2所述的文本情感标注方法,其特征在于,获取传感器输
出的文本阅读者的脑电信号前,还包括:
将待标注文本通过组块分析技术转换为多个词组的形式,并呈现给文本阅
读者。
5.如权利要求1或2所述的文本情感标注方法,其特征在于,所述获取传感
器输出的文本阅读者的脑电信号包括:
获取传感器从文本阅读者头皮上多个位点采集到的电平信号,所述多个位
点按照预设规则设置在文本阅读者头皮上。
6.一种文本情感标注装置,其特征在于,包括:
获取单元,用于获取传感器输出的文本阅读者的脑电信号;

【专利技术属性】
技术研发人员:徐睿峰杜嘉晨桂林黄锦辉
申请(专利权)人:哈尔滨工业大学深圳研究生院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1