一种基于皮肤电信号识别中文情感词的方法技术

技术编号:17733599 阅读:40 留言:0更新日期:2018-04-18 11:12
本发明专利技术公开了一种基于皮肤电信号识别中文情感词的方法。该方法将生理参数识别情感的优势用于识别中文情感词。具体包含皮肤电采集、对采集之后的数据进行预处理、特征提取、归一化处理、特征选择、利用改进的模拟退火人工神经网络算法得到分类结果,最后在分类结果中加入情感词比对,进行识别。作为实施例,本发明专利技术基于从《现代汉语词典》、《现代汉语分类词典》、《新世纪汉语新词词典》中筛选出的50个情感强度最高的情感词进行了识别。实验证明本发明专利技术能够完成对中文情感词的识别且准确度很高,充分表明利用生理参数对文本情感词的提取是可行的,为后期文本分析提供了新的思路,而且本发明专利技术系统架构清晰、简单,易于实现。

A method of identifying Chinese emotional words based on skin signal

The invention discloses a method for identifying Chinese emotional words based on a skin electrical signal. The method identifies the emotional advantages of the physiological parameters to identify the Chinese emotional words. Including acquisition, acquisition of skin after data preprocessing, feature extraction, normalization, feature selection, using the improved simulated annealing algorithm of artificial neural network classification, finally adding emotional words than in the classification, identification. As an embodiment, the invention is based on 50 emotional words selected from the modern Chinese dictionary, the modern Chinese classification dictionary and the new Chinese Dictionary of new century. The experiment proved that this method can complete the identification of Chinese emotion words and the accuracy is very high, fully show the physiological parameters on the extraction of text emotion words is feasible, and provides a new idea for the later analysis of the text, and the system structure is clear, simple, easy to implement.

【技术实现步骤摘要】
一种基于皮肤电信号识别中文情感词的方法
本专利技术属于电数字数据处理技术的处理自然语言数据领域,具体涉及基于皮肤电信号情感识别技术用于识别中文情感词的方法。
技术介绍
利用皮肤电信号识别情感有其独特的优势,比如它是生理参数所以更加客观,比如它相比于其他生理参数更易于采集、对于神经情绪变化最有效最敏感。对于利用皮肤电信号研究情感,目前技术相对成熟,所以适时的想利用该技术引入文本的分析。目前文本的分析因为其主观性强,语法语义拆分困难,情感词库的不完善等缺陷阻碍了文本情感分析的步伐。但是随着互联网的蓬勃发展,文字信息更是烟波浩渺,其中包含着大量的有用实用信息让人们又不愿意放弃文字信息的提取。客观上需要用更加客观的生理参数来识别中文情感词,这必将为单纯文本分析提供一个崭新的思路。
技术实现思路
本专利技术的目的在于提出利用皮肤电信号识别出中文情感词,为单纯的文本情感分析提供崭新的思路,使文本情感分析更加准确。为实现上述目的,本专利技术采用的技术方案为一种基于皮肤电信号识别中文情感词的方法,具体包含以下步骤:S1:皮肤电采集;S2:对采集之后的数据进行预处理;S3:特征提取;S4:归一化处理;S5:特征选择;S6:利用改进的模拟退火人工神经网络算法得到分类结果;S7:在分类结果中加入情感词比对,进行识别。作为优选,上述步骤2中的预处理采用小波变换进行去噪处理。进一步,步骤3中的特征提取是提取了信号的时域和频域中能代表皮肤电信号变化的统计值作为情感识别研究的原始特征。进一步,上述时域原始特征包括皮肤电信号的均值、中值、最大值、最小值、标准差、最小值比率、最大值比率、最大最小差值,以及将上述信号特征分别进行一阶差分、二阶差分计算后再提取以上统计特征后生成的24个时域特征。进一步,在提取所述频域特征前先对皮肤电信号进行离散傅里叶变换,然后计算频率均值、中值、标准差、最大值、最小值、最大最小差值,得到6个频域特征。进一步,上述步骤4中的所述归一化处理使得各特征值的取值范围限定在0到1之间,去除个体差异性的方法如下式:其中XG为原始信号,为每个被试者平静下的均值,归一化之后得到:X=(XG-Xmean)/(Xmax-Xmin)(2)。进一步,为了以最少的特征个数和最高的识别率来识别情感,步骤5所述特征选择时在标准化后的数据中随机选取若干组,并将其分成三份:第一部分为分类器训练集,第二部分测试集测试分类效果,最后部分数据用来验证特征集在情感识别中的有效性。进一步,上述改进的模拟退火人工神经网络算法包含如下步骤:步骤一:根据样本的输入和输出确定神经网络结构;步骤二:运用有记忆的模拟退火算法,具体如下:1)初始化参数,这样就产生了初始的权值S0,此时设置初始温度T0>0,迭代次数i=0,检验精度ε,令fout=f(S0),f*=f(S0),Sp=S0;2)将网络权值Sp作为初始出发点S0,按Powell算法进行优化,快速搜索到某一个局部极小值点;3)设置记忆变量x′和f(x′),分别用于记忆当前遇到的最优解和最优目标函数值,算法刚开始时令x′和f(x′)分别初始化等于初始解x0和其目标函数值f(x0),迭代开始后,每当接受一个新的搜索解时,将其目标函数值f(xk)与f(x′)进行比较,如果f(xk)优于f(x′),则分别用xk和f(xk)代替原来的x′和f(x′),最后算法结束时得到的就是全局最优解;4)得到的新的一组网络权值Sp,令Si=Sp,fout=f(Si),f*=f(Si),将网络权值Si作为迭代值x,设当前解Si=x,令T=Ti,进行退火操作,得到一组新的网络权值Si+1,按照Ti=T0/(1+ln(i))退火,i=i+1;5)退火后如果满足要求或迭代次数,则算法结束,如果f(Si)<fout,令Sp=Si+1,回到步骤4;步骤三:神经网络训练及预测,训练是通过设置固定的输入和输出,确定网络结构,在训练过程中,神经网络不断调整各个神经元之间的连接权值,以减小训练输出与指定输出之间的误差,预测是训练好的网络对输入数据进行处理,得到输出的过程;步骤四:最后将输出的结果与在实验过程中被试者输入的表格信息进行对比,完成对情感词识别比对。与现有技术相比,本专利技术的有益效果:1,本专利技术能够完成对中文情感词的识别且准确度很高,基本达到了预期结果。2,本专利技术充分表明利用生理参数对文本情感词的提取是可行的,为后期文本分析提供了新的思路。3,本专利技术系统架构清晰、简单,易于实现。附图说明图1表示整个方案的流程示意图。图2表示部分情感词调查表。图3表示实验情感词识别表。图4表示两者识别比对图。具体实施方式现结合附图和实施例对本专利技术做进一步详细的说明。作为实施例,本专利技术首先从《现代汉语词典》、《现代汉语分类词典》、《新世纪汉语新词词典》中筛选出2000多个情感词,再从这2000个里筛选出最常用的100个。最后在这100个词中再进行一次筛选,得出情感强度最高的情感词50个。利用实验室皮肤电采集工具,对某实验室20人进行了采集。该实验室20人均身体健康,无心脏病精神病史,一年之内未服过任何精神性药物,且从20岁到50岁各年龄段均有。实验素材即是挑选出的50个具有强烈情感的情感词,要求被试者坐在电脑屏幕前,此时每隔40秒电脑屏幕出现一个情感词,情感词出现时要求被试者联想与该情感词相关的场景。前30秒用于联想后10秒用于填写是否有感觉并且填写情感强度(0很强,1较强,2一般,3较弱,4很弱)。然后依次播放,直到完成50个情感词的播放。对采集之后的数据进行预处理,由于皮肤电信号比较微弱,易受到机器干扰,肌电干扰,电磁干扰等的影响,所以要对采集的皮肤电信号去噪处理。本专利技术采用小波变换进行去噪处理。小波变换具有在低频部分具有较高的频率分辨率和较低的时间分辨率,在高频部分具有较高的时间分辨率和较低的频率分辨率,因此具有对信号的自适应性,非常适用于生理信号的分析。在实验开始之前,向被试者详细说明了本次实验的流程和目的。首先每个被试者要求坐在离电脑显示屏正前方80cm处。实验开始。要求被试者先闭眼一分钟,然后睁眼看屏幕,这时屏幕上会每隔40秒出现一个情感词,其中30秒显示该情感词,10秒填写情感词情感强度表。当情感词出现时,被试者受情感词的刺激联想相应的场景,屏幕空白时填写调查表并让情绪归于平静。依次播放选定好的50个情感词,直到结束。删去无效数据后,筛选出270组有效数据。参照德国Augsburg大学特征提取的方法,提取了信号的时域和频域中最能代表皮肤电信号变化的统计值作为情感识别研究的原始特征。在时域中,提取了皮肤电信号的最大值、最小值、标准差、一阶差分标准差、一阶差分最小值比率、二阶差分标准差、二阶差分最小值比率等22个时域特征。为了提取皮肤电信号的频域特征,先对皮肤电信号进行离散傅里叶变换,然后计算频率均值、中值、标准差、最大值、最小值、最大最小差值,得到6个频域特征。由于皮肤电信号个体差异很大,且根据公式提取的各个统计特征的特征值的取值范围处在不同的数量级,为了方便统一比较,规范数据的统计分布,便于后续处理,做归一化处理各个特征,使各特征值的取值范围限定在0到1之间。公式入下:去除个体差异性方法:其中XG为原始信号,为每个被试本文档来自技高网...
一种基于皮肤电信号识别中文情感词的方法

【技术保护点】
一种基于皮肤电信号识别中文情感词的方法,其特征在于包含以下步骤:S1:皮肤电采集;S2:对采集之后的数据进行预处理;S3:特征提取;S4:归一化处理;S5:特征选择;S6:利用改进的模拟退火人工神经网络算法得到分类结果;S7:在分类结果中加入情感词比对,进行识别。

【技术特征摘要】
1.一种基于皮肤电信号识别中文情感词的方法,其特征在于包含以下步骤:S1:皮肤电采集;S2:对采集之后的数据进行预处理;S3:特征提取;S4:归一化处理;S5:特征选择;S6:利用改进的模拟退火人工神经网络算法得到分类结果;S7:在分类结果中加入情感词比对,进行识别。2.根据权利要求1所述的基于皮肤电信号识别中文情感词的方法,其特征在于,步骤2中的预处理采用小波变换进行去噪处理。3.根据权利要求1所述的基于皮肤电信号识别中文情感词的方法,其特征在于,步骤3中的特征提取是提取了信号的时域和频域中能代表皮肤电信号变化的统计值作为情感识别研究的原始特征。4.根据权利要求3所述的基于皮肤电信号识别中文情感词的方法,其特征在于所述时域原始特征包括皮肤电信号的均值、中值、最大值、最小值、标准差、最小值比率、最大值比率、最大最小差值,以及将上述信号特征分别进行一阶差分、二阶差分计算后再提取以上统计特征后生成的24个时域特征。5.根据权利要求3所述的基于皮肤电信号识别中文情感词的方法,其特征在于在提取所述频域特征前先对皮肤电信号进行离散傅里叶变换,然后计算频率均值、中值、标准差、最大值、最小值、最大最小差值,得到6个频域特征。6.根据权利要求1所述的基于皮肤电信号识别中文情感词的方法,其特征在于步骤4中的所述归一化处理使得各特征值的取值范围限定在0到1之间,去除个体差异性的方法如下式:其中XG为原始信号,为每个被试者平静下的均值,归一化之后得到:X=(XG-Xmean)/(Xmax-Xmin)(2)。7.根据权利要求1所述的基于皮肤电信号识别中文情感词的方法,其特征在于步骤5所述特征选择时在标准化后的数据中随机选取若干组,并将其分成三份:第一部分为分类器训练集,第二部分测...

【专利技术属性】
技术研发人员:叶宁张力行王娟黄海平王汝传汪莹程康徐叶强赵佳文
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1