【技术实现步骤摘要】
本专利技术涉及一种情感建模方法,尤其是基于PAD模型的汉语词汇的情感建模方法,属于情感计算领域。
技术介绍
人与计算机交互的很多媒介都是以文本为基础的。文本中蕴涵着丰富的情感信息,对应着人类相应的心理状态。因此文本情感提取的研究在情感计算和智能交互领域有着重要意义。而文本情感的提取必须依赖于良好的情感模型,这样才能更加准确的识别用户的情感状态。汉语中有大量描述人类情绪和情感的词汇,如喜悦,乐观,忧郁。这些情感词汇都从不同的角度反映了人的心理状态。虽然人们可以通过个人心理感受来区分这些词汇,但是如果期望能够计算机也能够准确的区分这些词汇,就需要对这些词汇进行量化以及聚类分析,从而实现情感建模。PAD模型是Mehrabian和Russell提出的维度测量模型。该模型将情绪分为愉悦度(Pleasure)——表示个体情感状态的政府特性,激活度(Arousal)——表示个体神经生理激活水平;优势度(Dominance)——表示个体对情境和他人的控制状态。PAD模型不但给出了对情感空间进行描述的理论构想,同时采用量化的方法试图建立情感空间中各种情绪范畴的定位和关系。在情感建模领域,目前尚未对汉语词汇进行针对性的建模,这在一定程度上制约了汉语文本情感识别研究的进一步发展。而结合PAD模型的汉语词汇情感建模方法可以解决文本情感识别领域中缺少情感模型这一问题。因此,提出一种有效的汉语词汇情感建模方法具有很强的现实意义。
技术实现思路
本专利技术的目的在于提出一种能够对汉语词汇进行情感建模的方法,以解决计算机定量识别词汇情感的问题。本专利技术提供了一种基于PAD的汉语词汇情感建 ...
【技术保护点】
1.一种基于PAD的汉语词汇情感建模方法,其主要特征在于:步骤1:建立汉语情感词汇原始数据库,从报纸,文摘,博客,社交网站及BBS等多种渠道收集表达情感的词汇。步骤2:对汉语情感词汇原始数据库中的词汇分别进行P、A、D三个维度的标注,标注的范围为-4到+4;为了使标注客观准确,本专利技术定义每个维度都由三个不同的评价者进行标注,每个词汇都进行三次不同的评价;每个词汇的P、A、D量度值为这三次评价的平均值并进行归一化处理,使其值在(-1,+1)之间。步骤3:对所标注的全部情感词汇按其P、A、D量值进行层次聚类分析;为了取得更好的聚类效果,本专利技术采用欧氏距离作为聚类的距离度量,加权平均距离法作为聚类算法;并可以根据实际需求选择聚类个数N。步骤4:如果有一个原始数据库中没有的新词,则先对其进行PAD维度的标注,然后计算其与最终聚类集群的欧氏距离,并将其归类到欧氏距离最小的那个集群。
【技术特征摘要】
1. 一种基于PAD的汉语词汇情感建模方法,其主要特征在于 步骤1 建立汉语情感词汇原始数据库,从报纸,文摘,博客,社交网站及BBS等多种渠道收集表达情感的词汇。步骤2 对汉语情感词汇原始数据库中的词汇分别进行P、A、D三个维度的标注,标注的范围为-4到+4 ;为了使标注客观准确,本发明定义每个维度都由三个不同的评价者进行标注,每个词汇都进行三次不同的评价;每个词汇的P、A、D量度值为这三...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。