汉语文本情感数据的组织及提取方法技术

技术编号:2830914 阅读:195 留言:0更新日期:2012-04-11 18:40
本发明专利技术一种汉语文本情感数据的组织及提取方法,其中汉语文本情感数据的组织方法是:(1)定义汉语文本情感标记语言标签;(2)在标签〈interjection〉下加入情感感叹词数据;(3)在标签〈emoticon〉下加入情感图标数据;(4)在标签〈emotionchar〉下加入情感字符数据;(5)在标签〈emotionword〉下加入情感词汇数据;(6)采用调查问卷的方式确定上述4种数据所表达情感的强度;(7)在标签〈modifier〉下加入情感词汇修饰语数据。其中汉语文本情感的提取方法是:(1)对汉语文本进行断句分词处理;(2)基于汉语文本情感数据库实现情感提取;(3)情感强度的确定。本发明专利技术成功的解决了国外文本情感数据库情感种类较少以及国内汉语文本情感数据库匮乏的问题,同时实现了对汉语文本多种细腻情感的提取。本发明专利技术将促进情感化人机交互的发展。

【技术实现步骤摘要】

本专利技术涉及一种,属于信息
(二)
技术介绍
人机交互是研究人与计算机之间的信息交换,其模式已从语言命令阶段(CUI)、图像用 户界面(GUI)交互阶段发展到自然和谐的感性用户界面(PUI)交互阶段。情感在人类决策、 感知、学习以及其它一些类似的行为中发挥着重要作用,因此越来越多的研究者意识到要想 真正实现人与计算机之间的和谐感性交互,就要将情感因素融入其中。麻省理工大学的皮卡 德(Picard)于1997年提出了情感计算的概念,也就是赋予计算机类似于人类一样的观察、 理解和生成各种情感特征的能力,最终使计算机像人一样能进行自然、亲切和生动的交互。 文本信息是人与计算机交互的常用手段,其中蕴含着丰富的情感信息,对应着人类相应的心 理状态。文本情感提取的研究在情感计算和智能交互领域有着重要意义,它使计算机能够从 文本信息中体会人类的喜怒哀乐并做出恰当的反应,可用于人机对话系统、仿生代理交互系 统,还可实现文本到情感语音的合成(Text-to邻eech)。目前的情感文本数据库大致分为两类。 一类为基于美国心理学家埃克曼(Ekman)提出 的6种基本情感(分别为高兴、悲伤、惊讶、生气、嫌恶和害怕)的数据库。例如,麻省理 工大学的文本情感数据库和英国波恩茅斯大学的文本情感数据库均包含了上述6种基本情 感。而另一类情感文本数据库基于伊泽德(Izard)所定义的9种情感(分别为生气、嫌恶、 害怕、内疚、好奇、高兴、悲伤、害羞和惊讶)的数据库。例如,日本东京大学所建立的情 感文本数据库包含了上述9种情感。但是,国外的情感文本数据库不仅包含的情感种类有限, 没有考虑到更加细腻的情感,而且数据库中的数据都是英文或者日文,国内目前也没有专门 针对汉语的情感文本数据库,这些都极大的限制了汉语文本情感提取研究的发展。对汉语文本情感信息的处理是对汉语文本中所蕴含的情感信息进行提取,进而判断人类 相应的心理情绪状态,如快乐、惊奇、愤怒、害怕和悲伤等。汉语文本情感提取的研究在国 内基本还是空白。而国外针对英文文本的情感提取通常是基于关键词定位和基于常识的方法, 其所提取的情感种类有待提高。(三)
技术实现思路
本专利技术一种,其目的是①针对国外文本情感数据库情感种类较少以及国内汉语文本情感数据库匮乏的现状,设计基于可扩展标记语言XML (Extensible Markup Language)的汉语文本情感标记语言CATML(Chinese Affective Text Markup Langnage)组织汉语情感文本数据,提供一个较为全面的汉语文本情感数据库;②提 出了基于此汉语情感文本数据库的汉语文本情感提取方法,实现了汉语文本情感识别。 本专利技术一种其中该汉语文本情感数据的组织方法是基于可扩展标记语言XML (Extensible Markup Language)设计汉语文本情感标记语言CATML(Chinese Affective Text Markup Language)组织 汉语情感文本数据,提供一个较为全面的汉语文本情感数据库,包含情感感叹词、情感图标、 情感字符、情感词汇和修饰语,涉及单一情感30种,混合情感6种。该汉语文本情感的提取方法是对待进行情感提取的文本文件进行断句分词处理,然后基于汉语文本情感数据库实现情感提取及所表达情感强度的确定。汉语文本情感数据设定的单一情感、混合情感说明如下单一情感包括高兴、嫉妒、 幸灾乐祸、遗憾、满意、悲观、放松、失望、快乐、悲伤、骄傲、害羞、羡慕、责备、自满、 悔恨、感激、生气、喜欢、厌恶、同情、害怕、为难、发愁、尴尬、赞美、信任、鄙夷、憎 恨和希望。混合情感包括愤怒悲伤、悲伤高兴、惊奇高兴、惊奇害怕、悲伤憎恨和生气憎 恨。其中关于汉语文本情感数据的组织方法;其步骤如下步骤1:基于可扩展标记语言XML (Extensible Markup Language)对汉语文本情感标记语 言CATML(Chinese Affective Text Markup Language)的标签(包括元素和属性)进行定义;步骤2:在标签^nteijection〉下加入情感感叹词数据,并按照上述的单一情感或混合情感 进行分类;步骤3:在标签〈emoticor^下加入情感图标数据,并按照上述的单一情感或混合情感进行 分类;步骤4:在标签々motioncha^下加入情感字符数据,并按照上述的单一情感或混合情感 进行分类;步骤5:在标签〈emotionword〉下加入情感词汇数据,并按照上述的单一情感或混合情感 进行分类;步骤6:采用调査问巻的方式确定上述4种数据所表达情感的强度,按照高、中、低分 别确定其intensity属性的值;步骤7:在标签〈modifier〉下加入情感词汇修饰语数据,并按照加强情感强度、减弱情感 强度和对情感取反确定其polarity属性的值。关于汉语文本情感的提取方法;其步骤如下歩骤1:对待进行情感提取的文本文件进行断句分词处理;步骤2:根据所建立的汉语文本情感数据库对汉语文本进行情感提取,确定每个句子所 表达情感的类型;步骤3:根据intensity属性及修饰语调整每个句子所表达情感的强度或对所表达的情感 类型取反。为了方便实现汉语文本情感提取,基于上述汉语文本情感数据库和汉语文本情感提取方 法开发了汉语文本情感提取软件,该软件的流程框图如附图说明图1所示。首先载入待提取情感的文 本文件,对该文本文件进行断句分词处理,然后依据汉语文本情感数据库实现汉语文本的情 感提取并确定其所表达情感的强度。本专利技术的积极效果和优点在于1. 成功的解决了国外文本情感数据库情感种类较少以及国内汉语文本情感数据库匮乏的问题,采用基于可扩展标记语言XML (Extensible Markup Language)的汉语文本情感标记语言 CATML(Chinese Affective Text Markup Language)组织汉语情感文本数据,提供了 一个较为全 面的汉语文本情感数据库,包含情感感叹词、情感图标、情感字符、情感词汇和修饰语,涉 及单-情感30种,混合情感6种 2. 提出了基于此汉语文本情感数据库的汉语文本情感提取方法,该方法简单易用,具有 较强的汉语文本情感提取及情感强度分类能力。(四) 附图附表说明图1汉语文本情感提取软件流程框图。图2汉语情感文本标记语言DTD定义。图3测试文本示例。图4汉语文本情感提取结果。图5情感图标数据图6情感字符示例(五) 具体实施例方式本专利技术一种,包括汉语文本情感数据的组织方法及 汉语文本情感的提取方法;其中,一、汉语文本情感数据的组织方法,该组织方法步骤如下步骤1:基于可扩展标记语言XML (Extensible Markup Language)对汉语文本情感标记语 言CATML(Chinese Affective Text Markup Language)的元素及属性进行定义。如图2所示,该 《又i吾文本'瞎感丰示i己i吾'^主要定义了〈interjection〉、 <emoticon>、 <emotionchar>、 <emotionword> 和〈modifier〉5个标签来组织情感感叹词、情感本文档来自技高网
...

【技术保护点】
一种汉语文本情感数据的组织及提取方法,其特征在于:该方法包括汉语文本情感数据的组织及汉语文本情感的提取;其中:(1)汉语文本情感数据的组织,其方法步骤如下:步骤1:基于可扩展标记语言XML对汉语文本情感标记语言CATML的标签进行定义;步骤2:在标签interjection下加入情感感叹词数据,并按照上述的单一情感或混合情感进行分类;步骤3:在标签emoticon下加入情感图标数据,并按照上述的单一情感或混合情感进行分类;步骤4:在标签emotionchar下加入情感字符数据,并按照上述的单一情感或混合情感进行分类;步骤5:在标签emotionword下加入情感词汇数据,并按照上述的单一情感或混合情感进行分类;步骤6:采用调查问卷的方式确定上述4种数据所表达情感的强度,按照高、中、低分别确定其intensity属性的值;步骤7:在标签modifier下加入情感词汇修饰语数据,并按照加强情感强度、减弱情感强度和对情感取确定其polarity属性的值;(2)汉语文本情感的提取,其方法步骤如下:步骤1:对待进行情感提取的文本文件进行断句分词处理;步骤2:根据所建立的汉语文本情感数据库对汉语文本进行情感提取,确定每个句子所表达情感的类型;步骤3:根据intensity属性及修饰语调整每个句子所表达情感的强度或对所表达的情感类型取反。...

【技术特征摘要】
1、一种汉语文本情感数据的组织及提取方法,其特征在于该方法包括汉语文本情感数据的组织及汉语文本情感的提取;其中(1)汉语文本情感数据的组织,其方法步骤如下步骤1基于可扩展标记语言XML对汉语文本情感标记语言CATML的标签进行定义;步骤2在标签interjection下加入情感感叹词数据,并按照上述的单一情感或混合情感进行分类;步骤3在标签emoticon下加入情感图标数据,并按照上述的单一情感或混合情感进行分类;步骤4在标签emotionchar下加入情感字符数据,并按照上述的单一情感或混合情感进行分类;步骤5在标签emotionword下加入情感词...

【专利技术属性】
技术研发人员:毛峡李峥包海燕
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1