互联网多种情感词典构建方法及系统技术方案

技术编号：9618380 阅读：77 留言：0更新日期：2014-01-30 06:13

一种互联网多种情感词典构建方法及系统，其包括：从互联网上获取互联网文本语料；对所获取的文本语料进行数据预处理以得到情感词典的候选词；从所获取的文本语料提取新词以得到情感词典的候选词；利用所得到的情感词典的候选词来构建无向图模型；利用无向图模型及标签传播算法迭代计算无向图中每个节点的多种情感得分以构建情感词典，本发明专利技术采用不同种子词可构造不同情绪的情感词典，使情感识别的结果更加丰富。

Method and system for constructing internet multi emotion dictionary

A variety of Internet emotion dictionary construction method and system, comprising the following steps of: acquiring the internet corpus from the Internet; the acquired corpus data preprocessing to obtain candidate word sentiment dictionary; extraction of new words from the text corpus to get the candidate word emotion dictionary; to construct an undirected graph model using the candidate words obtained by the emotion dictionary; communication graph model and label algorithms calculate the undirected graph of each node in a variety of scores to construct the emotion dictionary, the invention adopts different seed word construct different emotional dictionary, make emotion recognition results more abundant.

全部详细技术资料下载

【技术实现步骤摘要】
互联网多种情感词典构建方法及系统
本专利技术涉及网络信息智能处理领域，特别是涉及利用互联网文本中表现出的情感情绪来构造情感词典的方法及系统。
技术介绍
随着互联网的发展，社会媒体大量涌现。社会媒体以互联网为媒介，为用户提供分享意见、经验的交流平台，汇集了大量的用户所产生内容，直接反映人们的情绪、观点及兴趣爱好。社会媒体中的文本内容包括博客、微博客、论坛讨论、产品评论等，是用户表达个人情感的载体，对社会舆情、品牌声誉、产品评价等有很大影响。因此，针对这些媒体的文本情感分析技术成为近年的热点问题。文本情感分析这项计算机技术，是对一段文本所表达的情感倾向进行识别。理论上人在文本中的情感表达是十分复杂的，除了肯定(褒)与反对(贬)外，还可能表达喜悦、愤怒、悲哀、恐惧、惊讶等情绪。但目前计算语言学的相关研究一般将情感倾向划分为褒义和贬义，有时也包括中性或混合等等。这种程度的简化在一定程度上可满足人们的需要，具有广阔的应用前景。因此，识别文本中体现的用户情感，成为网络信息领域中的一项关键技术，在商业、政治、社会事件中起到重要作用。例如，在电子商务网站的产品评论中，通过自动识别出消费者对产品、甚至对产品的每个属性是赞赏还是批评，可以影响其他消费者做出适合自己的购买行为，也可使产品制造商发现产品的优势和不足，以促进其改进；电影评论网站，观影者对电影的剧情、演员、摄影等各个因素给出评价，如用自动方法识别出其褒贬倾向，则可对一部电影的观众反映作出全面的了解；商业中，群体用户对某一品牌或商品评价形成的口碑，是商家重视的用户信息之一，用户口口相传的评价，会对商家的声誉造成...

【技术保护点】
一种互联网多种情感词典构建方法，其特征在于，该方法包括：获取步骤，从互联网上获取互联网文本语料；数据预处理步骤，对所获取的文本语料进行数据预处理以得到情感词典的候选词；提取新词步骤，从所获取的文本语料提取新词以得到情感词典的候选词；构建图模型步骤，利用所得到的情感词典的候选词来构建无向图模型；迭代计算步骤，利用无向图模型及标签传播算法迭代计算无向图中每个节点的多种情感得分以构建情感词典。

【技术特征摘要】
1.一种互联网多种情感词典构建方法，其特征在于，该方法包括: 获取步骤，从互联网上获取互联网文本语料；数据预处理步骤，对所获取的文本语料进行数据预处理以得到情感词典的候选词；提取新词步骤，从所获取的文本语料提取新词以得到情感词典的候选词；构建图模型步骤，利用所得到的情感词典的候选词来构建无向图模型；迭代计算步骤，利用无向图模型及标签传播算法迭代计算无向图中每个节点的多种情感得分以构建情感词典。2.如权利要求1所述的互联网多种情感词典构建方法，其特征在于，所述数据预处理步骤包括: 去除步骤，去除文本语料中的特殊词语；分词与提取步骤，对文本语料进行分词，并基于分词结果生成η元组，从文本语料中提取出一元组、二元组和三元组共三类元组集合，其中η〈4 ；移除步骤，在所述三类元组集合中，分别移除在文本语料中出现次数居前预设位数的高频元组以及低于预设次数低频元组，以将出现次数居中的中频元组作为一部分情感词典的候选词。3.如权利要求1所述的互联网多种情感词典构建方法，其特征在于，所述提取新词步骤中从所获取的文本语料提取新词的方法包括:上下文熵新词发现方法及互信息的新词发现方法。4.如权利要求3所述的互联网多种情感词典构建方法，其特征在于，所述构建图模型步骤包括: 计算步骤，计算情感词典的各个候选词在文本语料的句子中共同出现的次数，作为任意两个候选词间的相互关系；构建无向图模型步骤，以每个候选词为节点，相互关系作为边权，构建无向图模型。5.如权利要求4所述的互联网多种情感词典构建方法，其特征在于，在构建无向图模型步骤中，将所构建的无向图模型用矩阵G= (V, Ε)来表示，该G用来表示候选词之间的连接关系，其中V表不候选词的集合，E表不边的集合；该G中每个节点V对应一个候选词，其中V e V,边(Vi, Vj)对应于两个候选词Vi与Vj的同现关系，其中(Vi, ν」)e E ；将V中各个节点间的同现关系用同现矩阵W表示，同现矩阵W是G的邻接矩阵，其是对称的，同现矩阵W中的元素Wij表示边(Vi, Vj)的权重，即为这两个节点Vi, Vj在文本语料中同现的次数，同现矩阵W的对角线上的元素Wii对应于Vi在文本语料中出现的数量。6.如权利要求5所述的互联网多种情感词典构建方法，其特征在于，所述迭代计算步骤包括: 选取步骤，在无向图模型的节点中选取种子词赋予其情感得分；传播步骤，通过标签传播算法，在边权的作用下，从选取的种子词出发将该情感得分传播到无向图中全部连通的节点，每个节点将得到相对应的多种情感得分；构建情感词典步骤，在迭代收敛后，每个连通的节点都被赋予了多种情感得分，每个节点的情感得分即表示该节点所对应的候选词的情感倾向，这些节点对应的候选词及其多种情感得分即构成了情感词典。7.如权利要求2所述的互联网多种情感词典构建方法，其特征在于，所述高频元组是停用词，其同各类词语都有较高的同现机会；所述低频元组是非词语、用户名。8.如权利要求1所述的互联网多种情感词典构建方法，其特征在于，所述情感得分包括情绪得分、褒义得分、贬义得分及绝对得分，所述情绪得分包括喜悦得分、愤怒得分、悲哀得分、恐惧得分及惊讶得分。9.如权利要求6所述的互联网多种情感词典构建方法，其特征在于，所述种子词根据词集从所得到的情感词典的各个候选词中选取出来，其包括确定的情感词及与语言无关的情感记号。10.如权利要求6所述的互联网多种情感词典构建方法，其特征在于，在传播步骤中的迭代过程如下式描述: x(k+1) = W.x(k)+b 其中X(k)表示第k次迭代后的节点的情感得分向量，由此式，新一轮迭代的计算结果X(k+1)由同现矩阵W与偏置向量b作用于前一轮向量后得出，在每一轮迭代计算后，对结果进行归一化，则迭代过程最终收敛。11.如权利要求10所述的互联网多种情感词典构建方法，其特征在于，b取为种子向量χω，以便加强种子的作用，选定种子后，则向量x(°)中种子词对应的维度取值为1，其他维度...

【专利技术属性】
技术研发人员：刘奕群，马少平，张敏，金奕江，张阔，
申请(专利权)人：清华大学，北京搜狗科技发展有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人