当前位置: 首页 > 专利查询>清华大学专利>正文

互联网多种情感词典构建方法及系统技术方案

技术编号:9618380 阅读:77 留言:0更新日期:2014-01-30 06:13
一种互联网多种情感词典构建方法及系统,其包括:从互联网上获取互联网文本语料;对所获取的文本语料进行数据预处理以得到情感词典的候选词;从所获取的文本语料提取新词以得到情感词典的候选词;利用所得到的情感词典的候选词来构建无向图模型;利用无向图模型及标签传播算法迭代计算无向图中每个节点的多种情感得分以构建情感词典,本发明专利技术采用不同种子词可构造不同情绪的情感词典,使情感识别的结果更加丰富。

Method and system for constructing internet multi emotion dictionary

A variety of Internet emotion dictionary construction method and system, comprising the following steps of: acquiring the internet corpus from the Internet; the acquired corpus data preprocessing to obtain candidate word sentiment dictionary; extraction of new words from the text corpus to get the candidate word emotion dictionary; to construct an undirected graph model using the candidate words obtained by the emotion dictionary; communication graph model and label algorithms calculate the undirected graph of each node in a variety of scores to construct the emotion dictionary, the invention adopts different seed word construct different emotional dictionary, make emotion recognition results more abundant.

【技术实现步骤摘要】
互联网多种情感词典构建方法及系统
本专利技术涉及网络信息智能处理领域,特别是涉及利用互联网文本中表现出的情感情绪来构造情感词典的方法及系统。
技术介绍
随着互联网的发展,社会媒体大量涌现。社会媒体以互联网为媒介,为用户提供分享意见、经验的交流平台,汇集了大量的用户所产生内容,直接反映人们的情绪、观点及兴趣爱好。社会媒体中的文本内容包括博客、微博客、论坛讨论、产品评论等,是用户表达个人情感的载体,对社会舆情、品牌声誉、产品评价等有很大影响。因此,针对这些媒体的文本情感分析技术成为近年的热点问题。文本情感分析这项计算机技术,是对一段文本所表达的情感倾向进行识别。理论上人在文本中的情感表达是十分复杂的,除了肯定(褒)与反对(贬)外,还可能表达喜悦、愤怒、悲哀、恐惧、惊讶等情绪。但目前计算语言学的相关研究一般将情感倾向划分为褒义和贬义,有时也包括中性或混合等等。这种程度的简化在一定程度上可满足人们的需要,具有广阔的应用前景。因此,识别文本中体现的用户情感,成为网络信息领域中的一项关键技术,在商业、政治、社会事件中起到重要作用。例如,在电子商务网站的产品评论中,通过自动识别出消费者对产品、甚至对产品的每个属性是赞赏还是批评,可以影响其他消费者做出适合自己的购买行为,也可使产品制造商发现产品的优势和不足,以促进其改进;电影评论网站,观影者对电影的剧情、演员、摄影等各个因素给出评价,如用自动方法识别出其褒贬倾向,则可对一部电影的观众反映作出全面的了解;商业中,群体用户对某一品牌或商品评价形成的口碑,是商家重视的用户信息之一,用户口口相传的评价,会对商家的声誉造成影响,商家则可以通过在互联网媒体中进行营销,扩大产品的影响,诱导用户的消费行为;通过捕捉微博中与某一行业相关的热门话题,分析其情感趋势,可对股票的走势进行预测;在许多政治事件中,网民利用互联网作为信息传递和消息发布的平台,如许多国家选举时的选民倾向、不同阵营均在微博中有所反映,因此研究者利用相关的微博进行事先预测或事后分析,探讨网络民意对选举的影响。社会媒体文本与传统媒体文本的突出不同就是语言不规范、用词自由。传统的自然语言处理方法通常对文本进行语法分析,依赖于语言学知识。但对于社会媒体文本,由于其文本表达未必规范、合乎语法,传统分析方法的准确性大大降低。又如一些用户造出的新词,是传统的词典里所没有的(即“未登录词”),或者词语含义发生很大变化,这使得传统方法的应用受到很大限制。文本情感分析的识别结果通常是褒义、贬义等类别,因此文本情感分析可以采用机器学习的方法,作为分类任务完成。在前述商品评论或电影评论网站中,用户在评论的同时通常配有评分,此分数可作为评论文本情感程度的打分,即对评论文本的标注,因此这些评论及评分可以作为训练语料,用于有监督机器学习过程。这些方法均以词汇(一元组)作为特征,结合分类器(如朴素贝叶斯模型、最大熵模型、支持向量机模型等)完成有监督的训练和测试。如果缺乏充足的训练语料,有监督学习方法则失去了用武之地。对于微博这种数量庞大的互联网文本,采用人工只能标注很少的微博文本,其适用领域与规模受到限制。仿照评论网站的打分分值作为分类标签,在微博中可以假设文本中的表情符号(如笑脸符“”或哭脸符“表示其情感倾向,即用该符号的出现作为分类标签进行训练。但这些表情符号作为分类标签往往存在噪声,而且受到符号变形、种类的限制。因此,基于有监督学习的情感分类受到很大制约,而基于情感词典的无监督学习方法仍然起到举足轻重的作用。情感词典是指一个包含情感词语及其情感倾向的词典。这些情感词语通常以形容词为主,在文字中表达明确的情感倾向,例如“好”、“坏”;“高兴”、“悲伤”等。在现实中,人工构建情感词典受到成本和规模的限制,不适于推广。而从文本语料中,可以利用文本的特点自动构建情感词典。这种自动方式通常从一个小规模的情感词种子集(或规则)出发,之后利用词语间的相互联系,逐渐扩大集合,计算出更多的词语的情感倾向。自动构建情感词典的过程主要面临如下问题:候选情感词的选取:情感词多数是形容词,因此通常只将形容词作为候选的情感词。对于稍复杂的情形,则可利用规则提取出更丰富的情感词或情感短语。度量词汇关系:为从小规模情感种子词(简称种子词)扩散到大规模的词语,词汇关系应反映它们之间的情感联系。这些联系一般包括:同现关系,这是由于褒义词会更多地和褒义词共同出现,贬义词会更多地和贬义词同现,因此句子中的同现关系可将词语之间建立联系;或者采用句子中由连词(“与”、“和”、“但”)建立的关系,这种方式虽然数量远不如前者,但质量更高;更深层次的则为语义关系,如利用WordNet的同义词、反义词关系等。情感倾向的传播:词语和它们之间的联系构成了一张图,需要以适当的计算方法将种子词的情感倾向得分传播到更多的词汇。例如,以同义、反义关系构建的图,可根据这些边的类型,将相同极性的词语聚类;以互信息(point-wise mutual information,PMlH+算新词与已有词的关系。在基于图的模型中,亦可采用图传播(graph propagation)或标签传播(label propagation)等方式完成。这些问题表明,使用情感词典进行情感分析的方法虽然避免了训练语料这一瓶颈,但情感词典本身的构建十分重要。如果情感词典的规模小,则会遗漏很多情感词,无法识别文本的情感倾向,特别是对于一些短文本,更不易命中情感词;如果情感词典的质量不高,也会造成情感分析结果的错误。
技术实现思路
鉴于以上内容,有必要提供一种互联网多种情感词典构建方法及系统,其利用一些文本表达情感的基本单元(如词语、符号等)在互联网文本中的同现关系,结合新词发现的方法,通过迭代传播方式自动构造情感词典。一种互联网多种情感词典构建方法,该方法包括:获取步骤,从互联网上获取互联网文本语料;数据预处理步骤,对所获取的文本语料进行数据预处理以得到情感词典的候选词;提取新词步骤,从所获取的文本语料提取新词以得到情感词典的候选词;构建图模型步骤,利用所得到的情感词典的候选词来构建无向图模型;迭代计算步骤,利用无向图模型及标签传播算法迭代计算无向图中每个节点的多种情感得分以构建情感词典。一种互联网多种情感词典构建系统,该系统包括:获取模块,用于从互联网上获取互联网文本语料;数据预处理模块,用于对所获取的文本语料进行数据预处理以得到情感词典的候选词;提取新词模块,用于从所获取的文本语料提取新词以得到情感词典的候选词;构建图模型模块,用于利用所得到的情感词典的候选词来构建无向图模型;迭代计算模块,用于利用无向图模型及标签传播算法迭代计算无向图中每个节点的多种情感得分以构建情感词典。相较于现有技术,本专利技术针对互联网文本已有情感分析算法中情感词典的不足,提出构建识别互联网文本多种情感所用情感词典的方法。与传统方法相比,本方法利用互联网文本中特有的一些非正式文本的情感记号、网络新词、表情图标、错写词语等构建词典,不限于单一语言或领域的传统情感词。采用不同种子词可构造不同情绪(如喜悦、愤怒、悲哀、恐惧、惊讶等)的情感词典,使情感识别的结果更加丰富。【附图说明】 图1是本专利技术互联网多种情感词典构建系统的应用环境图。图2是本专利技术互本文档来自技高网
...

【技术保护点】
一种互联网多种情感词典构建方法,其特征在于,该方法包括:获取步骤,从互联网上获取互联网文本语料;数据预处理步骤,对所获取的文本语料进行数据预处理以得到情感词典的候选词;提取新词步骤,从所获取的文本语料提取新词以得到情感词典的候选词;构建图模型步骤,利用所得到的情感词典的候选词来构建无向图模型;迭代计算步骤,利用无向图模型及标签传播算法迭代计算无向图中每个节点的多种情感得分以构建情感词典。

【技术特征摘要】
1.一种互联网多种情感词典构建方法,其特征在于,该方法包括: 获取步骤,从互联网上获取互联网文本语料; 数据预处理步骤,对所获取的文本语料进行数据预处理以得到情感词典的候选词; 提取新词步骤,从所获取的文本语料提取新词以得到情感词典的候选词; 构建图模型步骤,利用所得到的情感词典的候选词来构建无向图模型; 迭代计算步骤,利用无向图模型及标签传播算法迭代计算无向图中每个节点的多种情感得分以构建情感词典。2.如权利要求1所述的互联网多种情感词典构建方法,其特征在于,所述数据预处理步骤包括: 去除步骤,去除文本语料中的特殊词语; 分词与提取步骤,对文本语料进行分词,并基于分词结果生成η元组,从文本语料中提取出一元组、二元组和三元组共三类元组集合,其中η〈4 ; 移除步骤,在所述三类元组集合中,分别移除在文本语料中出现次数居前预设位数的高频元组以及低于预设次数低频元组,以将出现次数居中的中频元组作为一部分情感词典的候选词。3.如权利要求1所 述的互联网多种情感词典构建方法,其特征在于,所述提取新词步骤中从所获取的文本语料提取新词的方法包括:上下文熵新词发现方法及互信息的新词发现方法。4.如权利要求3所述的互联网多种情感词典构建方法,其特征在于,所述构建图模型步骤包括: 计算步骤,计算情感词典的各个候选词在文本语料的句子中共同出现的次数,作为任意两个候选词间的相互关系; 构建无向图模型步骤,以每个候选词为节点,相互关系作为边权,构建无向图模型。5.如权利要求4所述的互联网多种情感词典构建方法,其特征在于,在构建无向图模型步骤中,将所构建的无向图模型用矩阵G= (V, Ε)来表示,该G用来表示候选词之间的连接关系,其中V表不候选词的集合,E表不边的集合; 该G中每个节点V对应一个候选词,其中V e V,边(Vi, Vj)对应于两个候选词Vi与Vj的同现关系,其中(Vi, ν」)e E ; 将V中各个节点间的同现关系用同现矩阵W表示,同现矩阵W是G的邻接矩阵,其是对称的,同现矩阵W中的元素Wij表示边(Vi, Vj)的权重,即为这两个节点Vi, Vj在文本语料中同现的次数,同现矩阵W的对角线上的元素Wii对应于Vi在文本语料中出现的数量。6.如权利要求5所述的互联网多种情感词典构建方法,其特征在于,所述迭代计算步骤包括: 选取步骤,在无向图模型的节点中选取种子词赋予其情感得分; 传播步骤,通过标签传播算法,在边权的作用下,从选取的种子词出发将该情感得分传播到无向图中全部连通的节点,每个节点将得到相对应的多种情感得分; 构建情感词典步骤,在迭代收敛后,每个连通的节点都被赋予了多种情感得分,每个节点的情感得分即表示该节点所对应的候选词的情感倾向,这些节点对应的候选词及其多种情感得分即构成了情感词典。7.如权利要求2所述的互联网多种情感词典构建方法,其特征在于,所述高频元组是停用词,其同各类词语都有较高的同现机会;所述低频元组是非词语、用户名。8.如权利要求1所述的互联网多种情感词典构建方法,其特征在于,所述情感得分包括情绪得分、褒义得分、贬义得分及绝对得分, 所述情绪得分包括喜悦得分、愤怒得分、悲哀得分、恐惧得分及惊讶得分。9.如权利要求6所述的互联网多种情感词典构建方法,其特征在于,所述种子词根据词集从所得到的情感词典的各个候选词中选取出来,其包括确定的情感词及与语言无关的情感记号。10.如权利要求6所述的互联网多种情感词典构建方法,其特征在于,在传播步骤中的迭代过程如下式描述: x(k+1) = W.x(k)+b 其中X(k)表示第k次迭代后的节点的情感得分向量,由此式,新一轮迭代的计算结果X(k+1)由同现矩阵W与偏置向量b作用于前一轮向量后得出,在每一轮迭代计算后,对结果进行归一化,则迭代过程最终收敛。11.如权利要求10所述的互联网多种情感词典构建方法,其特征在于,b取为种子向量χω,以便加强种子的作用,选定种子后,则向量x(°)中种子词对应的维度取值为1,其他维度...

【专利技术属性】
技术研发人员:刘奕群马少平张敏金奕江张阔
申请(专利权)人:清华大学北京搜狗科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1