一种基于Word2Vec网络情感新词发现的文本倾向性分析方法技术

技术编号:16482936 阅读:27 留言:0更新日期:2017-10-31 15:32
本发明专利技术公开了一种基于Word2Vec网络情感新词发现的文本倾向性分析方法。该方法加入了基于Word2Vec的网络情感新词发现方法,它可以自动识别网络中口语化的情感词语,扩充关键的正负倾向情感词典,提升针对网络语料的分析准确性。首先对文本进行预处理,在分句的基础上进行句法分析,找出句子中的依存关系及主导词和修饰词,将主导词在正、负面词典中比对得到初始词语极性,再将修饰词与词语程度级别词典和否定词词典比对得到修饰词权重,把二者相乘得出依存关系层次的情感分数。然后提取句子中的表情符号和句子顺序所带有的权值,将其与句子中所有依存关系情感分数之和相乘,得出该条语句的情感倾向分数。该方法可以提升文本倾向性分析的准确性。

Text sentiment analysis method based on Word2Vec network sentiment new word discovery

The invention discloses a text tendentiousness analysis method based on the discovery of emotion neologisms in Word2Vec network. The method to detect network emotion words based on Word2Vec, it can be emotional words spoken in the network of automatic identification, positive and negative emotion dictionary key expansion tendency, aimed at improving the accuracy of the analysis of network data. Firstly, the text preprocessing, for syntactic parsing based on clauses in a sentence, the dependency relation and leading words and modifiers, will dominate the positive and negative words in the dictionary than the initial word polarity, then the modifier and word level dictionary and negative words dictionary than modified word weight the dependency relation is obtained by multiplying the levels of emotion scores. Then, the weights of the emoticons and sentence sequences are extracted and multiplied with the sum of the emotion scores of all the dependent relations in the sentence, and the scores of the emotion tendency are obtained. This method can improve the accuracy of text orientation analysis.

【技术实现步骤摘要】
一种基于Word2Vec网络情感新词发现的文本倾向性分析方法
本专利技术属于自然语言处理领域,特别是一种基于Word2Vec网络情感新词发现的文本倾向性分析方法。
技术介绍
基于Word2Vec网络情感新词发现的文本倾向性分析主要是利用Word2Vec模型来实现网络情感新词发现,构造较为完备的正负面词典,提高文本倾向性分析的准确性。随着WEB2.0技术的发展,网络资源与日俱增,越来越多的用户通过博客、评论网站、论坛等发表自己对社会事件、国家政策等的看法,但仅仅通过人工浏览来获取大众态度是一件非常繁琐和困难的事情,因此基于文本倾向性分析的意见挖掘技术应运而生。基于文本倾向性分析的意见挖掘相对于主题挖掘,需要对文本进行一定的智能化理解——倾向性分析,在此基础上提取作者的意见、情感和态度等信息。文本倾向性是用于判断文本信息中包含的情感倾向的一种技术,它可以将文本的情感区别为正面、负面或中立三种极性。例如句子:“我非常高兴见到你。”通过文本倾向性识别技术,可以判断这是一个带有正面倾向的文本。黄萱菁等(2008)将倾向性识别技术分为四个等级:词语倾向性分析、句子倾向性分析、篇章倾向性分析和海量数据的整体倾向性预测[黄萱菁,赵军.中文文本情感倾向性分析。文本倾向性分析一般有两种主流的分析方法:基于机器学习的方法和基于语义的分析方法。邸鹏等(2014)针对转折句式,提出了将词典融入朴素贝叶斯方法中的新的文本倾向性分析方法[邸鹏,李爱萍,段利国.基于转折句式的文本情感倾向性分析[J].计算机工程与技术,2014,35(12):4289-4295.]。韩中元等(2014)将主客观分类与褒贬分类融合,改进了逻辑回归模型,并结合词典分辨文本的情感倾向性[韩中元,杨沐昀,李生,韩咏,孔蕾蕾,徐冰,齐浩亮.一个面向微博的情感倾向性分析模型[J].智能计算机与应用,2014.4(6):57-60.]。基于语义的分析方法意味着分词、语义分析、句法分析等成为研究重点。另一方面,情感词典在基于语义的文本分析方法中具有无法替代的作用,一个拥有准确的情感词语,且包含网络口语化词语的情感词典,可以使分析更加准确。而目前专门发现网络情感词语的研究还不多,运用比较广泛的是《知网》提供的“情感分析用词语集”,它是利用文本文件的形式进行搜索匹配,但这种方式存在大量冗余信息,且缺少口语化的网络新词,无法准确分辨网友的情感。
技术实现思路
本专利技术所解决的技术问题在于提供一种利用Word2Vec模型进行网络情感新词发现的文本倾向性分析方法。实现本专利技术目的的技术解决方案为:一种基于Word2Vec网络情感新词发现的文本倾向性分析方法,包括以下步骤:第一步,文本预处理,将不同的语料预先进行断句、格式处理、分词和词性标注,根据不同的语料布局,分别设置相应的文本读取方式;第二步,确定句子中字词间的依存关系,使用斯坦福大学的句法分析系统进行句法分析;第三步,词典发现,利用Word2vec模型来实现网络情感新词发现从而得到正负面词典,并分别获取程度级别词典、否定词词典和标点符号词典;第四步,分数计算,得到所有需要的词典之后按照抽取出的依存关系,将每个依存关系的主导词和修饰词分数相乘,再将句子中每个依存关系的分数求和,得到每个句子的分数,得到最后的分数Score。本专利技术与现有技术相比,其显著优点为:1)本专利技术利用Google的Word2Vec算法,对大量经过分词的网络语料进行无监督学习,可以将词语转化为高维词向量;2)通过计算词向量之间的距离,得到与现有情感词极性相同的网络情感新词,再加上经过筛选的“情感分析用词语集”,可形成一部较为完善的情感词典;3)该方法利用神经网络模型,速度快且效果好,为准确分析文本的倾向性打下良好基础。下面结合附图对本专利技术作进一步详细描述。附图说明图1是本专利技术的一种基于Word2Vec网络情感新词发现的文本倾向性分析方法流程图。图2是Skip-Gram模型示意图。图3是Word2Vec识别网络情感词结果图。图4是文本倾向性分析系统运行结果图。具体实施方式结合图1,本专利技术一种基于Word2Vec网络情感新词发现的文本倾向性分析方法,包括以下步骤:第一步,对语料进行预处理,将不同的语料预先进行断句、格式处理、分词和词性标注,根据不同的语料布局,分别设置相应的文本读取方式;(1)由于从不同地方获取的语料有其不同的格式和存储方式,有些语料是将所有语料分开储存,每一个语料都存在一个txt文档中,而有些语料是将所有句子全部放置在同一个文档中,利用“<Texti>”“</Texti>”将语料分开。因此,本方法根据不同的语料布局,分别设置了相应的文本读取方式。(2)使用中科院计算技术研究所研制的汉语词法分析系统(InstituteofComputingTechnology,ChineseLexicalAnalysisSystem,ICTCLAS),实现语料的中文分词及词性标注。例如,“诺基亚lumia新款win8系统,用起来很流畅哦,很好用”这句话的分词结果(带词性标注)是:诺基亚/nzlumia/x新款/nwin8/x系统/n,/w用/v起来/v很/d流畅/a哦/o,/w很/d好/a用/v。第二步,确定句子中字词间的依存关系,使用斯坦福大学的句法分析系统进行句法分析;为了找到句子中反应情感的词对,在查找了所有句法分词依存关系后,提取了以下四种典型的依存关系,相应的解释如下:(1)advmod副词性修饰语:副词性修饰语用于改变该副词的强度。例如,“战争原本相当残酷,将战争美化到如同娱乐活动一般,让人反感”的提取结果是advmod(残酷-4,相当-3),表示“相当”作为副词修饰了“残酷”这个形容词。(2)amod形容词修饰语:一个名词词组的形容词修饰语。例如“近来风靡荧屏的抗日题材电视剧,越来越类型化。”的提取结果是:amod(电视剧-7,抗日-5),表示名词性形容词“抗日”修饰了“电视剧”。(3)nsubj名词性主语:用于修饰名词性主语。例如“不一样的抗日神剧,好看!”的提取结果是nsubj(好看-8,剧-6),表示“好看”修饰了名词性主语“剧”。(4)neg否定修饰词:用于否定词及其被否定的词之间。例如“有人说剧情俗套抗日神剧神马的,我倒觉得不错,因为不该死的一个没死,看着不郁闷。”的提取结果是neg(郁闷-28,不-27),表示“不”对“郁闷”进行了否定,将句子的意思反转了。第三步,词典发现,利用Word2vec模型来实现网络情感新词发现从而得到正负面词典,并分别获取程度级别词典、否定词词典和标点符号词典;(1)根据《知网》的“《知网》情感分析用词语集”这一基本的词汇来源,将其中的《正面评价词语(中文)》与《正面情感词语(中文)》合并得到正面词词典;同样,《负面评价词语(中文)》加上《负面情感词语(中文)》得到负面词词典;同时,利用Word2Vec模型来实现网络情感新词的发现;①将语料库中的文本进行分词处理;②将分词处理后得到的词语输入Word2Vec算法,Word2Vec中的神经网络模型可以将词语转化为词向量;利用如图2所示的Skip-Gram模型,该模型的目的是通过该模型训练后,预测概率P(wi|wj),本文档来自技高网
...
一种基于Word2Vec网络情感新词发现的文本倾向性分析方法

【技术保护点】
一种基于Word2Vec网络情感新词发现的文本倾向性分析方法,其特征在于,包括以下步骤:步骤1、文本预处理,将不同的语料预先进行断句、格式处理、分词和词性标注,根据不同的语料布局,分别设置相应的文本读取方式;步骤2、确定句子中字词间的依存关系,使用斯坦福大学的句法分析系统进行句法分析;步骤3、词典发现,利用Word2vec模型来实现网络情感新词发现从而得到正负面词典,并分别获取程度级别词典、否定词词典和标点符号词典;步骤4、分数计算,得到所有需要的词典之后按照抽取出的依存关系,将每个依存关系的主导词和修饰词分数相乘,再将句子中每个依存关系的分数求和,得到每个句子的分数,得到最后的分数。

【技术特征摘要】
1.一种基于Word2Vec网络情感新词发现的文本倾向性分析方法,其特征在于,包括以下步骤:步骤1、文本预处理,将不同的语料预先进行断句、格式处理、分词和词性标注,根据不同的语料布局,分别设置相应的文本读取方式;步骤2、确定句子中字词间的依存关系,使用斯坦福大学的句法分析系统进行句法分析;步骤3、词典发现,利用Word2vec模型来实现网络情感新词发现从而得到正负面词典,并分别获取程度级别词典、否定词词典和标点符号词典;步骤4、分数计算,得到所有需要的词典之后按照抽取出的依存关系,将每个依存关系的主导词和修饰词分数相乘,再将句子中每个依存关系的分数求和,得到每个句子的分数,得到最后的分数。2.根据权利要求1所述的基于Word2Vec网络情感新词发现的文本倾向性分析方法,其特征在于,步骤1中文本预处理步骤如下:步骤1-1、由于从不同地方获取的语料有其不同的格式和存储方式,有些语料是将所有语料分开储存,每一个语料都存在一个txt文档中,而有些语料是将所有句子全部放置在同一个文档中,利用“<Texti>”“</Texti>”将语料分开;本方法根据不同的语料布局,分别设置了相应的文本读取方式;步骤1-2、使用中科院计算技术研究所研制的汉语词法分析系统,实现语料的中文分词及词性标注。3.根据权利要求1所述的基于Word2Vec网络情感新词发现的文本倾向性分析方法,其特征在于,步骤3中词典发现的步骤如下:步骤3-1、根据《知网》的“《知网》情感分析用词语集”这一基本的词汇来源,将其中的《正面评价词语(中文)》与《正面情感词语(中文)》合并得到正面词词典;同样,《负面评价词语(中文)》加上《负面情感词语(中文)》得到负面词词典;同时,利用Word2Vec模型来实现网络情感新词发现;步骤3-2、修饰词是必须要提取出来的要素,利用《知网》的《程度级别词语(中文)》来计算句子中修饰词的程度级别,获取程度级别词典;步骤3-3、获取否定词词典时,由于neg()模式下无法提取否定的程度级别,因此本方法给neg形式都加上两倍的权重,以抵消正面倾向;步骤3-4、获取标点符号词典时,将一些常用的标点符号提取出来,构成标...

【专利技术属性】
技术研发人员:陈芬彭玥汤丽萍许青青
申请(专利权)人:南京理工大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1