一种基于Word2Vec网络情感新词发现的文本倾向性分析方法技术

技术编号：16482936 阅读：27 留言：0更新日期：2017-10-31 15:32

本发明专利技术公开了一种基于Word2Vec网络情感新词发现的文本倾向性分析方法。该方法加入了基于Word2Vec的网络情感新词发现方法，它可以自动识别网络中口语化的情感词语，扩充关键的正负倾向情感词典，提升针对网络语料的分析准确性。首先对文本进行预处理，在分句的基础上进行句法分析，找出句子中的依存关系及主导词和修饰词，将主导词在正、负面词典中比对得到初始词语极性，再将修饰词与词语程度级别词典和否定词词典比对得到修饰词权重，把二者相乘得出依存关系层次的情感分数。然后提取句子中的表情符号和句子顺序所带有的权值，将其与句子中所有依存关系情感分数之和相乘，得出该条语句的情感倾向分数。该方法可以提升文本倾向性分析的准确性。

Text sentiment analysis method based on Word2Vec network sentiment new word discovery

The invention discloses a text tendentiousness analysis method based on the discovery of emotion neologisms in Word2Vec network. The method to detect network emotion words based on Word2Vec, it can be emotional words spoken in the network of automatic identification, positive and negative emotion dictionary key expansion tendency, aimed at improving the accuracy of the analysis of network data. Firstly, the text preprocessing, for syntactic parsing based on clauses in a sentence, the dependency relation and leading words and modifiers, will dominate the positive and negative words in the dictionary than the initial word polarity, then the modifier and word level dictionary and negative words dictionary than modified word weight the dependency relation is obtained by multiplying the levels of emotion scores. Then, the weights of the emoticons and sentence sequences are extracted and multiplied with the sum of the emotion scores of all the dependent relations in the sentence, and the scores of the emotion tendency are obtained. This method can improve the accuracy of text orientation analysis.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Word2Vec网络情感新词发现的文本倾向性分析方法
本专利技术属于自然语言处理领域，特别是一种基于Word2Vec网络情感新词发现的文本倾向性分析方法。
技术介绍
基于Word2Vec网络情感新词发现的文本倾向性分析主要是利用Word2Vec模型来实现网络情感新词发现，构造较为完备的正负面词典，提高文本倾向性分析的准确性。随着WEB2.0技术的发展，网络资源与日俱增，越来越多的用户通过博客、评论网站、论坛等发表自己对社会事件、国家政策等的看法，但仅仅通过人工浏览来获取大众态度是一件非常繁琐和困难的事情，因此基于文本倾向性分析的意见挖掘技术应运而生。基于文本倾向性分析的意见挖掘相对于主题挖掘，需要对文本进行一定的智能化理解——倾向性分析，在此基础上提取作者的意见、情感和态度等信息。文本倾向性是用于判断文本信息中包含的情感倾向的一种技术，它可以将文本的情感区别为正面、负面或中立三种极性。例如句子：“我非常高兴见到你。”通过文本倾向性识别技术，可以判断这是一个带有正面倾向的文本。黄萱菁等(2008)将倾向性识别技术分为四个等级：词语倾向性分析、句子倾向性分析、篇章倾向性分析和海量数据的整体倾向性预测[黄萱菁,赵军.中文文本情感倾向性分析。文本倾向性分析一般有两种主流的分析方法：基于机器学习的方法和基于语义的分析方法。邸鹏等(2014)针对转折句式，提出了将词典融入朴素贝叶斯方法中的新的文本倾向性分析方法[邸鹏,李爱萍,段利国.基于转折句式的文本情感倾向性分析[J].计算机工程与技术,2014,35(12):4289-4295.]。韩中元等(2014)将...
一种基于Word2Vec网络情感新词发现的文本倾向性分析方法

【技术保护点】
一种基于Word2Vec网络情感新词发现的文本倾向性分析方法，其特征在于，包括以下步骤：步骤1、文本预处理，将不同的语料预先进行断句、格式处理、分词和词性标注，根据不同的语料布局，分别设置相应的文本读取方式；步骤2、确定句子中字词间的依存关系，使用斯坦福大学的句法分析系统进行句法分析；步骤3、词典发现，利用Word2vec模型来实现网络情感新词发现从而得到正负面词典，并分别获取程度级别词典、否定词词典和标点符号词典；步骤4、分数计算，得到所有需要的词典之后按照抽取出的依存关系，将每个依存关系的主导词和修饰词分数相乘，再将句子中每个依存关系的分数求和，得到每个句子的分数，得到最后的分数。

【技术特征摘要】
1.一种基于Word2Vec网络情感新词发现的文本倾向性分析方法，其特征在于，包括以下步骤：步骤1、文本预处理，将不同的语料预先进行断句、格式处理、分词和词性标注，根据不同的语料布局，分别设置相应的文本读取方式；步骤2、确定句子中字词间的依存关系，使用斯坦福大学的句法分析系统进行句法分析；步骤3、词典发现，利用Word2vec模型来实现网络情感新词发现从而得到正负面词典，并分别获取程度级别词典、否定词词典和标点符号词典；步骤4、分数计算，得到所有需要的词典之后按照抽取出的依存关系，将每个依存关系的主导词和修饰词分数相乘，再将句子中每个依存关系的分数求和，得到每个句子的分数，得到最后的分数。2.根据权利要求1所述的基于Word2Vec网络情感新词发现的文本倾向性分析方法，其特征在于，步骤1中文本预处理步骤如下：步骤1-1、由于从不同地方获取的语料有其不同的格式和存储方式，有些语料是将所有语料分开储存，每一个语料都存在一个txt文档中，而有些语料是将所有句子全部放置在同一个文档中，利用“<Texti>”“</Texti>”将语料分开；本方法根据不同的语料布局，分别设置了相应的文本读取方式；步骤1-2、使用中科院计算技术研究所研制的汉语词法分析系统，实现语料的中文分词及词性标注。3.根据权利要求1所述的基于Word2Vec网络情感新词发现的文本倾向性分析方法，其特征在于，步骤3中词典发现的步骤如下：步骤3-1、根据《知网》的“《知网》情感分析用词语集”这一基本的词汇来源，将其中的《正面评价词语(中文)》与《正面情感词语(中文)》合并得到正面词词典；同样，《负面评价词语(中文)》加上《负面情感词语(中文)》得到负面词词典；同时，利用Word2Vec模型来实现网络情感新词发现；步骤3-2、修饰词是必须要提取出来的要素，利用《知网》的《程度级别词语(中文)》来计算句子中修饰词的程度级别，获取程度级别词典；步骤3-3、获取否定词词典时，由于neg()模式下无法提取否定的程度级别，因此本方法给neg形式都加上两倍的权重，以抵消正面倾向；步骤3-4、获取标点符号词典时，将一些常用的标点符号提取出来，构成标...

【专利技术属性】
技术研发人员：陈芬，彭玥，汤丽萍，许青青，
申请(专利权)人：南京理工大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人