The invention discloses a classification method Chinese micro-blog text emotion based on convolutional neural network and a system thereof, the method includes: acquiring micro-blog micro-blog data; data preprocessing; data preprocessing of micro-blog after the use of Word2vec model for real value to the word representation; combination of different sizes of the filter corresponding to the size on the propagation characteristics of two-dimensional map generation, feature maps; accumulation of pool; using Softmax regression model for sentiment classification of feature map of the pool. The invention has the following advantages: the algorithm of convolutional neural network for feature extraction and dimensionality reduction using supervised method to adjust the model to relation between word and word, sentence and sentence to realize unsupervised opinion mining using the above algorithm, according to the classification results, the main event of behavior and physical objects form emotion classification the system of sentiment classification for micro-blog text, improve the classification efficiency and accuracy.
【技术实现步骤摘要】
基于卷积神经网络的中文微博文本情绪分类方法及其系统
本专利技术涉及计算机应用机器学习领域,具体涉及一种基于卷积神经网络的中文微博文本情绪分类方法及其系统。
技术介绍
微博信息,尤其是某些热门话题的评论信息,对业界和科研人员来说都是极其宝贵的参考材料,在观点挖掘、未来预测等方面都有着极大的参考价值。观点挖掘,也称为情绪分析,是对于人们关于某一实体的特征、组件、属性等所产生的观点、态度和情绪进行挖掘和分析的一种技术,是自然语言处理学科中重要的一个领域,得到了学术界和业界的重视。结合产品评论,观点挖掘能十分有效地反应用户的对于某具体事物的具体观点,具有实时性、话题敏感性和多变性的特点。自然语言处理的重要组成部分,也是机器学习中的一个重要研究领域。同时,由于微博数据的多变性和数据规模的庞大,基于在线数据的观点挖掘一直是研究的热点和难点。特征抽取是观点挖掘中的重要环节,提取结果的好坏将直接影响观点挖掘的结果好坏。大多数模型往往对产品评论利用监督学习或半监督学习来进行特征提取,这需要大量的人力。
技术实现思路
本专利技术旨在至少解决上述技术问题之一。为此,本专利技术的一个目的在于 ...
【技术保护点】
一种基于卷积神经网络的中文微博文本情绪分类方法,其特征在于,包括以下步骤:S1:获取微博数据;S2:对所述微博数据进行预处理,以去除所述微博数据中的无关噪声和重复数据;S3:对预处理后的微博数据使用Word2vec模型将词表征为实数值向;S4:将不同大小的词的组合通过对应大小的滤波器上,通过前向传播,生成二维的特征图;S5:将所述特征图堆积后进行池化,以实现特征降维;S6:使用Softmax回归模型对池化后的特征图进行情绪分类。
【技术特征摘要】
1.一种基于卷积神经网络的中文微博文本情绪分类方法,其特征在于,包括以下步骤:S1:获取微博数据;S2:对所述微博数据进行预处理,以去除所述微博数据中的无关噪声和重复数据;S3:对预处理后的微博数据使用Word2vec模型将词表征为实数值向;S4:将不同大小的词的组合通过对应大小的滤波器上,通过前向传播,生成二维的特征图;S5:将所述特征图堆积后进行池化,以实现特征降维;S6:使用Softmax回归模型对池化后的特征图进行情绪分类。2.根据权利要求1所述的基于卷积神经网络的中文微博文本情绪分类方法,其特征在于,所述预处理包括:删除网页链接、位置信息和重复的子句;将网络流行语及网络缩写在遍历用语词典获取对应的文字信息,在遍历用语词典后找不着对应含义的网络流行语及网络缩写进行人工标注;将表情符号用对应的文字代替。3.根据权利要求1所述的基于卷积神经网络的中文微博文本情绪分类方法,其特征在于,在步骤S4中,通过以下公式生成所述特征图:mi=W*xi,i+h-1+b,b∈RMi=[m1,m2,...,mi-h+1]Ni=ReLU(Mi)=max(0,Mi)其中,x为输入到卷积层的语句的向量表示,b是偏置项,mi为一个滤波器输出函数,Mi为原始特征,滤波器W∈Rhk,R表示向量空间,h表示窗口大小,k表示维度为k维,Relu为非线性函数。4.根据权利要求1所述的基于卷积神经网络的中文微博文本情绪分类方法,其特征在于,在步骤S5中,使用1-max策略进行所述池化。5.根据权利要求1所述的基于卷积神经网络的中文微博文本情绪分类方法,其特征在于,在步骤S6中,使用基于OCC模型的ECOCC模型进行所述情绪分类。6.一种基于卷积神经网络的中文微...
【专利技术属性】
技术研发人员:徐华,贾霏,孙晓民,邓俊辉,
申请(专利权)人:清华大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。