一种基于深度融合神经网络的中文社交文本情绪识别模型构造方法技术

技术编号：20272693 阅读：54 留言：0更新日期：2019-02-02 03:43

本发明专利技术公开了一种基于深度融合神经网络的中文社交文本情绪识别模型构造方法，包括如下步骤：数据采集，利用Python Scrapy框架构建社交文本网络爬虫，采集图文数据；数据预处理，对数据采集模块采集的中文文本进行预处理；数据标注，用于对处理后的文本进行情绪标注；文本向量化，运用Word2Vec工具训练词向量；模型构建，设计融合BILSTM‑CNN网络模型；模型训练,将标注后的文本通过BILSTM‑CNN融合神经网络模型进行训练。本发明专利技术构建一种深度融合情绪分析模型，旨在充分利用深度神经网络模型的特征抽取能力，对中文情绪文本进行特征表达，并以此构造情绪多分类模型，提高自动化情绪多分类的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度融合神经网络的中文社交文本情绪识别模型构造方法
本专利技术涉及自然语言处理
，具体涉及一种基于深度融合神经网络的中文社交文本情绪识别模型构造方法。
技术介绍
情绪分析属于情感分析类问题。情感分析(SA)又称为倾向性分析和意见挖掘,它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。情感分析可应用于电子商务，品牌声誉管理、舆情分析等众多领域。随着微博等社交媒体的普及，用户讨论自己使用的产品和服务，或表达自己的政治和宗教观点，微博网站已经成为人们评论与情感信息的宝贵来源。现在对此类数据做情感分析已经受到研究者的广泛关注。目前为止，大部分微博情感分析研究都只关注于如何对英文文本信息进行分析，并且以情感极性分析为主。现有技术中缺少更加细化的分析中文文本情绪特征，分析卷积神经网络与长短时记忆网络的特点，因此，目前亟待研究如何采用深度学习融合模型，实现较好的中文情绪分类效果。
技术实现思路
本专利技术的目的是为了解决现有技术中的上述缺陷，提供一种基于深度融合神经网络的中文社交文本情绪识别模型构造方法。本方法的特点是融合了双向长短时记忆网络与卷积神经网络的特点，使用双向长短时记忆网络完成文本的全局特征表示，再利用卷积神经网络的局部特征抽取表征文本的情绪特征，此方法在情绪分类数据集上取得了较高的准确率。本专利技术的目的可以通过采取如下技术方案达到：一种基于深度融合神经网络的中文社交文本情绪识别模型构造方法，所述的构造方法包括：数据采集步骤，用于从社交网络数据源采集中文文本数据；文本预处理步骤，处理采集到的原始文本数据；文本情绪标注步骤，对预处理后...

【技术保护点】
1.一种基于深度融合神经网络的中文社交文本情绪识别模型构造方法，其特征在于，所述的构造方法包括：数据采集步骤，用于从社交网络数据源采集中文文本数据；文本预处理步骤，处理采集到的原始文本数据；文本情绪标注步骤，对预处理后的数据进行情绪多分类标记；文本向量化步骤，通过分布式词向量表示方法Word2Vec进行中文词向量的训练；模型构建步骤，初始化模型结构，构建基于神经网络融合模型的多分类结构；模型训练步骤，训练用于多分类情绪分析的CNN‑BILSTM融合网络模型，得到最终的情绪分类模型。

【技术特征摘要】
1.一种基于深度融合神经网络的中文社交文本情绪识别模型构造方法，其特征在于，所述的构造方法包括：数据采集步骤，用于从社交网络数据源采集中文文本数据；文本预处理步骤，处理采集到的原始文本数据；文本情绪标注步骤，对预处理后的数据进行情绪多分类标记；文本向量化步骤，通过分布式词向量表示方法Word2Vec进行中文词向量的训练；模型构建步骤，初始化模型结构，构建基于神经网络融合模型的多分类结构；模型训练步骤，训练用于多分类情绪分析的CNN-BILSTM融合网络模型，得到最终的情绪分类模型。2.根据权利要求1所述的一种基于深度融合神经网络的中文社交文本情绪识别模型构造方法，其特征在于，所述的数据采集步骤中，采用面向多主题的爬虫抓取网络情绪文本，并对其中的中文文本进行存储。3.根据权利要求1所述的一种基于深度融合神经网络的中文社交文本情绪识别模型构造方法，其特征在于，所述的文本预处理步骤过程如下：去除文本中的英文数据；去除文本中emoji和超链接，将文本中emoji替换为其简单的中文文本，将文本中超链接替换为中文“链接”；根据中文停用词典去除文本停用词。4.根据权利要求1所述的一种基于深度融合神经网络的中文社交文本情绪识别模型构造方法，其特征在于，所述的文本情绪标注步骤中，采用部分人工标注的数据和部分公开的数据，在人工标注过程中，将情绪分为喜好、恐惧、愤怒、厌恶、悲伤、高兴、惊讶七个情绪类别，各类数据各取2500条，最后将训练集和测试集分别取80％和20％的数据，所采用的函数为train_test_split，参数test_size为0.2。5.根据权利要求1所述的一种基于深度融合神经网络的中文社交文本情绪识别模型构造方法，其特征在于，所述的文本向量化步骤中，利用分布式词向量表示方法Word2Vec构建词向量模型，将输出词向量维度设置为350，其训练数据由中文维基语料与采集到的情绪语料一同作为训练样本。6.根据权利要求1所述的一种基于深度融合神经网络的中...

【专利技术属性】
技术研发人员：梅登华，戴立武，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人