基于全局平均池化卷积神经网络的中文情感倾向性分类方法技术

技术编号:19098687 阅读:38 留言:0更新日期:2018-10-03 02:42
本发明专利技术提供了一种基于全局平均池化卷积神经网络的中文情感倾向性分类方法,是利用计算机对从网络采集的中文文本进行分析的技术。本方法构建了一个基于全局平均池化卷积神经网络的中文情感倾向性分类模型,该模型利用三层通道变换卷积层提取语义情感特征,然后全局平均池化层对卷积层提取的特征进行池化计算,得到对应到各个输出类别的置信值,然后由Softmax输出情感分类标签。本方法设置模型参数进行多次训练,选取分类准确率最高的模型用于中文情感倾向性分类。本发明专利技术避免了传统情感分析中繁琐的特征工程,加强了模型提取语义情感特征的能力,有效避免了模型过拟合,提升了模型情感倾向性分类的性能。

【技术实现步骤摘要】
基于全局平均池化卷积神经网络的中文情感倾向性分类方法
本专利技术属于自然语言处理
,涉及利用计算机对从网络采集的中文文本进行分析的技术,具体涉及一种面向中文文本情感倾向性的分类模型,以及模型的训练和应用该模型进行的文本情感倾向性分类的方法。
技术介绍
随着互联网的发展,越来越多的人倾向于通过网络的方式发表意见、表达情绪,阐述观点。社交、电商及自媒体等多种新型网络平台的蓬勃发展导致互联网信息呈现几何数量级增长。对电商商家而言,用户评论反馈是提升他们自身产品和服务质量的有效手段;对政府部门而言,及时了解群众意向和社会舆情,采取适当决策。对文本进行情感倾向性分析是从海量文本中挖掘有用信息,发现有价值情报的重要手段,具有重大意义。如何高效、准确地对中文文本进行情感倾向性分析是一大难点。现有针对中文的情感倾向性分析主要有基于情感词典的和基于机器学习的方法。基于情感词典的方法通过构建不同情感极性的词典,然后对文本进行词汇匹配,得到其包含不同极性词的个数并计算情感分值。然而,情感词典是独立的,缺少和上下文的联系。比如“小”在“酒店房间太小”中是负面情感,而在“汽车启动噪声小”中则是正面情感。本文档来自技高网...

【技术保护点】
1.一种基于全局平均池化卷积神经网络的中文情感倾向性分类方法,其特征在于,包括如下步骤:步骤1,对收集的中文语料进行情感倾向性标注;步骤2,对中文语料向量化,包括:对中文语料进行分词,统一分词后的句子长度,通过词嵌入的方式将每个词替换为其词向量,得到预处理后的句子向量;步骤3,构建基于全局平均池化卷积神经网络的中文情感倾向性分类模型,该模型利用三层通道变换卷积层提取语义情感特征,然后用全局平均池化层对卷积层提取的特征进行池化计算,得到对应到各个输出情感类别的置信值,然后由Softmax输出情感分类标签;步骤4,进行模型训练,包括:将预处理后的语料进行随机打乱,并划分训练集和测试集,设置模型参数...

【技术特征摘要】
1.一种基于全局平均池化卷积神经网络的中文情感倾向性分类方法,其特征在于,包括如下步骤:步骤1,对收集的中文语料进行情感倾向性标注;步骤2,对中文语料向量化,包括:对中文语料进行分词,统一分词后的句子长度,通过词嵌入的方式将每个词替换为其词向量,得到预处理后的句子向量;步骤3,构建基于全局平均池化卷积神经网络的中文情感倾向性分类模型,该模型利用三层通道变换卷积层提取语义情感特征,然后用全局平均池化层对卷积层提取的特征进行池化计算,得到对应到各个输出情感类别的置信值,然后由Softmax输出情感分类标签;步骤4,进行模型训练,包括:将预处理后的语料进行随机打乱,并划分训练集和测试集,设置模型参数进行训练,测试每次训练的模型的分类准确率;步骤5,使用步骤4得到的分类准确率最高的模型,来进行中文情感倾向性分类。2.根据权利要求1所述的中文情感倾向性分类方法,其特征在于,所述的步骤2具体实现包括如下步骤:首先,对输入的中文句子进行分词,并去除停用词和标点符号;其次,统一句子长度为n,对长度不足n的句子进行补零;对长度超过n的句子进行截断操作;n为正整数,n代表句子中词的个数;然后,通过Skip-gram模型训练得到词向量,未登录词的词向量随机初始化;将句子中的词按序进行连接操作,得到句子的矩阵表示;设词向量维度为k,得到句子的矩阵形状shape=(h=n,w=k,d=1);其中,高度h等于词个数,宽度w等于词向量维度,通道数d=1。3.根据权利要求1所述的中文情感分类方法,其特征在于,步骤3所述的中文情感倾向性分类模型中,利用三层通道变换卷积层提取语义情感特征,具体是:第一卷积层输入的矩阵形状shape=(h=n,w=k,d=1);其中,高度h等于词个数n,宽度w等于词向量维度k,d为通道数;在第一卷积层选择三种不同高度的卷积核{hc11×k,hc12×k,hc13×k},学习不同N-gram的信息,hc1i(i=1,2,3)为正整数;设每种高度卷积核各提取n1个特征图,高度为hc1i(i=1,2,3)的卷积核卷积结果的形状shape=(n-hc1i+1,1,n1),将卷积结果形状变换,把通道信息作为宽度补偿,变换后的矩阵形...

【专利技术属性】
技术研发人员:曹若菡陈浩平陆月明韩道歧
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1