基于新型情感词典的网络平台短文本混合情感分类方法技术

技术编号:27685550 阅读:31 留言:0更新日期:2021-03-17 03:52
本发明专利技术提供了一种基于新型情感词典的网络平台短文本混合情感分类方法,该方法将已经标记好情感的样本中的文本进行分词处理;统计每个词在某个情感的所有样本中的词频;并利用每个词的词频计算出每个词所对应的情感权重;将每个词的情感权重记录下来,得到一个新型的情感词典;利用新型情感词典对待分类的样本进行情感权重计算,得到一个包含了每种情感的情感权重的情感向量;将该情感向量输入到深度学习模型中,作为深度学习模型输入层的特征表示;最终得到混合情感分类结果。该方法将网络平台的短文本中的情感浓缩到了一个简短的情感向量之中,从而提升了利用深度学习实现混合情感分类的训练速度以及减少了模型在训练时的内存占用量。

【技术实现步骤摘要】
基于新型情感词典的网络平台短文本混合情感分类方法
本专利技术涉及一种基于新型情感词典的网络平台短文本混合情感分类方法,属于人工智能领域。
技术介绍
网络平台的短文本主要有:新闻软件下的评论、论坛评论、博客评论和聊天室内容等等。这些网络平台产生了大量的文本,各种形式的网络文本已经成为人类接受信息的渠道和情感交流的手段。情感是人类的一种重要的组成成分,可以影响人类的行为、思维、决策以及社交,而情感计算是让计算机拥有识别、理解和表达人的情感的能力的任务。情感计算分为识别、表达和决策三个部分,识别是指怎么让计算机准确地识别人类的情感,消除自然语言的不确定性和歧义性,而识别的载体一般可以分为文字、语音、表情和姿态等等;表达是指怎么让抽象的情感用人类能够直观看懂的信息载体表达出来;决策是指如何利用情感机制来进行更好的决策。情感计算可以计算出带情感对象的情感倾向,得到了带情感对象的情感倾向以后,可以针对其情感倾向进一步对情感对象的行为或者状态进行预测,比如利用其情感倾向对其进行个性化推荐或者预测出情感对象的注意力。情感分类是情感计算中的识别,其主要任务是针对词或句或文档中表达的情感进行识别和分类,得到词或句或文档的情感极性,从而识别出文档或句中的情感。目前主要的情感分类方法主要分为以下三类:第一类是基于情感词典的情感分类方法。基于情感词典的方法主要是将文本进行分词,找出不同的词性的词并计算其相应的得分。这种方法十分依赖情感词典,而且人工构建情感词典十分繁琐,比如改进的WordNet词典;第二类是基于人工提取特征的机器学习方法。基于人工提取特征的机器学习方法需要大量事先标记好的数据,并且需要人找出相应的特征,然后使用支持向量机、朴素贝叶斯等等机器学习方法进行情感分类,比如改进的KNN模型;第三类是基于深度学习的情感分类方法。基于深度学习的情感分析方法也需要大量事先标记好的数据,但是不需要人找出相应的特征,深度学习模型会自动提取数据中的特征,比较常用的模型有循环神经网络、卷积神经网络等。但是上述的方法都普遍存在着以下问题:1.大部分的研究都只针对二元(即积极、消极)或者三元情感的进行分类,但是文档中往往不止包含一种情感,同一个文档中可能同时包含了多种情感。2.基于机器学习的方法需要人工提取特征,并且最终模型的效果往往取决于人工提取特征的好坏,无法实现自动化操作,而且难以获取。3.基于深度学习的方法需要将文档进行特征表示,但是由于文本长度过长,会导致特征表示的维度巨大,从而导致训练时间缓慢,占用内存大的问题。有鉴于此,确有必要提出一种基于新型情感词典的网络平台短文本混合情感分类方法,以解决上述问题。
技术实现思路
本专利技术的目的在于提供一种基于新型情感词典的网络平台短文本混合情感分类方法,通过构建一个新型的情感词典,利用该情感词典和深度学习方法结合,减少深度学习方法训练的时间和内存空间的消耗量,提取网络平台短文本中的情感信息,完成混合情感分类任务。为实现上述目的,本专利技术提供一种基于新型情感词典的网络平台短文本混合情感分类方法,包括如下步骤:步骤1,将搜集到的历史网络平台短文本进行人工情感标记,作为训练集使用;步骤2,将训练集中每个样本进行分词处理,然后计算每个词在每种情感下的词频,并利用每种情感下该词的词频计算出该词的情感权重,将每个词以及它的情感权重以键值对的形式存储到词典中,构成一个情感词典;步骤3,将每个样本的所有分词的某种情感下的情感权重累加,得到该样本某种情感的情感权重之和,将该样本的每种情感的情感权重之和组合形成训练集的情感向量;步骤4,将训练集的情感向量作为输入层的特征表示,用于DNN混合情感分类模型的训练,得到训练好的用于混合情感分类的DNN模型;步骤5,将新的网络平台短文本进行分词处理,将分词后的每个词都在情感词典里搜索,得到每个词对应的情感权重,将每种情感下的所有词的情感权重分别求和,以得到新的网络平台短文本在每种情感下的情感权重之和,并将其组合形成情感向量;步骤6,将新的网络平台短文本所形成的情感向量输入训练好的DNN模型中,得到包含每种情感的概率值的向量,将最大的两个概率值与设置好的阈值进行判断,若最大的两个概率值大于等于所述阀值,则说明新的网络平台短文本包含对应的情感,否则不包含对应的情感。作为本专利技术的进一步改进,所述步骤2具体包括:步骤21,将训练集的不同情感标签的样本归类,得到n类情感标签下的样本集合,每个集合为Si(1≤i≤n);设置i=1,设置all_words集合用于记录所有出现的词,设置all_words集合为空,并设训练集总样本数为N;步骤22,设置wordsi集合为空,设第i类情感标签训练集的第k个样本为设置k=1,设counti为第i类情感标签训练集的计数器,设置counti=1;步骤23,将的文本部分进行分词,并将分词后的结果存入wordsi集合中,并将其存入all_words集合中;步骤24,令k=k+1,counti=counti+1,重复步骤23,直到k=第i类情感标签训练集样本总数;步骤25,令i=i+1,重复步骤22~24,直到i=n;步骤26,从all_words集合中取出词w(不放回),统计词w在wordsi(1≤i≤n)的出现次数称之为词频,nw为不为0的的个数;步骤27,计算词w在第i类情感标签下的情感权重和词w在第n类情感下的情感权重;步骤28,若all_words集合不为空,则转向步骤26;步骤29,将词w在第i类情感下的情感权重以w:键值对的形式存入词典weighti,最终得到n个词典,将n个词典归为一个情感词典,每个weighti称为情感词典的情感页。作为本专利技术的进一步改进,所述步骤27中的词w在第i类情感标签下的权重的计算公式为:作为本专利技术的进一步改进,所述步骤3具体包括:步骤31,设第i类情感标签训练集的第k个样本为设置k=1;步骤32,将的文本部分进行分词,将分词后的每个词w作为用于查询步骤2中获得的情感词典的每个情感页weighti的键,获得键w对应的值然后再计算出的第i类情感的情感分数并将所有情感种类的情感分数组合形成训练集的情感向量作为本专利技术的进一步改进,所述步骤32中的情感分数的计算公式为:作为本专利技术的进一步改进,所述步骤5具体包括:步骤51,将新的网络平台短文本定义为测试集样本,该测试集样本中的第r个样本为testr,将testr文本进行分词处理,得到样本testr分词后的词集合;步骤52,将词集合里的每个词作为键查询步骤2中所获得的情感词典中每个词对应的情感权重,再利用公式:获得测试样本testr中第i类的情感分数然后再将每种情感的情感分数组合形成情感向量作为本专利技术的进一步改进,所述步骤6具体包括:步骤61,将步骤5中所得的Vr输入已经训练好的DNN模型中,得到包含每种情感概率值的向量Vp=本文档来自技高网
...

【技术保护点】
1.一种基于新型情感词典的网络平台短文本混合情感分类方法,其特征在于,包括如下步骤:/n步骤1,将搜集到的历史网络平台短文本进行人工情感标记,作为训练集使用;/n步骤2,将训练集中每个样本进行分词处理,然后计算每个词在每种情感下的词频,并利用每种情感下该词的词频计算出该词的情感权重,将每个词以及它的情感权重以键值对的形式存储到词典中,构成一个情感词典;/n步骤3,将每个样本的所有分词的某种情感下的情感权重累加,得到该样本某种情感的情感权重之和,将该样本的每种情感的情感权重之和组合形成训练集的情感向量;/n步骤4,将训练集的情感向量作为输入层的特征表示,用于DNN混合情感分类模型的训练,得到训练好的用于混合情感分类的DNN模型;/n步骤5,将新的网络平台短文本进行分词处理,将分词后的每个词都在情感词典里搜索,得到每个词对应的情感权重,将每种情感下的所有词的情感权重分别求和,以得到新的网络平台短文本在每种情感下的情感权重之和,并将其组合形成情感向量;/n步骤6,将新的网络平台短文本所形成的情感向量输入训练好的DNN模型中,得到包含每种情感的概率值的向量,将最大的两个概率值与设置好的阈值进行判断,若最大的两个概率值大于等于所述阀值,则说明新的网络平台短文本包含对应的情感,否则不包含对应的情感。/n...

【技术特征摘要】
1.一种基于新型情感词典的网络平台短文本混合情感分类方法,其特征在于,包括如下步骤:
步骤1,将搜集到的历史网络平台短文本进行人工情感标记,作为训练集使用;
步骤2,将训练集中每个样本进行分词处理,然后计算每个词在每种情感下的词频,并利用每种情感下该词的词频计算出该词的情感权重,将每个词以及它的情感权重以键值对的形式存储到词典中,构成一个情感词典;
步骤3,将每个样本的所有分词的某种情感下的情感权重累加,得到该样本某种情感的情感权重之和,将该样本的每种情感的情感权重之和组合形成训练集的情感向量;
步骤4,将训练集的情感向量作为输入层的特征表示,用于DNN混合情感分类模型的训练,得到训练好的用于混合情感分类的DNN模型;
步骤5,将新的网络平台短文本进行分词处理,将分词后的每个词都在情感词典里搜索,得到每个词对应的情感权重,将每种情感下的所有词的情感权重分别求和,以得到新的网络平台短文本在每种情感下的情感权重之和,并将其组合形成情感向量;
步骤6,将新的网络平台短文本所形成的情感向量输入训练好的DNN模型中,得到包含每种情感的概率值的向量,将最大的两个概率值与设置好的阈值进行判断,若最大的两个概率值大于等于所述阀值,则说明新的网络平台短文本包含对应的情感,否则不包含对应的情感。


2.根据权利要求1所述的基于新型情感词典的网络平台短文本混合情感分类方法,其特征在于,所述步骤2具体包括:
步骤21,将训练集的不同情感标签的样本归类,得到n类情感标签下的样本集合,每个集合为Si(1≤i≤n);设置i=1,设置all_words集合用于记录所有出现的词,设置all_words集合为空,并设训练集总样本数为N;
步骤22,设置wordsi集合为空,设第i类情感标签训练集的第k个样本为设置k=1,设counti为第i类情感标签训练集的计数器,设置counti=1;
步骤23,将的文本部分进行分词,并将分词后的结果存入wordsi集合中,并将其存入all_words集合中;
步骤24,令k=k+1,counti=counti+1,重复步骤23,直到k=第i类情感标签训练集样本总数;
步骤25,令i=i+1,重复步骤22~24,直到i=n;
步骤26,从all_words集合中取出词w(不放回),统计词w在wordsi(1≤i≤n)的出现次数fiw,fiw称之为词频,nw为不为0的fiw(1≤i≤n)的个数;
步骤27,计算词w在第i类情感标签下的情感权重和词w在第n类情感下的情感权重;
步骤28,若all_words集合不为空,则转...

【专利技术属性】
技术研发人员:徐小龙黄寄
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1