【技术实现步骤摘要】
基于新型情感词典的网络平台短文本混合情感分类方法
本专利技术涉及一种基于新型情感词典的网络平台短文本混合情感分类方法,属于人工智能领域。
技术介绍
网络平台的短文本主要有:新闻软件下的评论、论坛评论、博客评论和聊天室内容等等。这些网络平台产生了大量的文本,各种形式的网络文本已经成为人类接受信息的渠道和情感交流的手段。情感是人类的一种重要的组成成分,可以影响人类的行为、思维、决策以及社交,而情感计算是让计算机拥有识别、理解和表达人的情感的能力的任务。情感计算分为识别、表达和决策三个部分,识别是指怎么让计算机准确地识别人类的情感,消除自然语言的不确定性和歧义性,而识别的载体一般可以分为文字、语音、表情和姿态等等;表达是指怎么让抽象的情感用人类能够直观看懂的信息载体表达出来;决策是指如何利用情感机制来进行更好的决策。情感计算可以计算出带情感对象的情感倾向,得到了带情感对象的情感倾向以后,可以针对其情感倾向进一步对情感对象的行为或者状态进行预测,比如利用其情感倾向对其进行个性化推荐或者预测出情感对象的注意力。情感分类是情感计算中的识别,其主要任务是针对词或句或文档中表达的情感进行识别和分类,得到词或句或文档的情感极性,从而识别出文档或句中的情感。目前主要的情感分类方法主要分为以下三类:第一类是基于情感词典的情感分类方法。基于情感词典的方法主要是将文本进行分词,找出不同的词性的词并计算其相应的得分。这种方法十分依赖情感词典,而且人工构建情感词典十分繁琐,比如改进的WordNet词典;第二类是基于人工提取特征的机 ...
【技术保护点】
1.一种基于新型情感词典的网络平台短文本混合情感分类方法,其特征在于,包括如下步骤:/n步骤1,将搜集到的历史网络平台短文本进行人工情感标记,作为训练集使用;/n步骤2,将训练集中每个样本进行分词处理,然后计算每个词在每种情感下的词频,并利用每种情感下该词的词频计算出该词的情感权重,将每个词以及它的情感权重以键值对的形式存储到词典中,构成一个情感词典;/n步骤3,将每个样本的所有分词的某种情感下的情感权重累加,得到该样本某种情感的情感权重之和,将该样本的每种情感的情感权重之和组合形成训练集的情感向量;/n步骤4,将训练集的情感向量作为输入层的特征表示,用于DNN混合情感分类模型的训练,得到训练好的用于混合情感分类的DNN模型;/n步骤5,将新的网络平台短文本进行分词处理,将分词后的每个词都在情感词典里搜索,得到每个词对应的情感权重,将每种情感下的所有词的情感权重分别求和,以得到新的网络平台短文本在每种情感下的情感权重之和,并将其组合形成情感向量;/n步骤6,将新的网络平台短文本所形成的情感向量输入训练好的DNN模型中,得到包含每种情感的概率值的向量,将最大的两个概率值与设置好的阈值进行 ...
【技术特征摘要】
1.一种基于新型情感词典的网络平台短文本混合情感分类方法,其特征在于,包括如下步骤:
步骤1,将搜集到的历史网络平台短文本进行人工情感标记,作为训练集使用;
步骤2,将训练集中每个样本进行分词处理,然后计算每个词在每种情感下的词频,并利用每种情感下该词的词频计算出该词的情感权重,将每个词以及它的情感权重以键值对的形式存储到词典中,构成一个情感词典;
步骤3,将每个样本的所有分词的某种情感下的情感权重累加,得到该样本某种情感的情感权重之和,将该样本的每种情感的情感权重之和组合形成训练集的情感向量;
步骤4,将训练集的情感向量作为输入层的特征表示,用于DNN混合情感分类模型的训练,得到训练好的用于混合情感分类的DNN模型;
步骤5,将新的网络平台短文本进行分词处理,将分词后的每个词都在情感词典里搜索,得到每个词对应的情感权重,将每种情感下的所有词的情感权重分别求和,以得到新的网络平台短文本在每种情感下的情感权重之和,并将其组合形成情感向量;
步骤6,将新的网络平台短文本所形成的情感向量输入训练好的DNN模型中,得到包含每种情感的概率值的向量,将最大的两个概率值与设置好的阈值进行判断,若最大的两个概率值大于等于所述阀值,则说明新的网络平台短文本包含对应的情感,否则不包含对应的情感。
2.根据权利要求1所述的基于新型情感词典的网络平台短文本混合情感分类方法,其特征在于,所述步骤2具体包括:
步骤21,将训练集的不同情感标签的样本归类,得到n类情感标签下的样本集合,每个集合为Si(1≤i≤n);设置i=1,设置all_words集合用于记录所有出现的词,设置all_words集合为空,并设训练集总样本数为N;
步骤22,设置wordsi集合为空,设第i类情感标签训练集的第k个样本为设置k=1,设counti为第i类情感标签训练集的计数器,设置counti=1;
步骤23,将的文本部分进行分词,并将分词后的结果存入wordsi集合中,并将其存入all_words集合中;
步骤24,令k=k+1,counti=counti+1,重复步骤23,直到k=第i类情感标签训练集样本总数;
步骤25,令i=i+1,重复步骤22~24,直到i=n;
步骤26,从all_words集合中取出词w(不放回),统计词w在wordsi(1≤i≤n)的出现次数fiw,fiw称之为词频,nw为不为0的fiw(1≤i≤n)的个数;
步骤27,计算词w在第i类情感标签下的情感权重和词w在第n类情感下的情感权重;
步骤28,若all_words集合不为空,则转...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。