融合情绪知识的案件微博评论情绪分类方法技术

技术编号:24613491 阅读:19 留言:0更新日期:2020-06-24 01:08
本发明专利技术涉及融合情绪知识的案件微博评论情绪分类方法,属于自然语言处理技术领域。本发明专利技术构建了一个包含案件微博情绪词典、表情符号、网络流行语、否定词典以及程度副词词典的情绪知识库;并构建属性特征表示。最后基于卷积神经网络将评论的语义表示和属性特征表示进行融合,构建情绪分类模型,提取深层次的语义特征和序列化的情绪知识特征,实现了情绪分类。基于案件微博评论语料的实验结果表明,该方法与基准方法INIT‑CNN相比,Macro_F1和Micro_F1两项指标分别提升了1.88%和1.94%。

Emotion classification method of case micro blog comments based on emotional knowledge

【技术实现步骤摘要】
融合情绪知识的案件微博评论情绪分类方法
本专利技术涉及融合情绪知识的案件微博评论情绪分类方法,属于自然语言处理

技术介绍
案件舆情是指与案件相关的互联网舆情。微博作为社交媒体平台的显著代表,是案件舆情的重要来源。热点案件往往容易在微博平台上迅速发酵、演化,并产生海量评论及案件舆情。案件舆情极易引发社会动乱以及影响司法决策,国家也在积极推进智慧法院建设。因此,面向案件微博评论的情绪分类对于及时了解和掌握案件舆情,以便相关部门迅速做出决策,是十分必要且意义重大的。情感分类任务是文本情感分析的一个子任务,而案件微博评论的情绪分类可以看作是一个特定领域的细粒度情感分类任务,对于防范舆情风险至关重要。情感分类方法通常分为:基于情感词典的方法、基于传统机器学习的方法和基于深度学习的方法。基于情感词典的方法主要是通过情感词典对文本中的情感词进行一定的组合计算,实现文本的情感分类。这种方法对情感词典的依赖大,且目前还没有一部完善的情感词典可以很好地用于微博文本的情感分类。基于传统机器学习的情感分类常用有监督学习的方法,需要依赖于大量的标注数据和复杂的人工特征工程。现有的情感分类研究大多是基于深度学习的方法。虽然基于深度学习的方法在一定程度上有效地避免了基于情感词典和基于传统机器学习的方法存在的不足,但是大多数深度学习的方法只是将文本作为一个整体进行编码,缺乏对现有情感计算资源的有效利用,也不能很好地体现表情符号和网络流行语等对情感分类的作用。针对传统的情感分类方法难以有效利用案件微博评论中常用的表情符号、否定规则、领域情绪新词等情绪知识的问题,提出一种融合情绪知识的案件微博评论情绪分类方法。
技术实现思路
本专利技术提供了融合情绪知识的案件微博评论情绪分类方法,用于解决传统方法在案件微博评论情绪分类任务中分类性能不高的问题,以及传统的情感分析方法难以有效利用评论中常用的表情符号、否定规则、领域情绪新词等情绪知识。本专利技术的技术方案是:融合情绪知识的案件微博评论情绪分类方法,具体步骤如下:Step1、构建案件微博评论语料库词表:收集案件微博评论文本作为实验数据集,并进行删除无意义字符数据预处理,分词,词性标注文本预处理,得到案件微博评论语料库词表;Step2、构建基础情绪词典:基于大连理工大学的情感词汇本体,沿用其乐、好、怒、哀、惧、恶和惊共7个情绪类别,构建了基础情绪词典;通过整理现有的情感计算资源,收集微博常用的表情符号和网络流行语并分类,得到否定词典、程度副词词典、表情符号集以及网络流行语集;Step3、构建种子情绪词集:将基础情绪词典在案件微博评论语料库词表中出现的所有词作为种子情绪词,构成种子情绪词集;Step4、构建案件微博情绪词典:首先利用SO-PMI(语义导向点互信息)算法挖掘案件微博评论语料库词表中的7个情绪类别候选情绪词;接着通过计算各个类别候选情绪词与对应类别种子情绪词的词向量余弦相似度,保留平均余弦相似度大于0.5的候选情绪词作为对应类别的案件微博情绪新词,组成扩展情绪词典;然后通过人工筛选扩展情绪词加入种子情绪词集,进行增量式的迭代进而挖掘领域情绪新词;最后,在算法挖掘不到情绪新词时停止迭代,将扩展情绪词典和基础情绪词典整合,得到案件微博情绪词典;作为本专利技术的优选方案,所述Step4中,SO-PMI算法首先筛选出案件微博评论语料库词表中词性为:形容词、动词、名词、副词以及表情符号词性“emoji”的所有词,其中,表情符号词性“emoji”是人工定义的标记针对表情符号词;然后计算每个词与种子情绪词集中各个情绪类别所有情绪词之间的SO-PMI值,保留SO-PMI值大于零的词作为对应类别的候选情绪词,词的SO-PMI值大于零且值越大,表示该词与当前情绪类别越相关;SO-PMI算法的计算公式如下:其中,word1表示案件微博评论语料库出现的词,word2表示种子情绪词;p(word1&word2)表示word1与word2在案件微博评论语料库中共同出现的概率,p(word1)表示word1在案件微博评论语料库中出现的概率,p(word2)表示word2在案件微博评论语料库中出现的概率;Ssome-kind表示某一情绪类别种子情绪词集合,Sothers表示其它6类种子情绪词集合。作为本专利技术的优选方案,所述Step4中,词向量余弦相似度计算公式如下:其中,vi表示候选情绪词的词向量,m表示当前类别候选情绪词总数;vj表示种子情绪词的词向量,n表示当前类别种子情绪词总数。Step5、将所有资源整合成一个包含案件微博情绪词典、否定词典、程度副词词典、表情符号集以及网络流行语集的案件微博情绪知识库;Step6、利用案件微博情绪知识库定义了词语的词性及情绪标签属性特征,构建案件微博评论的属性特征表示,通过双通道卷积神经网络将评论的语义表示和属性特征表示进行融合,训练了评论的情绪分类器,构建一个双通道卷积神经网络模型,对案件微博情绪知识进行融合,实现了案件微博评论的情绪分类。作为本专利技术的优选方案,所述步骤Step6中,案件微博评论的语义表示是一个对评论句进行分词,再通过加载预训练词向量列表WN×d对每个词进行查询并分配词向量的过程;其中,N表示词表的词汇数,d表示词向量维度;假设一个包含n个词的评论文本序列T={w1,w2,…,wn},对于T中的每个词wi都能通过词向量列表WN×d查询到一个词向量vi,则序列T的语义表示矩阵MT为:其中,表示行向量方向的拼接操作;案件微博评论的属性特征表示是一个基于稀疏二值向量表示方法构建属性特征表示矩阵的过程;首先,为每个词定义了K种词性及情绪标签属性;然后,对于给定包含n个词的评论文本序列T={w1,w2,…,wn},通过词性标注以及查询案件微博情绪知识库,将每个词wi都映射为一个K维的布尔二值向量vbool_i,vbool_i的每一维的值为0/1,0表示不具有该特征,1表示具有该特征,最终,得到一个n×K维的属性特征表示矩阵ME:作为本专利技术的优选方案,所述步骤Step6中,双通道卷积神经网络以INIT-CNN作为基准方法,以此构建一个双通道卷积神经网络模型;其中,INIT-CNN为以卷积神经网络为基础,采用一种初始化卷积滤波器技术,构建的文本分类模型。进一步地,卷积神经网络在处理短文本分类问题时,以其可并行化计算和自动提取特征用于分类的特点而得到广泛应用,已经被许多研究者证明是十分有效的。已有研究以卷积神经网络为基础,采用一种初始化卷积滤波器技术,构建了文本分类模型并且取得了优秀的结果。本专利技术将使用这种技术的卷积神经网络模型称为INIT-CNN,作为基准方法,以此构建了一个双通道卷积神经网络模型,对案件微博情绪知识进行融合,实现了案件微博评论的情绪分类。作为本专利技术的优选方案,所述Step6中,构建了评论的语义表示和属性特征表示后,一起输入到双通道卷积神经网络中,提取深层的语义特征和情绪知识特本文档来自技高网
...

【技术保护点】
1.融合情绪知识的案件微博评论情绪分类方法,其特征在于:具体步骤如下:/nStep1、构建案件微博评论语料库词表:收集案件微博评论文本作为实验数据集,并进行删除无意义字符数据预处理,分词,词性标注文本预处理,得到案件微博评论语料库词表;/nStep2、构建基础情绪词典:基于大连理工大学的情感词汇本体,沿用其乐、好、怒、哀、惧、恶和惊共7个情绪类别,构建了基础情绪词典;通过整理现有的情感计算资源,收集微博常用的表情符号和网络流行语并分类,得到否定词典、程度副词词典、表情符号集以及网络流行语集;/nStep3、构建种子情绪词集:将基础情绪词典在案件微博评论语料库词表中出现的所有词作为种子情绪词,构成种子情绪词集;/nStep4、构建案件微博情绪词典:首先利用SO-PMI语义导向点互信息算法挖掘案件微博评论语料库词表中的7个情绪类别候选情绪词;接着通过计算各个类别候选情绪词与对应类别种子情绪词的词向量余弦相似度,保留平均余弦相似度大于0.5的候选情绪词作为对应类别的案件微博情绪新词,组成扩展情绪词典;然后通过人工筛选扩展情绪词加入种子情绪词集,进行增量式的迭代进而挖掘领域情绪新词;最后,在算法挖掘不到情绪新词时停止迭代,将扩展情绪词典和基础情绪词典整合,得到案件微博情绪词典;/nStep5、将所有资源整合成一个包含案件微博情绪词典、否定词典、程度副词词典、表情符号集以及网络流行语集的案件微博情绪知识库;/nStep6、利用案件微博情绪知识库定义了词语的词性及情绪标签属性特征,构建案件微博评论的属性特征表示,通过双通道卷积神经网络将评论的语义表示和属性特征表示进行融合,训练了评论的情绪分类器,构建一个双通道卷积神经网络模型,对案件微博情绪知识进行融合,实现了案件微博评论的情绪分类。/n...

【技术特征摘要】
1.融合情绪知识的案件微博评论情绪分类方法,其特征在于:具体步骤如下:
Step1、构建案件微博评论语料库词表:收集案件微博评论文本作为实验数据集,并进行删除无意义字符数据预处理,分词,词性标注文本预处理,得到案件微博评论语料库词表;
Step2、构建基础情绪词典:基于大连理工大学的情感词汇本体,沿用其乐、好、怒、哀、惧、恶和惊共7个情绪类别,构建了基础情绪词典;通过整理现有的情感计算资源,收集微博常用的表情符号和网络流行语并分类,得到否定词典、程度副词词典、表情符号集以及网络流行语集;
Step3、构建种子情绪词集:将基础情绪词典在案件微博评论语料库词表中出现的所有词作为种子情绪词,构成种子情绪词集;
Step4、构建案件微博情绪词典:首先利用SO-PMI语义导向点互信息算法挖掘案件微博评论语料库词表中的7个情绪类别候选情绪词;接着通过计算各个类别候选情绪词与对应类别种子情绪词的词向量余弦相似度,保留平均余弦相似度大于0.5的候选情绪词作为对应类别的案件微博情绪新词,组成扩展情绪词典;然后通过人工筛选扩展情绪词加入种子情绪词集,进行增量式的迭代进而挖掘领域情绪新词;最后,在算法挖掘不到情绪新词时停止迭代,将扩展情绪词典和基础情绪词典整合,得到案件微博情绪词典;
Step5、将所有资源整合成一个包含案件微博情绪词典、否定词典、程度副词词典、表情符号集以及网络流行语集的案件微博情绪知识库;
Step6、利用案件微博情绪知识库定义了词语的词性及情绪标签属性特征,构建案件微博评论的属性特征表示,通过双通道卷积神经网络将评论的语义表示和属性特征表示进行融合,训练了评论的情绪分类器,构建一个双通道卷积神经网络模型,对案件微博情绪知识进行融合,实现了案件微博评论的情绪分类。


2.根据权利要求1所述的融合情绪知识的案件微博评论情绪分类方法,其特征在于:所述步骤Step6中,案件微博评论的语义表示是一个对评论句进行分词,再通过加载预训练词向量列表WN×d对每个词进行查询并分配词向量的过程;
其中,N表示词表的词汇数,d表示词向量维度;假设一个包含n个词的评论文本序列T={w1,w2,…,wn},对于T中的每个词wi都能通过词向量列表WN×d查询到一个词向量vi,则序列T的语义表示矩阵MT为:



其中,表示行向量方向的拼接操作;
案件微博评论的属性特征表示是一个基于稀疏二值向量表示方法构建属性特征表示矩阵的过程;首先,为每个词定义了K种词性及情绪标签属性;然后,对于给定包含n个词的评论文本序列T={w1,w2...

【专利技术属性】
技术研发人员:余正涛郭贤伟相艳郭军军黄于欣朱恩昌
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1