【技术实现步骤摘要】
一种多特征融合的文本情感分析模型及装置
本专利技术涉及智能智能文本情感分析
,具体为一种多特征融合的文本情感分析模型及装置。
技术介绍
将深度学习应用于文本情感分析任务的过程中,首先需要对文本进行词向量化,然后输入到神经网络中提取情感特征。但由于微博文本内容丰富、形式多样的特点,仅仅由文本词向量构成的语义特征不能全面表达微博文本的情感信息,所以本专利技术提出一种基于多特征融合的文本情感分析方法。针对微博文本自身特点构建了多种特征,如基于词典的情感值特征、表情特征以及改进的语义特征。融合多特征形成文本情感分类模型,该模型可以从多特征向量矩阵中学习到文本更多维度的情感信息,在自建数据集上与传统CNN模型及其他单一特征模型进行对比,实验结果显示其情感分类能力得到有效提升。随着社交媒体的迅速发展,微博成为热门网络社交平台之一,越来越多的用户在微博上发表评论去表达自己的观点态度,微博短文本也成为新兴的文本形式。挖掘微博文本背后隐藏的情感倾向,对舆情分析等有重要价值。相比于传统文本,微博文本具有内容较短、表情符号多、形式多样化等特点,因此,仅在文本词向量上提取语义特征不足以涵盖微博文本所有的情感信息,这类方法没有考虑到文本中丰富的表情符号,以及不同词语对文本的重要程度不同。以表情符号为例,微博上表情符号越来越受欢迎,很多用户在发表评论时,会在文字中加入符合情绪的表情符号,相关研究表明,表情符号可以增强用户的情感表达。微博作为日常网络交流的平台,提供了许多默认的表情符号,便于用户更生动直观的表达自己的感受。可 ...
【技术保护点】
1.一种多特征融合的文本情感分析装置,其特征在于:包括登录模块、单输入预测模块和批量预测模块/n其中/n登录模块,用户需要登录系统;/n单输入预测模块,该模块可以预测一条文本的情感极性,由用户手动输入预测内容,如“今天天气不错”,点击提交则显示预测标签结果,预测标签共分为三种:积极、消极和中性;/n批量预测模块,该模块可以对批量文本进行预测,先由数据上传模块上传待分析的文本集,遍历其中每条文本进行预测,结果可以以柱状图显示数据占比,统计三种情感文本各有多少条,并提供下载功能。/n
【技术特征摘要】
1.一种多特征融合的文本情感分析装置,其特征在于:包括登录模块、单输入预测模块和批量预测模块
其中
登录模块,用户需要登录系统;
单输入预测模块,该模块可以预测一条文本的情感极性,由用户手动输入预测内容,如“今天天气不错”,点击提交则显示预测标签结果,预测标签共分为三种:积极、消极和中性;
批量预测模块,该模块可以对批量文本进行预测,先由数据上传模块上传待分析的文本集,遍历其中每条文本进行预测,结果可以以柱状图显示数据占比,统计三种情感文本各有多少条,并提供下载功能。
2.根据权利要求1所述的一种多特征融合的文本情感分析模装置的模型,其特征在于:包括如下步骤:
步骤一:首先,对微博文本进行分割,将文字部分存入Dt中,表情部分存入De中,对Dt进行文本预处理,结合情感词典、修饰词词典计算文本的情感值特征,将Dt通过改进的Word2vec模型训练得到文本词向量,构成改进的语义特征,De结合表情符号情感极值表计算表情的情感极值,再加上表情的出现次数以及语义信息,共同构成表情特征,将三种特征进行融合,进行文本情感分析;
步骤二:建立TextCNN深度学习模型,在CNN基础上做出调整,使得TextCNN模型更适用于提取文本的特征,在情感分析中常被使用,本发明将它作为核心模型,提出了基于多特征融合的情感分类模型MFCNN,将不同特征转化为对应向量,采用拼接方式进行特征融合,构建多特征向量矩阵,输入到文本卷积神经网络中,最终得到分类结果
(1)基于词典的情感值特征
1.1构建词典
本文构建的词典包括:基础情感词典,否定词词典和程度副词词典,采用了波森自然语言处理公司推出的BosonNLP情感词典作为基础情感词典,该词典由大量社交网站标注的文本构建,相较于传统的情感词典,BosonNLP情感词典包含了许多流行网络用语,更适用于对微博这种社交媒体的非正式文本进行情感分析;
本文的修饰词词典包括两种,分别是否定词词典和程度副词词典,若情感词前出现否定词,那么其情感倾向很可能相反,本文以汉语词典中的否定词为基础,结合微博文本中常用否定词进一步扩展,整理得到71个否定词构成否定词词典,否定词权重设为-1;程度副词词典参考知网提供的词典以及微博文本中部分程度副词作为补充,共筛选出219个程度副词组成的程度副词词典,并为每个程度副词赋予了权值,权值大于1表示情感加强,权值小于1表示情感弱化;
1.2构建情感值特征
基于词典的情感值特征是指依据情感词典及修饰词词典,构建特定的规则,匹配文本中包含的情感词和修饰词后进行加权计算,得到情感值特征作为文本情感的表示形式;
输入微博文本,输出文本基于词典的情感值特征,首先,读取微博文本并进行预处理,匹配情感词典与文本中的词语,若词语为积极词得1分,为消极词得-1分,两种情况都不是为0分,情感词前如果有修饰词,记录其数量及权值,计算文本的情感值,公式如下:
其中,m为文本中包含的情感词总数,n为某个情感词的修饰词个数,base为基础得分,weight为的程度副词或否定词权值;
(2)表情特征
情感词与表情符号都是常见的含有情感线索的载体,虽然情感词也具有情感信息,但仅仅通过制定规则来计算几个词语的情感得分是远远不够的,与情感词相比,表情符号使用图形表示,具有更丰富且直观的情感信息,同时它所表达的情感往往更强烈,当表情符号出现在文本中时,其更可能主导文本信息的情感,本文基于表情符号的多维信息构建表情特征,包括表情符号的情感极值、出现次数及语义信息;
首先是表情符号的情感极值,本文根据自建数据集中常用的微博表情符号,选择了85个表情构建了表情符号情感极值表;将表情分为积极、中性、消极3种类型,其中,积极情感表情符号37个,消极情感表情符号43个,对于有歧义或者没有明显情绪表达的表情符号,如“[微笑]”,设为中立情感,共5个,不同表情符号表达的情感不同,按照表达情感的正负及强弱给与-2到2的分值,表达积极情感的表情由弱到强取值范围为0至2,表达消极情感的表情由弱到强取值...
【专利技术属性】
技术研发人员:包铁,刘露,刘圣洁,张雪松,彭涛,
申请(专利权)人:吉林大学,
类型:发明
国别省市:吉林;22
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。