当前位置: 首页 > 专利查询>吉林大学专利>正文

一种多特征融合的文本情感分析模型及装置制造方法及图纸

技术编号:29526529 阅读:26 留言:0更新日期:2021-08-03 15:12
本发明专利技术属于智能文本情感分析技术领域,具体为一种多特征融合的文本情感分析模型及装置,包括包括登录模块、单输入预测模块和批量预测模块,其中登录模块,用户需要登录系统;单输入预测模块,该模块可以预测一条文本的情感极性,由用户手动输入预测内容,如“今天天气不错”,点击提交则显示预测标签结果,预测标签共分为三种:积极、消极和中性;批量预测模块,该模块可以对批量文本进行预测,先由数据上传模块上传待分析的文本集,遍历其中每条文本进行预测,其结构合理,结合文本卷积神经网络与双向长短期记忆神经网络,并引入自注意力机制来增加文本中重要词语所占权重,提高了文本情感分析的准确率。

【技术实现步骤摘要】
一种多特征融合的文本情感分析模型及装置
本专利技术涉及智能智能文本情感分析
,具体为一种多特征融合的文本情感分析模型及装置。
技术介绍
将深度学习应用于文本情感分析任务的过程中,首先需要对文本进行词向量化,然后输入到神经网络中提取情感特征。但由于微博文本内容丰富、形式多样的特点,仅仅由文本词向量构成的语义特征不能全面表达微博文本的情感信息,所以本专利技术提出一种基于多特征融合的文本情感分析方法。针对微博文本自身特点构建了多种特征,如基于词典的情感值特征、表情特征以及改进的语义特征。融合多特征形成文本情感分类模型,该模型可以从多特征向量矩阵中学习到文本更多维度的情感信息,在自建数据集上与传统CNN模型及其他单一特征模型进行对比,实验结果显示其情感分类能力得到有效提升。随着社交媒体的迅速发展,微博成为热门网络社交平台之一,越来越多的用户在微博上发表评论去表达自己的观点态度,微博短文本也成为新兴的文本形式。挖掘微博文本背后隐藏的情感倾向,对舆情分析等有重要价值。相比于传统文本,微博文本具有内容较短、表情符号多、形式多样化等特点,因此,仅在文本词向量上提取语义特征不足以涵盖微博文本所有的情感信息,这类方法没有考虑到文本中丰富的表情符号,以及不同词语对文本的重要程度不同。以表情符号为例,微博上表情符号越来越受欢迎,很多用户在发表评论时,会在文字中加入符合情绪的表情符号,相关研究表明,表情符号可以增强用户的情感表达。微博作为日常网络交流的平台,提供了许多默认的表情符号,便于用户更生动直观的表达自己的感受。可见,表情符号在微博文本情感分析中意义重大。然而现有方法大多只关注了文本的研究,忽略了表情符号等数据,这可能导致情感表达的缺失,从而影响后续情感倾向性判断。为了解决上述问题以及挖掘微博文本中更全面的情感信息,本专利技术提出一种基于多特征融合的文本情感分析方法,在文本词向量的语义特征基础上,增加了三种情感特征:基于词典的情感值特征、表情特征、改进的语义特征。根据情感词典计算整条文本的情感值作为基于词典的情感值特征。因为表情符号可以更直观的体现情感,提取出文本中表情符号的相关信息作为单独的表情特征。提出TF-IDF算法加权的Word2vec模型,称为改进的Word2vec模型,用于文本向量化,作为改进的语义特征。将多种特征融合形成多特征向量矩阵,从更多角度学习文本中包含的情感特征。
技术实现思路
本部分的目的在于概述本专利技术的实施方式的一些方面以及简要介绍一些较佳实施方式。在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊,而这种简化或省略不能用于限制本专利技术的范围。鉴于现有文本情感分析模型中存在的问题,提出了本专利技术。因此,本专利技术的目的是提供一种多特征融合的文本情感分析模型及装置,能够实现在使用的过程中,结合文本卷积神经网络与双向长短期记忆神经网络,并引入自注意力机制来增加文本中重要词语所占权重,提高了文本情感分析的准确率。为解决上述技术问题,根据本专利技术的一个方面,本专利技术提供了如下技术方案:一种多特征融合的文本情感分析模型及装置,其包括登录模块、单输入预测模块和批量预测模块其中登录模块,用户需要登录系统;单输入预测模块,该模块可以预测一条文本的情感极性,由用户手动输入预测内容,如“今天天气不错”,点击提交则显示预测标签结果,预测标签共分为三种:积极、消极和中性;批量预测模块,该模块可以对批量文本进行预测,先由数据上传模块上传待分析的文本集,遍历其中每条文本进行预测,结果可以以柱状图显示数据占比,统计三种情感文本各有多少条,并提供下载功能。作为本专利技术所述的一种多特征融合的文本情感分析模型及装置的一种优选方案,其中:建立TextCNN深度学习模型,在CNN基础上做出调整,使得TextCNN模型更适用于提取文本的特征,在情感分析中常被使用,本专利技术将它作为核心模型,提出了基于多特征融合的情感分类模型MFCNN,将不同特征转化为对应向量,采用拼接方式进行特征融合,构建多特征向量矩阵,输入到文本卷积神经网络中,最终得到分类结果(1)基于词典的情感值特征1.1构建词典本文构建的词典包括:基础情感词典,否定词词典和程度副词词典,采用了波森自然语言处理公司推出的BosonNLP情感词典作为基础情感词典,该词典由大量社交网站标注的文本构建,相较于传统的情感词典,BosonNLP情感词典包含了许多流行网络用语,更适用于对微博这种社交媒体的非正式文本进行情感分析;本文的修饰词词典包括两种,分别是否定词词典和程度副词词典,若情感词前出现否定词,那么其情感倾向很可能相反,本文以汉语词典中的否定词为基础,结合微博文本中常用否定词进一步扩展,整理得到71个否定词构成否定词词典,否定词权重设为-1;程度副词词典参考知网提供的词典以及微博文本中部分程度副词作为补充,共筛选出219个程度副词组成的程度副词词典,并为每个程度副词赋予了权值,权值大于1表示情感加强,权值小于1表示情感弱化;1.2构建情感值特征基于词典的情感值特征是指依据情感词典及修饰词词典,构建特定的规则,匹配文本中包含的情感词和修饰词后进行加权计算,得到情感值特征作为文本情感的表示形式;输入微博文本,输出文本基于词典的情感值特征,首先,读取微博文本并进行预处理,匹配情感词典与文本中的词语,若词语为积极词得1分,为消极词得-1分,两种情况都不是为0分,情感词前如果有修饰词,记录其数量及权值,计算文本的情感值,公式如下:其中,m为文本中包含的情感词总数,n为某个情感词的修饰词个数,base为基础得分,weight为的程度副词或否定词权值;(2)表情特征情感词与表情符号都是常见的含有情感线索的载体,虽然情感词也具有情感信息,但仅仅通过制定规则来计算几个词语的情感得分是远远不够的,与情感词相比,表情符号使用图形表示,具有更丰富且直观的情感信息,同时它所表达的情感往往更强烈,当表情符号出现在文本中时,其更可能主导文本信息的情感,本文基于表情符号的多维信息构建表情特征,包括表情符号的情感极值、出现次数及语义信息;首先是表情符号的情感极值,本文根据自建数据集中常用的微博表情符号,选择了85个表情构建了表情符号情感极值表;将表情分为积极、中性、消极3种类型,其中,积极情感表情符号37个,消极情感表情符号43个,对于有歧义或者没有明显情绪表达的表情符号,如“[微笑]”,设为中立情感,共5个,不同表情符号表达的情感不同,按照表达情感的正负及强弱给与-2到2的分值,表达积极情感的表情由弱到强取值范围为0至2,表达消极情感的表情由弱到强取值范围为0至-2,表达中性情感的表情赋值0;提取文本中的表情符号,计算文本情感极值公式如下:其中m,n为文本中积极表情符号与消极表情符号的数量,e为表情符号,pos,neg为积极与消极表情符号极值表,函数F的作用是取出极值表中相应表情符号的分值。<本文档来自技高网
...

【技术保护点】
1.一种多特征融合的文本情感分析装置,其特征在于:包括登录模块、单输入预测模块和批量预测模块/n其中/n登录模块,用户需要登录系统;/n单输入预测模块,该模块可以预测一条文本的情感极性,由用户手动输入预测内容,如“今天天气不错”,点击提交则显示预测标签结果,预测标签共分为三种:积极、消极和中性;/n批量预测模块,该模块可以对批量文本进行预测,先由数据上传模块上传待分析的文本集,遍历其中每条文本进行预测,结果可以以柱状图显示数据占比,统计三种情感文本各有多少条,并提供下载功能。/n

【技术特征摘要】
1.一种多特征融合的文本情感分析装置,其特征在于:包括登录模块、单输入预测模块和批量预测模块
其中
登录模块,用户需要登录系统;
单输入预测模块,该模块可以预测一条文本的情感极性,由用户手动输入预测内容,如“今天天气不错”,点击提交则显示预测标签结果,预测标签共分为三种:积极、消极和中性;
批量预测模块,该模块可以对批量文本进行预测,先由数据上传模块上传待分析的文本集,遍历其中每条文本进行预测,结果可以以柱状图显示数据占比,统计三种情感文本各有多少条,并提供下载功能。


2.根据权利要求1所述的一种多特征融合的文本情感分析模装置的模型,其特征在于:包括如下步骤:
步骤一:首先,对微博文本进行分割,将文字部分存入Dt中,表情部分存入De中,对Dt进行文本预处理,结合情感词典、修饰词词典计算文本的情感值特征,将Dt通过改进的Word2vec模型训练得到文本词向量,构成改进的语义特征,De结合表情符号情感极值表计算表情的情感极值,再加上表情的出现次数以及语义信息,共同构成表情特征,将三种特征进行融合,进行文本情感分析;
步骤二:建立TextCNN深度学习模型,在CNN基础上做出调整,使得TextCNN模型更适用于提取文本的特征,在情感分析中常被使用,本发明将它作为核心模型,提出了基于多特征融合的情感分类模型MFCNN,将不同特征转化为对应向量,采用拼接方式进行特征融合,构建多特征向量矩阵,输入到文本卷积神经网络中,最终得到分类结果
(1)基于词典的情感值特征
1.1构建词典
本文构建的词典包括:基础情感词典,否定词词典和程度副词词典,采用了波森自然语言处理公司推出的BosonNLP情感词典作为基础情感词典,该词典由大量社交网站标注的文本构建,相较于传统的情感词典,BosonNLP情感词典包含了许多流行网络用语,更适用于对微博这种社交媒体的非正式文本进行情感分析;
本文的修饰词词典包括两种,分别是否定词词典和程度副词词典,若情感词前出现否定词,那么其情感倾向很可能相反,本文以汉语词典中的否定词为基础,结合微博文本中常用否定词进一步扩展,整理得到71个否定词构成否定词词典,否定词权重设为-1;程度副词词典参考知网提供的词典以及微博文本中部分程度副词作为补充,共筛选出219个程度副词组成的程度副词词典,并为每个程度副词赋予了权值,权值大于1表示情感加强,权值小于1表示情感弱化;
1.2构建情感值特征
基于词典的情感值特征是指依据情感词典及修饰词词典,构建特定的规则,匹配文本中包含的情感词和修饰词后进行加权计算,得到情感值特征作为文本情感的表示形式;
输入微博文本,输出文本基于词典的情感值特征,首先,读取微博文本并进行预处理,匹配情感词典与文本中的词语,若词语为积极词得1分,为消极词得-1分,两种情况都不是为0分,情感词前如果有修饰词,记录其数量及权值,计算文本的情感值,公式如下:



其中,m为文本中包含的情感词总数,n为某个情感词的修饰词个数,base为基础得分,weight为的程度副词或否定词权值;
(2)表情特征
情感词与表情符号都是常见的含有情感线索的载体,虽然情感词也具有情感信息,但仅仅通过制定规则来计算几个词语的情感得分是远远不够的,与情感词相比,表情符号使用图形表示,具有更丰富且直观的情感信息,同时它所表达的情感往往更强烈,当表情符号出现在文本中时,其更可能主导文本信息的情感,本文基于表情符号的多维信息构建表情特征,包括表情符号的情感极值、出现次数及语义信息;
首先是表情符号的情感极值,本文根据自建数据集中常用的微博表情符号,选择了85个表情构建了表情符号情感极值表;将表情分为积极、中性、消极3种类型,其中,积极情感表情符号37个,消极情感表情符号43个,对于有歧义或者没有明显情绪表达的表情符号,如“[微笑]”,设为中立情感,共5个,不同表情符号表达的情感不同,按照表达情感的正负及强弱给与-2到2的分值,表达积极情感的表情由弱到强取值范围为0至2,表达消极情感的表情由弱到强取值...

【专利技术属性】
技术研发人员:包铁刘露刘圣洁张雪松彭涛
申请(专利权)人:吉林大学
类型:发明
国别省市:吉林;22

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1