当前位置: 首页 > 专利查询>汪金玲专利>正文

一种基于强化学习的文本情感分析方法及系统技术方案

技术编号:26343191 阅读:14 留言:0更新日期:2020-11-13 20:42
本发明专利技术涉及一种文本情感分析的技术领域,揭露了一种基于强化学习的文本情感分析方法,包括:获取待情感分析文本,利用双向最大匹配法对待情感分析文本进行分词处理,得到待情感分析文本的分词文本;利用依存关系图来计算分词文本中词语之间的关联强度;根据词语之间的关联强度,利用TextRank算法迭代算出词语的重要度得分,从而得到分词文本中的关键词;利用哈夫曼树将分词文本关键词转化为词向量;利用基于强化学习的情感分类模型对词向量进行情感分类,并在情感分类模型中加入情感因子,以进行模型的优化。本发明专利技术还提供了一种基于强化学习的文本情感分析系统。本发明专利技术实现了文本的情感分析。

A method and system of text emotion analysis based on intensive learning

【技术实现步骤摘要】
一种基于强化学习的文本情感分析方法及系统
本专利技术涉及文本情感分析的
,尤其涉及一种基于强化学习的文本情感分析方法及系统。
技术介绍
互联网技术的发展和人们生活水平的提高,网络进入到千家万户,越来越多的用户喜欢在网上表达自己的观点和看法。如今,电商平台、社交网站、微博、推特等各种互联网平台上存在大量由用户发表的主观性较强、词语精炼的短文本,这些观点和态度在帮助商家掌握市场情况、辅助消费者进行消费决策以及进行企业危机公关,如何完成短文本的情感分析成为当前研究的热门话题。在现有文本情感分析技术中,主要由基于情感词典的方法和基于机器学习的情感分析方法,其中基于情感词典的方法首先要创建情感词典,然后根据情感词典中的词语或短语的情感倾向和强度信息,实现对文本的情感分类,这种方法的优点在于不需要标注数据集,然而它也存在一些不足之处,比如可扩展性差,不仅依赖于词典的模型和质量,还依赖于规则的优劣,而且情感词典的构建十分复杂,费时费力,匹配过程需要完全精确匹配;而基于机器学习的情感分析方法则存在有效特征选择的困难和有标注训练语料的不足等问题。鉴于此,如何有效提取文本情感特征,并基于文本情感特征,实现对文本的情感分析,提高文本情感分析的准确率,成为本领域技术人员亟待解决的问题。
技术实现思路
本专利技术提供一种基于强化学习的文本情感分析方法,通过提出一种基于强化学习和优化算法的文本情感分析模型,利用情感分析结果作为回报,实现模型参数的训练,并加入情感因子,有效帮助模型选择符合先验知识的词语情感,最终实现对文本的情感分析。为实现上述目的,本专利技术提供的一种基于强化学习的文本情感分析方法,包括:获取待情感分析文本,利用双向最大匹配法对待情感分析文本进行分词处理,得到待情感分析文本的分词文本;利用依存关系图来计算分词文本中词语之间的关联强度;根据词语之间的关联强度,利用TextRank算法迭代算出词语的重要度得分,从而得到分词文本中的关键词;利用哈夫曼树将分词文本关键词转化为词向量;利用基于强化学习的情感分类模型对词向量进行情感分类,并在情感分类模型中加入情感因子,以进行模型的优化。可选地,所述利用双向最大匹配法对待情感分析文本进行分词处理,包括:1)将待情感分析文本句子反转生成逆序句;2)构建逆序词典,词典中包含了所有可能出现的词,并均以反向顺序进行存储;3)从逆序句的左侧到右侧进行扫描,以贪心的方式进行词语匹配,若逆序句中的某个字串与逆序词典中的某个词匹配,则在当前位置切分出长度最大的词,并将无法匹配的词单独分开,得到待情感分析文本的分词文本。可选地,所述利用依存关系图来计算分词文本中词语之间的关联强度,包括:根据句子的依存句法分析结果对分词文本中的词语构造无向图;利用词语之间的引力值以及依存关联度计算求得边的权重,所述任意两词Wi和Wj的依存关联度为:其中:len(Wi,Wj)表示词语Wi和Wj之间的依存路径长度;B为超参数;所述分词文本中词语Wi和Wj的引力计算公式:其中:tfidf(W)是词W的TF-IDF值;d是词Wi和Wj的词向量之间的欧式距离;分词文本中两个词语Wi和Wj之间的关联度为:weight(Wi,Wj)=Dep(Wi,Wj)*fgrav(Wi,Wj)其中:Dep(Wi,Wj)为词语Wi和Wj之间的依存关联度;fgrav(Wi,Wj)为词语Wi和Wj之间的引力值。可选地,所述利用TextRank算法迭代算出词语的重要度得分,包括:利用TextRank算法建立一个无向图G=(V,E),其中V是顶点的集合,E是边的集合,根据下列式子算出顶点Wi的得分,并选取得分最高的t个词语作为关键词:其中:是与顶点Wi有关的集合;η为阻尼系数;weight(Wi,Wj)为词语Wi和Wj之间的关联度。可选地,所述利用哈夫曼树将关键词转化为词向量,包括:取一个5个词大小的窗口当做语境,将所述分词输入到窗口中,并将它们的K维向量加和在一起,形成隐藏层K个节点;输出层是一个巨大的二叉树,叶节点代表文本关键词中所有的词,语料含有V个独立的词,则二叉树有|V|个叶节点,而这整颗二叉树构建的算法就是哈夫曼树,进一步地,隐层的每一个节点都会跟二叉树的内节点有连边,于是对于二叉树的每一个内节点都会有K条连边,每条边上也会有权值;因此对于叶节点的每一个字,就会有一个全局唯一的编码,形如“010011”,本专利技术记左子树为1,右子树为0,从而利用哈夫曼树将分词文本关键词中的所有字利用二进制编码的形式进行表征,得到词向量。可选地,所述利用基于强化学习的情感分类模型为:所述基于强化学习的情感分类模型分为强化学习网络部分和情感分类网络部分,其中强化学习网络部分以词序列为输入,并且为每个词语选择一个情感,基于情感的选择,使用相应的通道处理对应的情感,模型使用动作选择和回报的方式进行训练。可选地,所述利用基于强化学习的情感分类模型对词向量进行情感分类,包括:1)对于所述词向量,使用状态函数模拟强化学习中智能体的状态变化,上一层的状态会作为一组数据,输入到下一时刻的动作选择和动作评价过程,所述状态函数为:st=ht其中:Ct-1为t-1时刻动作评价层细胞单元的参数,该参数在训练阶段进行训练;ht为t时刻动作评价层细胞隐藏状态,并由智能体状态st进行保存;xt为t时刻的输入词向量;为t时刻的LSTM模型结构;2)使用情感动作选择器,以当前词语的词向量作为输入,执行情感动作选择策略:h′t-1=st-1outt=f(w′,h′t-1,xt)其中:h′t-1为当前动作选择器的状态;outt为t时刻所输出的动作;w′为情感动作选择器的参数;xt为t时刻的输入词向量;所述情感动作选择器的输出值为一个三维向量,分别代表消极、中性以及积极的情感,本专利技术选择评分最大的情感作为词向量的情感动作;通过建立了一个积极词典和一个消极词典,未命中词典的词则默认为中性情感,针对每一个词语,模型以1-ε的概率从己知词典中查找词语并选择对应情感极性,以ε的概率随机选择一个情感:at=dict[t],p=1-εat=random(neg,neu,pos)其中:at代表t时刻的情感动作;neg,neu,pos分别表示消极、中性以及积极的情感动作;p表示概率;dict[t]表示第t个词语在情感因子中的极性;且ε的值会随着迭代次数的增加进行逐步下降;3)利用评价层对所选择的情感动作进行评价,针对三种不同的情感动作,本专利技术设计了三个不同的通道:{Cneg,Cneu,Cpos}本文档来自技高网...

【技术保护点】
1.一种基于强化学习的文本情感分析方法,其特征在于,所述方法包括:/n获取待情感分析文本,利用双向最大匹配法对待情感分析文本进行分词处理,得到待情感分析文本的分词文本;/n利用依存关系图来计算分词文本中词语之间的关联强度;/n根据词语之间的关联强度,利用TextRank算法迭代算出词语的重要度得分,从而得到分词文本中的关键词;/n利用哈夫曼树将分词文本关键词转化为词向量;/n利用基于强化学习的情感分类模型对词向量进行情感分类,并在情感分类模型中加入情感因子,进行模型的优化。/n

【技术特征摘要】
1.一种基于强化学习的文本情感分析方法,其特征在于,所述方法包括:
获取待情感分析文本,利用双向最大匹配法对待情感分析文本进行分词处理,得到待情感分析文本的分词文本;
利用依存关系图来计算分词文本中词语之间的关联强度;
根据词语之间的关联强度,利用TextRank算法迭代算出词语的重要度得分,从而得到分词文本中的关键词;
利用哈夫曼树将分词文本关键词转化为词向量;
利用基于强化学习的情感分类模型对词向量进行情感分类,并在情感分类模型中加入情感因子,进行模型的优化。


2.如权利要求1所述的一种基于强化学习的文本情感分析方法,其特征在于,所述利用双向最大匹配法对待情感分析文本进行分词处理,包括:
1)将待情感分析文本句子反转生成逆序句;
2)构建逆序词典,词典中包含了所有可能出现的词,并均以反向顺序进行存储;
3)从逆序句的左侧到右侧进行扫描,以贪心的方式进行词语匹配,若逆序句中的某个字串与逆序词典中的某个词匹配,则在当前位置切分出长度最大的词,并将无法匹配的词单独分开,得到待情感分析文本的分词文本。


3.如权利要求2所述的一种基于强化学习的文本情感分析方法,其特征在于,所述利用依存关系图来计算分词文本中词语之间的关联强度,包括:
根据句子的依存句法分析结果对分词文本中的词语构造无向图;
利用词语之间的引力值以及依存关联度计算求得边的权重,所述任意两词Wi和Wj的依存关联度为:



其中:
len(Wi,Wj)表示词语Wi和Wj之间的依存路径长度;
B为超参数;
所述分词文本中词语Wi和Wj的引力计算公式:



其中:
tfidf(W)是词W的TF-IDF值;
d是词Wi和Wj的词向量之间的欧式距离;
分词文本中两个词语Wi和Wj之间的关联度为:
weight(Wi,Wj)=Dep(Wi,Wj)*fgrav(Wi,Wj)
其中:
Dep(Wi,Wj)为词语Wi和Wj之间的依存关联度;
fgrav(Wi,Wj)为词语Wi和Wj之间的引力值。


4.如权利要求3所述的一种基于强化学习的文本情感分析方法,其特征在于,所述利用TextRank算法迭代算出词语的重要度得分,包括:
利用TextRank算法建立一个无向图G=(V,E),其中V是顶点的集合,E是边的集合,根据下列式子算出顶点Wi的得分,并选取得分最高的t个词语作为关键词:



其中:

是与顶点Wi有关的集合;
η为阻尼系数;
weight(Wi,Wj)为词语Wi和Wj之间的关联度。


5.如权利要求4所述的一种基于强化学习的文本情感分析方法,其特征在于,所述利用哈夫曼树将关键词转化为词向量,包括:
取一个5个词大小的窗口当做语境,将所述分词输入到窗口中,并将它们的K维向量加和在一起,形成隐藏层K个节点;
输出层是一个巨大的二叉树,叶节点代表文本关键词中所有的词,语料含有V个独立的词,则二叉树有|V|个叶节点,而这整颗二叉树构建的算法就是哈夫曼树,进一步地,隐层的每一个节点都会跟二叉树的内节点有连边,二叉树的每一个内节点有K条连边,每条边有权值;
对于叶节点的每一个字,有一个全局唯一的编码,本发明记左子树为1,右子树为0,哈夫曼树将分词文本关键词中的所有字利用二进制编码的形式进行表征,得到词向量。
...

【专利技术属性】
技术研发人员:汪金玲
申请(专利权)人:汪金玲
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1