【技术实现步骤摘要】
一种基于强化学习的文本情感分析方法及系统
本专利技术涉及文本情感分析的
,尤其涉及一种基于强化学习的文本情感分析方法及系统。
技术介绍
互联网技术的发展和人们生活水平的提高,网络进入到千家万户,越来越多的用户喜欢在网上表达自己的观点和看法。如今,电商平台、社交网站、微博、推特等各种互联网平台上存在大量由用户发表的主观性较强、词语精炼的短文本,这些观点和态度在帮助商家掌握市场情况、辅助消费者进行消费决策以及进行企业危机公关,如何完成短文本的情感分析成为当前研究的热门话题。在现有文本情感分析技术中,主要由基于情感词典的方法和基于机器学习的情感分析方法,其中基于情感词典的方法首先要创建情感词典,然后根据情感词典中的词语或短语的情感倾向和强度信息,实现对文本的情感分类,这种方法的优点在于不需要标注数据集,然而它也存在一些不足之处,比如可扩展性差,不仅依赖于词典的模型和质量,还依赖于规则的优劣,而且情感词典的构建十分复杂,费时费力,匹配过程需要完全精确匹配;而基于机器学习的情感分析方法则存在有效特征选择的困难和有标注训练语料的不足等问题。鉴于此,如何有效提取文本情感特征,并基于文本情感特征,实现对文本的情感分析,提高文本情感分析的准确率,成为本领域技术人员亟待解决的问题。
技术实现思路
本专利技术提供一种基于强化学习的文本情感分析方法,通过提出一种基于强化学习和优化算法的文本情感分析模型,利用情感分析结果作为回报,实现模型参数的训练,并加入情感因子,有效帮助模型选择符合先验知识的词语情 ...
【技术保护点】
1.一种基于强化学习的文本情感分析方法,其特征在于,所述方法包括:/n获取待情感分析文本,利用双向最大匹配法对待情感分析文本进行分词处理,得到待情感分析文本的分词文本;/n利用依存关系图来计算分词文本中词语之间的关联强度;/n根据词语之间的关联强度,利用TextRank算法迭代算出词语的重要度得分,从而得到分词文本中的关键词;/n利用哈夫曼树将分词文本关键词转化为词向量;/n利用基于强化学习的情感分类模型对词向量进行情感分类,并在情感分类模型中加入情感因子,进行模型的优化。/n
【技术特征摘要】
1.一种基于强化学习的文本情感分析方法,其特征在于,所述方法包括:
获取待情感分析文本,利用双向最大匹配法对待情感分析文本进行分词处理,得到待情感分析文本的分词文本;
利用依存关系图来计算分词文本中词语之间的关联强度;
根据词语之间的关联强度,利用TextRank算法迭代算出词语的重要度得分,从而得到分词文本中的关键词;
利用哈夫曼树将分词文本关键词转化为词向量;
利用基于强化学习的情感分类模型对词向量进行情感分类,并在情感分类模型中加入情感因子,进行模型的优化。
2.如权利要求1所述的一种基于强化学习的文本情感分析方法,其特征在于,所述利用双向最大匹配法对待情感分析文本进行分词处理,包括:
1)将待情感分析文本句子反转生成逆序句;
2)构建逆序词典,词典中包含了所有可能出现的词,并均以反向顺序进行存储;
3)从逆序句的左侧到右侧进行扫描,以贪心的方式进行词语匹配,若逆序句中的某个字串与逆序词典中的某个词匹配,则在当前位置切分出长度最大的词,并将无法匹配的词单独分开,得到待情感分析文本的分词文本。
3.如权利要求2所述的一种基于强化学习的文本情感分析方法,其特征在于,所述利用依存关系图来计算分词文本中词语之间的关联强度,包括:
根据句子的依存句法分析结果对分词文本中的词语构造无向图;
利用词语之间的引力值以及依存关联度计算求得边的权重,所述任意两词Wi和Wj的依存关联度为:
其中:
len(Wi,Wj)表示词语Wi和Wj之间的依存路径长度;
B为超参数;
所述分词文本中词语Wi和Wj的引力计算公式:
其中:
tfidf(W)是词W的TF-IDF值;
d是词Wi和Wj的词向量之间的欧式距离;
分词文本中两个词语Wi和Wj之间的关联度为:
weight(Wi,Wj)=Dep(Wi,Wj)*fgrav(Wi,Wj)
其中:
Dep(Wi,Wj)为词语Wi和Wj之间的依存关联度;
fgrav(Wi,Wj)为词语Wi和Wj之间的引力值。
4.如权利要求3所述的一种基于强化学习的文本情感分析方法,其特征在于,所述利用TextRank算法迭代算出词语的重要度得分,包括:
利用TextRank算法建立一个无向图G=(V,E),其中V是顶点的集合,E是边的集合,根据下列式子算出顶点Wi的得分,并选取得分最高的t个词语作为关键词:
其中:
是与顶点Wi有关的集合;
η为阻尼系数;
weight(Wi,Wj)为词语Wi和Wj之间的关联度。
5.如权利要求4所述的一种基于强化学习的文本情感分析方法,其特征在于,所述利用哈夫曼树将关键词转化为词向量,包括:
取一个5个词大小的窗口当做语境,将所述分词输入到窗口中,并将它们的K维向量加和在一起,形成隐藏层K个节点;
输出层是一个巨大的二叉树,叶节点代表文本关键词中所有的词,语料含有V个独立的词,则二叉树有|V|个叶节点,而这整颗二叉树构建的算法就是哈夫曼树,进一步地,隐层的每一个节点都会跟二叉树的内节点有连边,二叉树的每一个内节点有K条连边,每条边有权值;
对于叶节点的每一个字,有一个全局唯一的编码,本发明记左子树为1,右子树为0,哈夫曼树将分词文本关键词中的所有字利用二进制编码的形式进行表征,得到词向量。
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。