情感分析方法、装置、电子设备及存储介质制造方法及图纸

技术编号:24252011 阅读:42 留言:0更新日期:2020-05-22 23:49
本发明专利技术公开了一种情感分析方法,涉及自然语言处理领域,该方法包括以下步骤:对获取的文本语料处理得到分句情感极性和候选词典;基于获取的种子情感词典、部首集、音位集和文本语料及其分句情感极性,训练CBOW扩展模型得到向量矩阵,该向量矩阵包括词向量矩阵、部首向量矩阵和音位向量矩阵,该向量矩阵包含所属领域的语义情感信息、部首和音位情感信息;基于向量矩阵和种子情感词典训练得到情感分类器,根据候选词典和情感分类器得到文本语料所属领域的情感词典,对该领域文本进行情感分析。该方法能够有效识别情感词语,适用任意领域的情感分析,可扩展性好,泛化能力强。本发明专利技术还公开了一种情感分析装置、电子设备和计算机存储介质。

Emotion analysis methods, devices, electronic equipment and storage media

【技术实现步骤摘要】
情感分析方法、装置、电子设备及存储介质
本专利技术涉及自然语言处理领域,尤其涉及一种情感分析方法、装置、电子设备及存储介质。
技术介绍
情感分析是自然语言处理领域的重要分支。近些年,由于互联网的普及与发展,情感分析被用到越来越多的领域之中。一般情况下,主观性文本中的情感词是表现该文本情感的核心,情感词典构建作为情感分析领域的一个重要的基础性任务,能够为情感分析任务提供巨大的帮助。构建特定领域的中文情感词典能够有效提升特定领域情感分析的效果。情感分析通常利用词向量这一强而有效的特征表示方法来构建情感词典,利用现有的词向量学习方法往往可以获得一份通用性强的词向量,进而获得通用性的情感词典。但是现有方法往往忽略了词语所在上下文的语义情感信息以及词语本身的部首和音位等内在情感信息,并且对于不同领域的情感分类,通用性的情感词典并不能很好地反应所属领域词语的情感特征,可扩展性差,泛化能力不强。
技术实现思路
为了克服现有技术的不足,本专利技术的目的之一在于提供一种泛化能力强的情感分析方法,其根据文本语料、分句情感极性、种子情感词典、部首集和音位集训练CBOW扩展模型,获得包含上下文语义情感信息、词语部首和音位信息的向量矩阵,基于向量矩阵和种子情感词典训练得到情感分类器,进一步得到文本语料所属领域的情感词典,从而实现对特定领域文本的情感分析。本专利技术的目的之一采用以下技术方案实现:获取文本语料,基于所述文本语料得到分句情感极性和候选词典;获取种子情感词典、部首集和音位集,基于所述文本语料、所述分句情感极性、所述种子情感词典、所述部首集和所述音位集训练CBOW扩展模型,通过训练完成的CBOW扩展模型得到向量矩阵,所述向量矩阵包括词向量矩阵、部首向量矩阵和音位向量矩阵;基于所述向量矩阵和所述种子情感词典训练前馈神经网络,得到情感分类器,根据所述候选词典和所述情感分类器,得到所述文本语料所属领域的情感词典,基于所述情感词典对所属领域的文本进行情感分析。进一步地,基于所述文本语料得到分句情感极性和候选词典,包括:对所述文本语料进行清洗并分句,对每个分句标注分句情感极性;对所述文本语料进行分词,得到有效分词,统计所述有效分词出现的词频,将词频大于预设的词频阈值的有效分词作为候选词,所述候选词构成候选词典。进一步地,基于所述文本语料、所述分句情感极性、所述种子情感词典、所述部首集和所述音位集训练CBOW扩展模型,通过训练完成的CBOW扩展模型得到向量矩阵,包括:将所述文本语料分词得到目标词,M是所述目标词的数量,目标词记为xi(i=1,...,M),目标词xi的向量wi由目标词xi的词向量部首向量和音位向量连接得到,由目标词xi(i=1,...,M)的向量wi构成向量矩阵,向量矩阵记为W,W=[w1,...,wM]T;随机初始化向量矩阵W,基于CBOW扩展模型,应用上下文目标函数,计算基于上下文得到目标词xi的向量wi的对数概率f1;其中,D是目标词xi在所述文本语料中出现的次数,分别为目标词xi预设窗口的上下文词语、上下文字符、子字符和目标词xi的部首,是基于上下文词语得到向量wi的概率,是基于上下文字符得到向量wi的概率,是基于子字符得到向量wi的概率,是基于部首得到向量wi的概率;应用分句极性目标函数,计算目标词xi所在分句Sei的分句情感极性对数概率f2;其中,Sei是目标词xi所在的分句,si是分句Sei中包含的词语对应的词向量平均值,S是分句Sei在所述文本语料中出现的次数,spoli是分句Sei对应的分句情感极性;在所述种子情感词典中查找所述目标词xi进行标记,统计标记次数C,将标记对应的情感极性作为目标词xi的标记情感极性poli,应用词极性目标函数,计算目标词xi的词情感极性对数概率f3;其中,分别是目标词xi的词向量、部首向量和音位向量,C是目标词xi对应的标记次数,poli是目标词xi的标记情感极性;应用整体目标函数,计算所述目标词xi(i=1,...,M)语义和情感极性的整体概率f;f(wi)=f1(wi)+f2(Sei)+f3(wi);其中,f1(wi)是基于上下文得到目标词xi的向量wi的对数概率,f2(Sei)是目标词xi所在分句Sei的分句情感极性对数概率,f3(wi)是目标词xi的词情感极性对数概率;根据整体目标函数f(wi)和随机梯度上升法训练CBOW扩展模型,基于训练完成的CBOW扩展模型得到所有目标词xi(i=1,...,M)的向量wi,并构成向量矩阵W。进一步地,基于所述向量矩阵和所述种子情感词典训练前馈神经网络,得到情感分类器,包括:在所述向量矩阵中查找所述种子情感词典对应的种子向量矩阵;根据所述种子向量矩阵和所述种子向量矩阵对应的情感极性训练前馈神经网络,将训练完成的前馈神经网络作为情感分类器。进一步地,所述种子向量矩阵包括种子词向量矩阵、种子部首向量矩阵和种子音位向量矩阵。进一步地,根据所述候选词典和所述情感分类器,得到所述文本语料所属领域的情感词典,包括:在所述向量矩阵中查找所述候选词典对应的候选向量矩阵;将所述候选向量矩阵输入所述情感分类器,生成所述候选词典对应的情感词典。进一步地,基于所述情感词典对所属领域的文本进行情感分析,包括:对所述文本进行分句和分词,得到情感词语和所述情感词语所在的分句;在所述情感词典中查找所述情感词语的情感极性,根据所述情感极性和所述分句中的否定词和程度词,得到所述文本的情感分值;根据所述情感分值和预设的情感阈值,得到所述文本的情感极性。本专利技术的目的之二在于提供一种情感分析装置,其根据文本语料、分句情感极性、种子情感词典、部首集和音位集训练CBOW扩展模型,获得包含上下文语义情感信息、词语部首和音位信息的向量矩阵,基于向量矩阵和种子情感词典训练得到情感分类器,进一步得到文本语料所属领域的情感词典,从而实现对特定领域文本的情感分析。本专利技术的目的之二采用以下技术方案实现:一种情感分析装置,其包括:语料采集模块,用于获取文本语料,基于所述文本语料得到分句情感极性和候选词典;向量训练模块,用于获取种子情感词典、部首集和音位集,基于所述文本语料、所述分句情感极性、所述种子情感词典、所述部首集和所述音位集训练CBOW扩展模型,通过训练完成的CBOW扩展模型得到向量矩阵,所述向量矩阵包括词向量矩阵、部首向量矩阵和音位向量矩阵;情感分析模块,用于基于所述向量矩阵和所述种子情感词典训练前馈神经网络,得到情感分类器,根据所述候选词典和所述情感分类器,得到所述文本语料所属领域的情感词典,基于所述情感词典对所属领域的文本进行情感分析。本专利技术的目的之三在于提供执行专利技术目的之一的电子设备,其包括处理器、存储介质以及计算机程序,所述计算机程序存储于存储介质中,所述计算机程序被处理器执行时本专利技术本文档来自技高网...

【技术保护点】
1.一种情感分析方法,其特征在于:包括以下步骤:/n获取文本语料,基于所述文本语料得到分句情感极性和候选词典;/n获取种子情感词典、部首集和音位集,基于所述文本语料、所述分句情感极性、所述种子情感词典、所述部首集和所述音位集训练CBOW扩展模型,通过训练完成的CBOW扩展模型得到向量矩阵,所述向量矩阵包括词向量矩阵、部首向量矩阵和音位向量矩阵;/n基于所述向量矩阵和所述种子情感词典训练前馈神经网络,得到情感分类器,根据所述候选词典和所述情感分类器,得到所述文本语料所属领域的情感词典,基于所述情感词典对所属领域的文本进行情感分析。/n

【技术特征摘要】
1.一种情感分析方法,其特征在于:包括以下步骤:
获取文本语料,基于所述文本语料得到分句情感极性和候选词典;
获取种子情感词典、部首集和音位集,基于所述文本语料、所述分句情感极性、所述种子情感词典、所述部首集和所述音位集训练CBOW扩展模型,通过训练完成的CBOW扩展模型得到向量矩阵,所述向量矩阵包括词向量矩阵、部首向量矩阵和音位向量矩阵;
基于所述向量矩阵和所述种子情感词典训练前馈神经网络,得到情感分类器,根据所述候选词典和所述情感分类器,得到所述文本语料所属领域的情感词典,基于所述情感词典对所属领域的文本进行情感分析。


2.如权利要求1所述的一种情感分析方法,其特征在于:基于所述文本语料得到分句情感极性和候选词典,包括:
对所述文本语料进行清洗并分句,对每个分句标注分句情感极性;
对所述文本语料进行分词,得到有效分词,统计所述有效分词出现的词频,将词频大于预设的词频阈值的有效分词作为候选词,所述候选词构成候选词典。


3.如权利要求1所述的一种情感分析方法,其特征在于:基于所述文本语料、所述分句情感极性、所述种子情感词典、所述部首集和所述音位集训练CBOW扩展模型,通过训练完成的CBOW扩展模型得到向量矩阵,包括:
将所述文本语料分词得到目标词,M是所述目标词的数量,目标词记为xi(i=1,...,M),目标词xi的向量wi由目标词xi的词向量部首向量和音位向量连接得到,由目标词xi(i=1,...,M)的向量wi构成向量矩阵,向量矩阵记为W,W=[w1,...,wM]T;
随机初始化向量矩阵W,基于CBOW扩展模型,应用上下文目标函数,计算基于上下文得到目标词xi的向量wi的对数概率f1;



其中,D是目标词xi在所述文本语料中出现的次数,分别为目标词xi预设窗口的上下文词语、上下文字符、子字符和目标词xi的部首,是基于上下文词语得到向量wi的概率,是基于上下文字符得到向量wi的概率,是基于子字符得到向量wi的概率,是基于部首得到向量wi的概率;
应用分句极性目标函数,计算目标词xi所在分句Sei的分句情感极性对数概率f2;



其中,Sei是目标词xi所在的分句,si是分句Sei中包含的词语对应的词向量平均值,S是分句Sei在所述文本语料中出现的次数,spoli是分句Sei对应的分句情感极性;
在所述种子情感词典中查找所述目标词xi进行标记,统计标记次数C,将标记对应的情感极性作为目标词xi的标记情感极性poli,应用词极性目标函数,计算目标词xi的词情感极性对数概率f3;



其中,分别是目标词xi的词向量、部首向量和音位向量,C是目标词xi对应的标记次数,poli是目标词xi的标记情感极性;
应用整体目标函数,计算所述目标词xi(i=1,...,M)语义和情感极性的整体概率f;
f(wi)=f...

【专利技术属性】
技术研发人员:安毫亿王伟凯钱艳朱鹏飞
申请(专利权)人:杭州远传新业科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1