一种融合字形的多视角情感分析方法技术

技术编号:31986599 阅读:14 留言:0更新日期:2022-01-20 02:08
本发明专利技术公开了一种融合字形的多视角情感分析方法,将每个汉字的字符向量、字形向量与拼音向量相互拼接,再经过一个全连接层完成对应汉字的融合嵌入,得到融合向量,将每个汉字的融合向量输入双向LSTM情感分类模型,并引入Attention机制捕捉输入文本文字进行情感分析;在传统情感分类的基础上,充分考虑的中文字符中字形、读音的特点,将中文这种象形文字的字形、读音融合进情感分析模型中,使得情感分析模型对于中文文本的处理准确度得到较大提高,使其能够显著提高预训练语言模型对于中文文本的处理效果。文文本的处理效果。文文本的处理效果。

【技术实现步骤摘要】
一种融合字形的多视角情感分析方法


[0001]本专利技术属于文本情感分析
,具体涉及一种融合字形的多视角情感分析方法。

技术介绍

[0002]文本情感分析是一种利用自然语言处理和文本挖掘技术来对目标具有情感色彩的主观性文本进行抽取、处理与分析的技术。当下对于文本的情感分析涉及到信息抽取、文本挖掘、自然语言处理等方向,因为它对于市场营销、金融、政治学、通讯、医疗科学等行业具有十分重要的作用,因此近来成为了各界关注以及研究的重点之一;情感分析任务根据其分析的细粒度可以分为篇章级、句子级、词语级;文本情感分析的一般过程包括爬取原始文本、文本预处理、构建语料库和情感词库以及情感分析结果。
[0003]文本情感分析作为自然语言处理的一个研究方向,使用预训练语言模型能够显著降低训练代价,实现更快的收敛速度,并且能够有效提高模型性能。近年来的BERT模型就是预训练模型的一个代表,它对于NLP领域具有里程碑式的意义,然而包含BERT模型等预训练模型最初都是为英文文本设计,而对于中文来说,汉语是一种象形语言,汉字的字形、拼音等往往包含很重要的语义信息,比如“垃圾”、“坏”、“垮”等字都有土字旁,且他们都表示负面情绪;“好”字读“h
ǎ
o”的时候表示优点多的,使人满意的;而读“h
à
o”的时候则表示喜爱。因此,原始的预训练语言模型对于中文的情感分析任务还不能达到最好的效果。

技术实现思路

[0004]本专利技术的目的在于提供一种融合字形的多视角情感分析方法,以解决上述背景技术中提出的问题。
[0005]为实现上述目的,本专利技术提供如下技术方案:一种融合字形的多视角情感分析方法,包括如下步骤:1)利用网络爬虫爬取情感语料集数据A,进行数据清洗后使用LTPtoolkit识别用于全词掩蔽的中文单词的边界,得到情感语料集数据B;2)对于情感语料集数据B使用CBOW模型进行字符向量化实现字符嵌入,得到字符向量V1
i
,i表示语句中字符的顺序号;3)对于情感语料集数据B使用黑体、宋体、楷体、舒体四种字体进行字形嵌入,将这四种字体的文本进行汉字字体图像向量化,每个图像大小设置为32
×
32,将32
×
32
×
4向量展开为4096大小的向量,展开后使用一个全连接层实现汉字的字形嵌入得到字形向量V2
i
;4)对于情感语料集数据B使用pypinyin开源工具包将每个文本中所有汉字的拼音转化为拼音序列,将音调也包含其中,然后再将拼音序列输入到宽度为2的CNN模型中,使用混合池化实现汉字的拼音嵌入得到拼音向量V3
i
;5)将每个汉字的字符向量V1
i
、字形向量V2
i
与拼音向量V3
i
相互拼接,再经过一个全连接层完成对应汉字的融合嵌入,得到融合向量V
i

6)将每个汉字的融合向量V
i
输入双向LSTM情感分类模型,其中引入Attention机制捕捉输入文本文字;7)将情感分类模型结果保存在语料集数据C中。
[0006]优选的,所述步骤2)中得到字符向量V1
i
的具体步骤为:先将文本中的每个词映射成V维的词向量,然后使用每个词向量与参数矩阵C相乘,参数矩阵C为V
×
N维矩阵,得到N维矩阵,再将所有词对应的N维矩阵的数据相加取均值,计算出N维的隐藏层Hidden,最后将隐藏层与N
×
V维参数矩阵相乘,计算得到待预测的中心词对应的V维词向量,用预测出的中心词与真实的中心词作比较来计算误差函数,通过梯度下降法调整两个参数矩阵,中心词的预测完成,然后提取第二个隐藏层参数作为词嵌入结果,通过CBOW模型,将输入的原始中文文本的字符转换为向量,实现字符嵌入。
[0007]优选的,所述步骤4)中使用四个音调符号中的一个表示声调,声调使用特殊符号进行表示,特殊符号包括1、2、3、4;且拼音序列的长度固定为8,当拼音序列的实际长度未达到8时,剩余的位置使用特殊字符
“‑”
来进行填充。
[0008]优选的,所述步骤6)中融合向量V
i
输入双向LSTM情感分类模型的具体步骤为:将融合向量V
i
输入双向LSTM模型的特征学习层,然后使用Attention机制调整权重,最后通过SoftMax层进行情感分类,得到情感分类结果。
[0009]本专利技术的技术效果和优点:该融合字形的多视角情感分析方法,在传统情感分类的基础上,充分考虑的中文字符中字形、读音的特点,将中文这种象形文字的字形、读音融合进情感分析模型中,使得情感分析模型对于中文文本的处理准确度得到较大提高,使其能够显著提高预训练语言模型对于中文文本的处理效果。
附图说明
[0010]图1为本专利技术的结构示意图;图2为本专利技术的CBOW模型示意图;图3为本专利技术的字型嵌入模型示意图;图4为本专利技术的拼音字符序列模型示意图;图5为本专利技术的LSTM模型示意图。
具体实施方式
[0011]下面结合附图对本专利技术的具体实施方式作进一步说明。在此需要说明的是,对于这些实施方式的说明用于帮助理解本专利技术,但并不构成对本专利技术的限定。此外,下面所描述的本专利技术各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。
[0012]本专利技术提供了如图1所示的一种融合字形的多视角情感分析方法,包括如下步骤:步骤101:利用网络爬虫爬取情感语料集数据A,进行数据清洗进行数据清洗以删除重复信息、空白信息和无意义数据,并去除包含过多英文文本数据,然后使用LTPtoolkit识别用于全词掩蔽的中文单词的边界,得到情感语料集数据B,其中无意义数据指获取得到的表格、长段的时间表达等不包含语义信息的数据;步骤102:对于情感语料集数据B使用CBOW模型进行字符向量化实现字符嵌入,得到字符向量V1
i
,i表示语句中字符的顺序号,即语句中按顺序排列各字符的序号,i表示任
意字符的序号;其中CBOW模型,即连续词袋模型,目的是给定中心词ω
i
的一定邻域半径(如半径为2)内的单词ω
i
‑2、ω
i
‑1、ω
i+1
、ω
i+2
,预测输出单词为该中心词ω
i
的概率,如下图2所示;将文本中的每个词映射成V维的词向量,然后使用每个词向量与参数矩阵C相乘,参数矩阵C为V
×
N维矩阵,得到N维矩阵,再将所有词对应的N维矩阵的数据相加取均值,计算出N维的隐藏层Hidden,最后将隐藏层与N
×
V维参数矩阵相乘,计算得到待预测的中心词ω
i
对应的V维词向量,用预测出的中心词ω
i
与真实的中心词ω
i
作比较来计算误差函数,通过梯度下降法调整两个参数矩阵,这样,中心词ω...

【技术保护点】

【技术特征摘要】
1.一种融合字形的多视角情感分析方法,其特征在于,包括如下步骤:1)利用网络爬虫爬取情感语料集数据A,进行数据清洗后使用LTPtoolkit识别用于全词掩蔽的中文单词的边界,得到情感语料集数据B;2)对于情感语料集数据B使用CBOW模型进行字符向量化实现字符嵌入,得到字符向量V1
i
,i表示语句中字符的顺序号;3)对于情感语料集数据B使用黑体、宋体、楷体、舒体四种字体进行字形嵌入,将这四种字体的文本进行汉字字体图像向量化,并将图像向量展开,展开后使用一个全连接层实现汉字的字形嵌入得到字形向量V2
i
;4)对于情感语料集数据B使用pypinyin开源工具包将每个文本中所有汉字的拼音转化为拼音序列,将音调也包含其中,然后再将拼音序列输入到宽度为2的CNN模型中,使用混合池化实现汉字的拼音嵌入得到拼音向量V3
i
;5)将每个汉字的字符向量V1
i
、字形向量V2
i
与拼音向量V3
i
相互拼接,再经过一个全连接层完成对应汉字的融合嵌入,得到融合向量V
i
;6)将每个汉字的融合向量V
i
输入双向LSTM情感分类模型,其中引入Attention机制捕捉输入文本文字;7)将情感分类模型结果保存在语料集数据C中。2.根据权利要求1所述的一种融合字形的多视角情感分析方法,其特征在于:所述步骤2)中得到字符向量V1
i
的具体步骤为:先将文本中的每个词映射成V维的词向量,然后使用每个词向量...

【专利技术属性】
技术研发人员:杜振东
申请(专利权)人:南京云问网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1