一种融合字形的多视角情感分析方法技术

技术编号：31986599 阅读：14 留言：0更新日期：2022-01-20 02:08

本发明专利技术公开了一种融合字形的多视角情感分析方法，将每个汉字的字符向量、字形向量与拼音向量相互拼接，再经过一个全连接层完成对应汉字的融合嵌入，得到融合向量，将每个汉字的融合向量输入双向LSTM情感分类模型，并引入Attention机制捕捉输入文本文字进行情感分析；在传统情感分类的基础上，充分考虑的中文字符中字形、读音的特点，将中文这种象形文字的字形、读音融合进情感分析模型中，使得情感分析模型对于中文文本的处理准确度得到较大提高，使其能够显著提高预训练语言模型对于中文文本的处理效果。文文本的处理效果。文文本的处理效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种融合字形的多视角情感分析方法

[0001]本专利技术属于文本情感分析
，具体涉及一种融合字形的多视角情感分析方法。

技术介绍

[0002]文本情感分析是一种利用自然语言处理和文本挖掘技术来对目标具有情感色彩的主观性文本进行抽取、处理与分析的技术。当下对于文本的情感分析涉及到信息抽取、文本挖掘、自然语言处理等方向，因为它对于市场营销、金融、政治学、通讯、医疗科学等行业具有十分重要的作用，因此近来成为了各界关注以及研究的重点之一；情感分析任务根据其分析的细粒度可以分为篇章级、句子级、词语级；文本情感分析的一般过程包括爬取原始文本、文本预处理、构建语料库和情感词库以及情感分析结果。
[0003]文本情感分析作为自然语言处理的一个研究方向，使用预训练语言模型能够显著降低训练代价，实现更快的收敛速度，并且能够有效提高模型性能。近年来的BERT模型就是预训练模型的一个代表，它对于NLP领域具有里程碑式的意义，然而包含BERT模型等预训练模型最初都是为英文文本设计，而对于中文来说，汉语是一种象形语言，汉字的字形、拼音等往往包含很重要的语义信息，比如“垃圾”、“坏”、“垮”等字都有土字旁，且他们都表示负面情绪；“好”字读“h
ǎ
o”的时候表示优点多的，使人满意的；而读“h
à
o”的时候则表示喜爱。因此，原始的预训练语言模型对于中文的情感分析任务还不能达到最好的效果。

技术实现思路

[0004]本专利技术的目的在于提供一种融合字形的多视角情感分析方法，以解决上述背景

【技术保护点】

【技术特征摘要】
1.一种融合字形的多视角情感分析方法，其特征在于，包括如下步骤：1）利用网络爬虫爬取情感语料集数据A，进行数据清洗后使用LTPtoolkit识别用于全词掩蔽的中文单词的边界，得到情感语料集数据B；2）对于情感语料集数据B使用CBOW模型进行字符向量化实现字符嵌入，得到字符向量V1
i
，i表示语句中字符的顺序号；3）对于情感语料集数据B使用黑体、宋体、楷体、舒体四种字体进行字形嵌入，将这四种字体的文本进行汉字字体图像向量化，并将图像向量展开，展开后使用一个全连接层实现汉字的字形嵌入得到字形向量V2
i
；4）对于情感语料集数据B使用pypinyin开源工具包将每个文本中所有汉字的拼音转化为拼音序列，将音调也包含其中，然后再将拼音序列输入到宽度为2的CNN模型中，使用混合池化实现汉字的拼音嵌入得到拼音向量V3
i
；5）将每个汉字的字符向量V1
i
、字形向量V2
i
与拼音向量V3
i
相互拼接，再经过一个全连接层完成对应汉字的融合嵌入，得到融合向量V
i
；6）将每个汉字的融合向量V
i
输入双向LSTM情感分类模型，其中引入Attention机制捕捉输入文本文字；7）将情感分类模型结果保存在语料集数据C中。2.根据权利要求1所述的一种融合字形的多视角情感分析方法，其特征在于：所述步骤2）中得到字符向量V1
i
的具体步骤为：先将文本中的每个词映射成V维的词向量，然后使用每个词向量...

【专利技术属性】
技术研发人员：杜振东，
申请(专利权)人：南京云问网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人