当前位置: 首页 > 专利查询>暨南大学专利>正文

一种面向特定目标的社交媒体推文情感分析方法技术

技术编号:35728290 阅读:12 留言:0更新日期:2022-11-26 18:27
本发明专利技术公开了一种面向特定目标的社交媒体推文情感分析方法,包括:对社交媒体推文数据进行预处理,得到目标文本和特定目标;将目标文本经过嵌入层,得到目标文本词向量;将特定目标经过嵌入层,得到特定目标词向量;将目标文本词向量经过自注意力结构,得到自注意力结果;将自注意力结果与特定目标词向量结合并经过跨越注意力结构,得到跨越注意力结果;将跨越注意力结果进行拼接,得到注意力表示矩阵;将注意力表示矩阵依次经过池化层、全连接层和softmax层,得到特定目标的情感倾向结果。本发明专利技术基于Transformer结构中的注意力机制,融合局部注意力机制和含有方位信息的注意力机制,提高针对特定目标情感分析的准确性。提高针对特定目标情感分析的准确性。提高针对特定目标情感分析的准确性。

【技术实现步骤摘要】
一种面向特定目标的社交媒体推文情感分析方法


[0001]本专利技术涉及深度学习和自然语言处理领域,具体涉及一种面向特定目标的社交媒体推文情感分析方法。

技术介绍

[0002]目前,在互联网高速发展的年代,在社交媒体上每天都会产生海量的推文文本数据。这些推文文本数据中的单个文本数据所含的信息量也越来越多,即每句话中会对多个实体有不同的情感,针对特定目标的情感分析在社交媒体舆情分析起着重要的作用。比如,“虽然今天天气不好,但是西湖的风景还是很好”中,对“天气”和“西湖”的情感信息不同,这种情况下,对整个句子的传统情感分析方法便不再适用。
[0003]除此之外,传统针对特定目标的情感分析方法泛化性不强,即针对不同的文本数据类型效果不同。过去基于特征工程和传统机器学习的方法,需要花费大量时间在数据处理,并且这类方法速度较慢,泛化能力也较差。随着深度学习的发展,基于循环神经网络(RNN)的方法也引入到该领域,RNN可以获取文本里的隐藏状态和位置信息,对于特定目标的情感分析有很大帮助,然而RNN的结构特点注定了该模型的运行速度慢,且不能获取远距离的语义信息。近年来基于Transformer的结构在自然语言处理领域获得巨大成功,也有一些研究已将Transformer应用到该任务领域,但这些模型忽视了特定目标局部语义和方位信息的重要性。
[0004]因此,需要提供一种面向特定目标的社交媒体推文情感分析方法来提高特定目标情感分析的准确度和提高舆情分析效果。

技术实现思路

[0005]针对所述缺陷,本专利技术实施例公开了一种面向特定目标的社交媒体推文情感分析方法,其基于Transformer结构中的注意力机制,融合局部注意力机制和含有方位信息的注意力机制,提高针对特定目标情感分析的准确性;同时在数据预处理中针对社交媒体特定领域建立词典的方法,使其更适合针对社交媒体推文的情感分析,并且使用一种通用的构建词典的方法,使其可以在任何领域通过调整词典来提升模型的泛化能力。
[0006]本专利技术实施例第一方面公开了面向特定目标的社交媒体推文情感分析方法,包括:对社交媒体推文数据进行预处理,得到目标文本和特定目标;将所述目标文本经过嵌入层,得到目标文本词向量;将所述特定目标经过嵌入层,得到特定目标词向量;将所述目标文本词向量经过自注意力结构,得到自注意力结果;将所述自注意力结果与所述特定目标词向量结合并经过跨越注意力结构,得到跨越注意力结果;将所述跨越注意力结果进行拼接,得到注意力表示矩阵;
将所述注意力表示矩阵依次经过池化层、全连接层和softmax层,得到特定目标的情感倾向结果。
[0007]作为一种可选的实施方式,在本专利技术实施例第一方面中,所述对社交媒体推文数据进行预处理,包括:对所述社交媒体推文数据进行清洗,删除所述社交媒体推文数据中符号、乱码字符和重复数据信息,得到目标文本;对所述目标文本进行分词处理,得到多个文本词序列;将所述文本词序列转化成文本向量,得到所述目标文本词向量。
[0008]作为一种可选的实施方式,在本专利技术实施例第一方面中,所述对社交媒体推文数据进行预处理之前,还包括:构建相关词典,所述相关词典包括目标关键词典、目标情感词典和分词词典;构建目标关键词典,包括:选取包含所述目标文本的语料库,使用现有分词库对所述语料库进行分词和词性标注,选择所需词性;对所述目标文本中的目标词进行重要性统计,将重要性超过预设值的目标词输入所述目标关键词典,建立停用词表并删除无效词语;构建目标情感词典,包括:将现有情感词典与手动构建的情感词典进行组合,得到目标情感词典;获取所述目标情感词典中每个情感词的情感值;构建分词词典,包括:将所述目标关键词典、所述目标情感词典和现有分词库结合,得到分词词典;将所述分词词典的分词词语进行编码,得到分词词语向量。
[0009]作为一种可选的实施方式,在本专利技术实施例第一方面中,所述将所述注意力表示矩阵依次经过池化层、全连接层和softmax层,得到特定目标的情感倾向之前,包括:构建目标文本的BERT预训练模型,将所述目标文本进行降维,提取含有语义信息的向量表示,得到目标文本中每个词语对应的唯一向量;将目标文本情感信息编码融入所述目标情感词典中得到目标文本词向量;对于不在情感词典中的词语,取情感信息编码的平均值作为目标文本词向量。
[0010]作为一种可选的实施方式,在本专利技术实施例第一方面中,所述将所述目标文本词向量经过自注意力结构,得到自注意力结果,包括:将所述目标文本词向量经过局部自注意力结构,得到局部自注意力结果;将所述目标文本词向量经过含有方位信息的自注意力结构,得到方位自注意力结果;将所述局部自注意力结果和所述方位自注意力结果结合,得到自注意力结果。
[0011]作为一种可选的实施方式,在本专利技术实施例第一方面中,将所述目标文本词向量经过局部自注意力结构,得到局部自注意力结果,包括:使用局部注意力结构获取每个词语与其附近词语的交互信息,局部自注意力结构的表示公式为:
其中,,;局部自注意力矩阵通过A矩阵来限制键矩阵和值矩阵的大小,得到一个词语的局部注意力表示;A矩阵的表示形式为:,其中,表示当前词语的位置;表示“局部”的大小;表示特定目标的位置;对所述社交媒体推文数据中的每个词语重复操作,A矩阵中的j也随之改变,拼接所有结果得到单头的局部自注意力结果;使用多头的局部注意力机制:重复局部自注意力结构至少三次,选用不同的参数矩阵、和得到多个不同的局部注意力表示;将所有局部注意力表示进行拼接,并经过参数矩阵投影得到局部注意力结果。
[0012]作为一种可选的实施方式,在本专利技术实施例第一方面中,所述将所述目标文本词向量经过含有方位信息的自注意力结构,得到方位自注意力结果,包括:通过双向长短期记忆网络(Bi

LSTM)使所述目标文本词向量包含方位信息;正向长短期记忆网络包括输入门、遗忘门、输出门结构,将所述目标文本词向量经过正向LSTM得到词向量;将所述目标文本词向量经过反向LSTM处理后的得到词向量,并将所述词向量和所述词向量整合,整合函数为:,是相加或者拼接成一个向量操作,则表示含有方位信息的文本向量;对所述文本向量进行自注意力操作,操作函数为:,将文本向量分别乘三个参数矩阵得到查询矩阵Q、键矩阵K和值矩阵V;得到单头的自注意力结果;使用不同的查询、键和值矩阵得到多个自注意力结果,将自注意力结果进行拼接和参数矩阵降维投影,得到方位自注意力结果。
[0013]作为一种可选的实施方式,在本专利技术实施例第一方面中,所述将所述自注意力结果与所述特定目标词向量结合并经过跨越注意力结构,得到跨越注意力结果,包括:使用所述特定目标词向量分别与局部注意力结果和方位自注意力结果进行跨越注意力运算:注意力运算:表示特定目标词向量经过参数化矩阵后的结果,、分别表示将所述局部注意力结果经过两个参数化矩阵的结果;使用不同的参数化矩阵,得到多头的跨越注意力,拼接结果后使用一个参数化矩阵将该结果降维,得到特定目标向量与局部注意力结果的跨越注意力结果;将、修本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向特定目标的社交媒体推文情感分析方法,其特征在于,包括:对社交媒体推文数据进行预处理,得到目标文本和特定目标;将所述目标文本经过嵌入层,得到目标文本词向量;将所述特定目标经过嵌入层,得到特定目标词向量;将所述目标文本词向量经过自注意力结构,得到自注意力结果;将所述自注意力结果与所述特定目标词向量结合并经过跨越注意力结构,得到跨越注意力结果;将所述跨越注意力结果进行拼接,得到注意力表示矩阵;将所述注意力表示矩阵依次经过池化层、全连接层和softmax层,得到特定目标的情感倾向结果。2.如权利要求1所述的面向特定目标的社交媒体推文情感分析方法,其特征在于,所述对社交媒体推文数据进行预处理,包括:对所述社交媒体推文数据进行清洗,删除所述社交媒体推文数据中符号、乱码字符和重复数据信息,得到目标文本;对所述目标文本进行分词处理,得到多个文本词序列;将所述文本词序列转化成文本向量,得到所述目标文本词向量。3.如权利要求1所述的面向特定目标的社交媒体推文情感分析方法,其特征在于,所述对社交媒体推文数据进行预处理之前,还包括:构建相关词典,所述相关词典包括目标关键词典、目标情感词典和分词词典;构建目标关键词典,包括:选取包含所述目标文本的语料库,使用现有分词库对所述语料库进行分词和词性标注,选择所需词性;对所述目标文本中的目标词进行重要性统计,将重要性超过预设值的目标词输入所述目标关键词典,建立停用词表并删除无效词语;构建目标情感词典,包括:将现有情感词典与手动构建的情感词典进行组合,得到目标情感词典;获取所述目标情感词典中每个情感词的情感值;构建分词词典,包括:将所述目标关键词典、所述目标情感词典和现有分词库结合,得到分词词典;将所述分词词典的分词词语进行编码,得到分词词语向量。4.如权利要求3所述的面向特定目标的社交媒体推文情感分析方法,其特征在于,所述将所述注意力表示矩阵依次经过池化层、全连接层和softmax层,得到特定目标的情感倾向之前,包括:构建目标文本的BERT预训练模型,将所述目标文本进行降维,提取含有语义信息的向量表示,得到目标文本中每个词语对应的唯一向量;将目标文本情感信息编码融入所述目标情感词典中得到目标文本词向量;对于不在情感词典中的词语,取情感信息编码的平均值作为目标文本词向量。5.如权利要求1所述的面向特定目标的社交媒体推文情感分析方法,其特征在于,所述将所述目标文本词向量经过自注意力结构,得到自注意力结果,包括:
将所述目标文本词向量经过局部自注意力结构,得到局部自注意力结果;将所述目标文本词向量经过含有方位信息的自注意力结构,得到方位自注意力结果;将所述局部自注意力结果和所述方位自注意力结果结合,得到自注意力结果。6.如权利要求5所述的面向特定目标的社交媒体推文情感分析方法,其特征在于,将所述目标文本词向量经过局部自注意力结构,得到局部自注意力结果,包括:使用局部注意力结构获取每个词语与其附近词语的交互信息,局部自注意力结构的表示公式为:,其中,,;局部自注意力矩阵通过A...

【专利技术属性】
技术研发人员:黄斐然杨紫宏支庭荣
申请(专利权)人:暨南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1