当前位置: 首页 > 专利查询>西华大学专利>正文

一种基于深度学习和辅助特征的短文本立场检测方法技术

技术编号:35146519 阅读:16 留言:0更新日期:2022-10-05 10:24
本发明专利技术提供一种基于深度学习和辅助特征的短文本立场检测方法,包括步骤1:对从互联网当中所获取到的用户所发表的短文本数据进行预处理;步骤2:辅助特征提取层主要使用SVM开发基于统计机器学习的方法;步骤3:词嵌入;步骤4:词编码层;步骤5:多头注意力层;步骤6:辅助特征连接层;步骤7:softmax层在特征连接融合之后得到新的句子表示M

【技术实现步骤摘要】
一种基于深度学习和辅助特征的短文本立场检测方法


[0001]本专利技术属于信息分析
,具体涉及一种基于深度学习和辅助特征的短文本立场检测方法。

技术介绍

[0002]随着互联网的蓬勃发展,社交媒体已成为时事新闻的重要来源,使得社交媒体在互联网上的分享和发表意见空前增长。因此,产生了大量的社交媒体相关数据,为社交媒体中对姿态检测感兴趣的研究人员提供了巨大的语料库和应用领域。立场检测被视为情感分析的一个子分支,用于确定作者对目标任务的支持、反对两种。立场检测对于现实生活中的许多应用领域都有研究价值。
[0003]因此,分析社交网络中的短文本立场对维护社会稳定和建立正确的舆论起着导向作用。并且随着深度学习的兴起,采用深度学习的特点进行短文本立场检测也成为了一种趋势。

技术实现思路

[0004]之前的立场检测研究可以大致分为基于机器学习和机遇深度学习两个方面。均是针对短文本的方法去处理所有信息,而很少有人对短文本之外的辅助信息进行特征提取。本专利技术针对以上问题,通过对社交网络中的数据集进行处理分析,并采用短文本外的辅助特征值进行精细化处理,通过Bi

GRU网络对短文本特征进行提取,并通过多头注意力机制分配给不同的权重,与外部所提出到的辅助特征向量融合进行分类,提出一种基于深度学习和辅助特征的短文本立场检测方法,并给出了该方法的详细实现流程。
[0005]本专利技术目的在于提供一种基于深度学习和辅助特征的短文本立场检测方法,能够在大规模社交网络中识别短文本的立场类别。该方法总体流程如图1所示,具体包括以下步骤:
[0006]步骤1:对从互联网当中所获取到的用户所发表的短文本数据进行预处理,具体操作如下: 1)移除掉用户的ID信息;2)移除掉短文本当中的英语字符和数字信息;3)移除短文本当中的标点符号和特殊字符,比如:“$”,“&”,“@”和“#”等;4)移除掉短文本当中的停用词和虚词;5)使用结巴分词工具对已过滤掉无用信息的短文本进行分词处理。
[0007]步骤2:辅助特征提取层主要使用SVM开发基于统计机器学习的方法,方法中使用了以下手工提取的特征:
[0008](1)语义特征:短文本中的语义特征值可以帮助提升立场检测的性能。模型中主要使用 LIWC字典来获取语义信息。将短文本中的每个单词提取取出并在LIWC词典中查找,将每种类型的单词数设置为立场检测的语义特征,LIWC词典中包含有64种不同的词汇类别,主要被分为3类:
[0009]语言过程(Linguistic Processes,LP):分类为代词、冠词、动词、副词、连词、否定词、量词等的单词归入这一类。例如:我、他们、从不、成千上万等单词。
[0010]心理过程(Psychological Processes,PP):被标记为社会、情感、认知心理学过程的单词被归为这一类。
[0011]个人关注(Personal Concerns,PC):与工作、成就、休闲、家庭等相关的单词归入这一类。
[0012](2)情感特征:立场是用户表达对一个目标的态度和观点。因此,人们在对待一件事情的时候可能会带有一定的情感去评判它,本章主要考虑以下几个用于立场检测的情感相关特征:
[0013]肯定词/否定词:短文本中是否至少有一个词是肯定的,没有否定词,反之亦然。
[0014]肯定标点符号/否定标点符号:这个特征表示是否存在至少一个肯定词而没有否定词的句子,反之亦然。句子中的连续几个感叹号表示对句子的肯定,而问号表示疑问。
[0015](3)其他特征:语义和情感相关的特征不足以检测给定短文本中的立场,同时还提取了短文本中的其他特征:
[0016]转发次数和点赞数:转发次数和点赞数可以间接的知道其他用户对该用户发布的推文的认可度。
[0017]用户是否是公众人物:需要把公众人物视为一个特征向量。
[0018]步骤3:词嵌入。一个句子是由词组成的,但是在立场检测模型中,输入是用向量或者张量来表示的。为了使输入与本章提出的模型兼容,模型采用通过在维基百科上训练好的 Word2Vec模型进行文本向量化表示。模型中,将给定一个包含n个单词x
i
的短文本T作为输入,对于T中的每个词,模型首先查找嵌入矩阵其中v是固定大小的词汇表,d是词嵌入的大小。E是通过预训练的词嵌入向量化。每个单词x
i
都将被转换成一个向量表示w
i
。因此,短文本T是以下形式的单词序列:
[0019]T=(w1,w2,

,w
n
)
T
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0020]步骤4:词编码层。在该层中,模型采用Bi

GRU进行词编码,GRU是在LSTM的基础上改进而来。LSTM和GRU改进的地方是GRU对细胞状态中的门控单元进行改变,从LSTM中原来的三个门控单元改变为GRU中两个门控单元,分别为重置门(Reset Gate)和更新门(Update Gate)。同时,研究表明,GRU不仅具有LSTM的优点,而且结构更简单,参数更少,计算和训练速度加快。GRU的性能在很多方面都优于LSTM。因此,GRU是目前改进的LSTM变体中最简单、也是最流行的一种模型。GRU具体的步骤和计算公式如(2)

(5)所示:
[0021]r
t
=σ(W
r
[h
t
‑1,x
t
])
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0022]u
t
=σ(W
u
[h
t
‑1,x
t
])
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0023][0024][0025]其中,r
t
、u
t
分别代表着重置门和更新门,W
r
、W
u
、W表示GRU网络权重矩阵,σ、tanh 表示激活函数,符号表示Hadamard的乘积,h

t
和h
t
表示隐藏状态,h
t
‑1表示上一时间段的隐藏状态。
[0026]在使用词嵌入表示时,短文本中的每个词都是独立于其它词的,但是在GRU进行建模时存在一个问题:只能从前向后的顺序进行编码,无法编码从后向前的信息,这样不利于对特征进行综合建模。因此,模型MHA

BiGRU词编码层中,采用Bi

GRU进行建模,每个词都是
通过对短文本中两个方向(前向和后向)的上下文信息来实现的,这两个方向中的GRU处理信息的所采用的方法过程是一样的,只是处理这些信息时的方向不同。在Bi

GRU中,该模型采用表示网络从前向后获取文本特征信息的隐藏向量本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习和辅助特征的短文本立场检测方法,其特征在于,包括以下步骤:步骤1:对从互联网当中所获取到的用户所发表的短文本数据进行预处理;步骤2:辅助特征提取层使用SVM开发基于统计机器学习的方法,方法中使用了以下手工提取的特征:(1)语义特征;(2)情感特征:(3)其他特征:步骤3:词嵌入;模型采用通过在维基百科上训练好的Word2Vec模型进行文本向量化表示;模型中,将给定一个包含n个单词x
i
的短文本T作为输入,对于T中的每个词,模型首先查找嵌入矩阵其中v是固定大小的词汇表,d是词嵌入的大小;E是通过预训练的词嵌入向量化;每个单词x
i
都将被转换成一个向量表示w
i
;短文本T是以下形式的单词序列:T=(w1,w2,

,w
n
)
T
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)步骤4:词编码层;在该层中,模型采用Bi

GRU进行词编码,GRU具体的步骤和计算公式如(2)

(5)所示:r
t
=σ(W
r
[h
t
‑1,x
t
])
ꢀꢀꢀꢀꢀꢀꢀꢀ
(2)u
t
=σ(W
u
[h
t
‑1,x
t
])
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)(3)其中,r
t
、u
t
分别代表着重置门和更新门,W
r
、W
u
、W表示GRU网络权重矩阵,σ、tanh表示激活函数,符号表示Hadamard的乘积,h

t
和h
t
表示隐藏状态,h
t
‑1表示上一时间段的隐藏状态;模型MHA

BiGRU词编码层中,采用Bi

GRU进行建模,每个词都是通过对短文本中两个方向,即前向和后向的上下文信息来实现的,这两个方向中的GRU处理信息的所采用的方法过程是一样的,只是处理这些信息时的方向不同;在Bi

GRU中,该模型采用表示网络从前向后获取文本特征信息的隐藏向量,具体通过公式(6)计算,表示网络从后向前获取文本特征信息的隐藏向量,具体通过公式(7)计算;由公式(6)和公式(7)得到两个方向不同的隐藏向量后通过公式(8)得到Bi

GRU的最终隐藏向量;GRU的最终隐藏向量;GRU的最终隐藏向量;以上的过程帮助模型获得了短文本中每个单词的所有表示,短文本的表示如公式(9)所示:H=(h1,h2,
...

【专利技术属性】
技术研发人员:苏方红程飞杜亚军贾鹏
申请(专利权)人:西华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1