【技术实现步骤摘要】
一种基于深度学习和辅助特征的短文本立场检测方法
[0001]本专利技术属于信息分析
,具体涉及一种基于深度学习和辅助特征的短文本立场检测方法。
技术介绍
[0002]随着互联网的蓬勃发展,社交媒体已成为时事新闻的重要来源,使得社交媒体在互联网上的分享和发表意见空前增长。因此,产生了大量的社交媒体相关数据,为社交媒体中对姿态检测感兴趣的研究人员提供了巨大的语料库和应用领域。立场检测被视为情感分析的一个子分支,用于确定作者对目标任务的支持、反对两种。立场检测对于现实生活中的许多应用领域都有研究价值。
[0003]因此,分析社交网络中的短文本立场对维护社会稳定和建立正确的舆论起着导向作用。并且随着深度学习的兴起,采用深度学习的特点进行短文本立场检测也成为了一种趋势。
技术实现思路
[0004]之前的立场检测研究可以大致分为基于机器学习和机遇深度学习两个方面。均是针对短文本的方法去处理所有信息,而很少有人对短文本之外的辅助信息进行特征提取。本专利技术针对以上问题,通过对社交网络中的数据集进行处理分析,并采用短文本外的辅助特征值进行精细化处理,通过Bi
‑
GRU网络对短文本特征进行提取,并通过多头注意力机制分配给不同的权重,与外部所提出到的辅助特征向量融合进行分类,提出一种基于深度学习和辅助特征的短文本立场检测方法,并给出了该方法的详细实现流程。
[0005]本专利技术目的在于提供一种基于深度学习和辅助特征的短文本立场检测方法,能够在大规模社交网络中识别短文本的立场类别。 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度学习和辅助特征的短文本立场检测方法,其特征在于,包括以下步骤:步骤1:对从互联网当中所获取到的用户所发表的短文本数据进行预处理;步骤2:辅助特征提取层使用SVM开发基于统计机器学习的方法,方法中使用了以下手工提取的特征:(1)语义特征;(2)情感特征:(3)其他特征:步骤3:词嵌入;模型采用通过在维基百科上训练好的Word2Vec模型进行文本向量化表示;模型中,将给定一个包含n个单词x
i
的短文本T作为输入,对于T中的每个词,模型首先查找嵌入矩阵其中v是固定大小的词汇表,d是词嵌入的大小;E是通过预训练的词嵌入向量化;每个单词x
i
都将被转换成一个向量表示w
i
;短文本T是以下形式的单词序列:T=(w1,w2,
…
,w
n
)
T
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)步骤4:词编码层;在该层中,模型采用Bi
‑
GRU进行词编码,GRU具体的步骤和计算公式如(2)
‑
(5)所示:r
t
=σ(W
r
[h
t
‑1,x
t
])
ꢀꢀꢀꢀꢀꢀꢀꢀ
(2)u
t
=σ(W
u
[h
t
‑1,x
t
])
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)(3)其中,r
t
、u
t
分别代表着重置门和更新门,W
r
、W
u
、W表示GRU网络权重矩阵,σ、tanh表示激活函数,符号表示Hadamard的乘积,h
′
t
和h
t
表示隐藏状态,h
t
‑1表示上一时间段的隐藏状态;模型MHA
‑
BiGRU词编码层中,采用Bi
‑
GRU进行建模,每个词都是通过对短文本中两个方向,即前向和后向的上下文信息来实现的,这两个方向中的GRU处理信息的所采用的方法过程是一样的,只是处理这些信息时的方向不同;在Bi
‑
GRU中,该模型采用表示网络从前向后获取文本特征信息的隐藏向量,具体通过公式(6)计算,表示网络从后向前获取文本特征信息的隐藏向量,具体通过公式(7)计算;由公式(6)和公式(7)得到两个方向不同的隐藏向量后通过公式(8)得到Bi
‑
GRU的最终隐藏向量;GRU的最终隐藏向量;GRU的最终隐藏向量;以上的过程帮助模型获得了短文本中每个单词的所有表示,短文本的表示如公式(9)所示:H=(h1,h2,
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。