【技术实现步骤摘要】
面向社交媒体内容的多目标群体分类方法
[0001]本专利技术属于计算机
,具体涉及一种面向社交媒体内容的多目标群体分类方法,用于立场检测和舆情分析
。
技术介绍
[0002]随着信息技术的快速发展和普及,网络社交媒体已经成为当代重要舆论场,其上每天都会产生巨量的个性化内容
。
分析社交媒体上的文本内容对某些特定目标的立场就显得尤为重要,它可以帮助舆情管理者快速掌握当前的舆论动向,进行相应的决策应对,并有针对性地开展舆论干预和引导
。
针对立场检测,目前的技术大致可分为单目标立场检测
、
多目标立场检测和跨目标立场检测
。
[0003]单目标立场检测旨在识别文本作者对一个目标的态度
(
如“支持”、“反对”、“中立”等
)
,其核心步骤通常包括文本表示学习
、
目标表示学习和立场分类,也有不少工作将目标语义融入文本表示学习过程,从而获得目标特定的文本表示
。
同一个文本中,作者可能对多个目标对象发表立场观点,多目标立场检测即判断文本作者对多个给定目标所持有的立场,现有方法可大致分为独立目标检测和联合目标检测,前者针对每个目标,单独训练一个模型来进行分类预测,即将多目标立场检测划分为多个单目标立场检测;后者则为所有目标训练同一个模型进行预测,因此训练成本更低,应用场景更广
。
跨目标立场检测旨在实现对训练时未出现的目标
(
称作“终目标”)<
【技术保护点】
【技术特征摘要】
1.
一种面向社交媒体内容的多目标群体分类方法,其特征在于,包括目标指示词检测步骤
、
目标相关性检测步骤和目标倾向性分析步骤,其中目标相关性检测步骤包括文本与目标编码
、
一级目标嵌入注意力
、
一级目标相关性分类
、
层间目标动态路由
、
二级目标嵌入注意力
、
一级相关性注意力
、
二级目标相关性分类
、
训练和测试网络;目标倾向性分析步骤包括输入模板映射
、
文本编码
、
目标感知的对比学习
、
目标倾向性分类
、
训练和测试网络,其中:
(1)
目标指示词检测步骤:使用基于概率统计学的方法,从训练语料库中自动检测与各个目标最相关的一些词,从而将抽象的目标概念转换为具体的词汇描述,具体包括以下子步骤:
(1
‑
1)
对训练语料库中的所有文本进行分词;
(1
‑
2)
记两级目标的集合为记两级目标的集合为
T1,T2分别为一级
、
二级目标集合,
n1,n2分别为一级
、
二级目标的个数;对
l(l
=
1,2)
级目标从训练语料库中选择与相关的文本组成语料库
c
r
,其余与不相关的文本组成语料库
c
u
;
(1
‑
3)
对
c
r
和
c
u
中的所有词进行排序,一个词在
c
r
中的重要性越高
、
在
c
u
中的重要性越低,则排序位置越靠前,取排名前
k
的词作为目标的指示词;
(2)
目标相关性检测步骤:由于一条文本通常只会涉及
T
中的部分目标,因此该步骤检测文本与每个目标的相关性,得到文本在每一级的相关目标和不相关目标对于每条文本,目标相关性检测包括以下子步骤:
(2
‑
1)
文本与目标编码:使用预训练语言模型对文本和目标进行编码,得到文本中每个词的表示
m
为文本中词的个数,
d
为表示向量维度;目标表示以及一级目标每个指示词的表示文本和目标的向量化表示;
(2
‑
2)
一级目标嵌入注意力:以文本表示
x
i
、
一级目标表示为输入,通过余弦相似度计算和卷积操作建立文本与一级目标的语义交互,得到一级目标感知的文本表示
s1;
(2
‑
3)
一级目标相关性分类:将一级目标感知的文本表示输入两层的前馈网络,并通过
sigmoid
函数得到文本与每个一级目标相关的概率:其中,均为可学习参数,
f
为激活函数,为激活函数,表示文本与第
i
个一级目标相关的概率,则
(2
‑
4)
层间目标动态路由:二级目标是所属一级目标的不同方面,一级目标的指示词看作是从不同角度描述对应的目标,因此一级目标的指示词与对应的二级目标之间存在关联;以一级目标指示词表示
p
i
和二级目标表示为输入,通过层间动态路由建立二者的信息传递,得到新的二级目标
表示
(2
‑
5)
二级目标嵌入注意力:现在有两种二级目标嵌入,一种是步骤
(2
‑
1)
中指示词经过编码得到的一种是步骤
(2
‑
4)
中由层间目标动态路由得到的对这两种二级目标嵌入,分别使用目标嵌入注意力建立与文本的语义交互,得到两种二级目标感知的文本表示和
(2
‑
6)
一级相关性注意力:由于一级目标数量较少,相关性预测更容易,准确率较高,因此将一级相关性预测结果引入二级相关性预测的过程,帮助提升二级相关性预测的准确率;使用一级相关性注意力实现上述动机,以步骤
(2
‑
3)
得到的一级目标相关概率步骤
(2
‑
1)
得到的一级目标表示和文本词表示
x
i
为输入,将的加权和作为查询
、x
i
作为键和值,经过注意力操作,得到一级相关性预测结果感知的文本表示
(2
‑
7)
二级目标相关性分类:应用门控机制融合两种二级目标感知的文本表示以及一级相关性预测结果感知的文本表示然后使用前馈神经网络,预测二级目标相关概率
(2
‑
8)
训练和测试网络:基于预测的目标相关概率和真实的目标相关概率
y1,y2构建损失函数,然后使用
BP
算法训练网络以最小化损失函数;训练完成后,输入测试集中的文本从而得到各个测试样本的相关目标;
(3)
目标倾向性分析步骤:使用基于提示模板的文本编码方式,预测文本对中每个二级相关目标的倾向性;对于每条文本,目标倾向性分析包括以下子步骤:
(3
‑
1)
输入模板映射:给定一个模板和一个相关目标,将输入文本
x
inp
和相关目标指示词
x
ind
映射为提示文本
x
prompt
:
(3
‑
2)
文本编码:将提示文本
x
prompt
输入预训练语言模型
RoBERTa
,捕获深度上下文语义特征,从预训练语言模型最后一层提取
[MASK]
对应的隐藏向量作为文本表示:
s
=
h
[MASK]
(3
‑
3)
目标感知的对比学习:为了使相同倾向性类别文本的向量表示尽量接近,不同倾向性类别文本的向量表示尽量远离,同时促使模型更加关注目标信息,进行目标感知的对比学习;对于一个训练
batch
内的每一条文本
x
i
,记其目标为
t
i
,与
x
i
的倾向性类别相同且目标相同的文本作为
x
i
的正例,与
x
i
的倾向性类别不同或目标不同的文本作为
x
i
的负例,计算对比学习损失函数对比学习损失函数
其中,
B
为训练
batch
大小,
s
i
为文本
x
i
的向量表示,
P(i)
=
{j|i≠j,t
i
=
t
j
,y
i
=
y
j
}
,
B(i)
=
{1,2,
…
,B}\{i}
,
τ
为温度系数;
(3
‑
4)
目标倾向性分类:基于步骤
(3
‑
2)
得到的文本表示
s
,使用前馈网络预测文本对给定目标的倾向性类别,将网络输出转换为概率分布
(3
‑
5)
训练和测试网络:基于预测的倾向性类别概率分布和真实倾向性标签构建损失函数,并联合目标感知的对比学习损失使用
BP
算法训练网络以最小化损失函数,训练完成后,输入测试集中的文本从而得到各个测试样本对各个相关目标的倾向性类别
。2.
如权利要求1所述的面向社交媒体内容的多目标群体分类方法,其特征在于,所述步骤
(1
‑
3)
中,使用带有
Dirichlet
先验的加权对数比方法对语料库
c
r
和
c
u
中的词进行排序,具体步骤如下:使用带有
Dirichlet
先验的加权对数比计算词
w
在两个语料库中的使用频率差异:其中,
n
r
为语料库
c
r
中词的数量,
n
u
语料库
c
u
中词的数量,分别为词
w
在语料库
c
r
,c
u
中出现的次数;
n0为背景语料库中词的数量,为词
w
在背景语料库中出现的次数;计算对数比的方差,最后计算词
w
的
Z
分数:分数:
Z
w
越高说明词
w
在语料库
c
r
中越重要,而在语...
【专利技术属性】
技术研发人员:徐明华,刘松涛,张铮,崔向阳,王鑫,魏凯,
申请(专利权)人:人民网股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。